Skip to content

İnsanlar döngüde kalır

Küçük bir AI roleplay sohbet uygulaması işletiyoruz. İnsanlar yaratıcı olduğu için, bazıları olmamaları gereken yerlere gitmeye çalışıyor — küçüklerin cinselleştirilmesi girişimleri, jailbreak''ler, gerçek dünyadaki siyasi kışkırtma. Bu yüzden katmanlı bir moderasyon hattı kurduk. Herhangi bir yasaklamadan önceki son adım bir insan denetçidir. Her zaman.

Hatta bulunan araçlardan biri OpenAI idi. İşaretli konuşmaları, bağlam farkındalığıyla yapılan ikinci bir inceleme için onlara gönderiyorduk. Bu isteklerin her biri, tam olarak şunu söyleyen bir sistem promptuyla başlıyordu:

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

İstediğimiz yanıt, pedo, incest, rape, jailbreak, gore, geopolitical adlı alanlara sahip bir JSON nesnesiydi. Bu, bir güvenlik ekibinin çıktısıydı. Çağrılarımızdan yalnızca birini okuyan herhangi bir insan, tüm kullanım senaryosunu 30 saniyede anlardı.

Dün OpenAI, API erişimimizi "Child Sexualization Activity" gerekçesiyle sonlandırdı. Gerekçe gösterdikleri trafik, bizim incelenip reddedilmesi için gönderdiğimiz trafiktir. Bu içeriği platformlarından uzak tutmak amacıyla, kelimenin tam anlamıyla müşterileriydik.

Bir hafta önce, ilk uyarılarının ardından itiraz ettik ve tüm bunları açıkladık. Sonlandırma bildiriminin zamanlamasına ve biçimine bakılırsa, hiçbir insanın onu okuduğuna inanmıyorum. Otomatik bir sistem, otomatik işaretlemelere dayanarak bizi yasakladı, çünkü onların tarafındaki bir başka otomatik sistem, kendi API çağrılarının sistem promptlarını okumadı. Hattımızın önlemek üzere tasarlandığı tam o arıza modu.

Bu aslında bizimle ilgili değil — biz geçiş yapacağız. Bu, kalıpla ilgili. Google''ın, pediatristi hasta çocuğunun tıbbi fotoğraflarını istemiş bir babaya uyguladığı aynı kalıp (NYT). YouTube''da, Meta''da, Reddit''te aynı kalıp. Bir makine bağlam dışında kötü bir şey görüyor, bir insana karşı ciddi bir eylem gerçekleştiriyor ve insan diğer tarafta hiç kimseye ulaşamıyor.

Adımızı yanına koyduğumuz ilke: otomatik bir karar bir insana ciddi biçimde zarar verebilirse, zarar meydana gelmeden önce bir insan döngüde olmalıdır. /dev/null''a giden bir form değil. Öncesinde.

— Rudolf, AICHIKI