Oamenii rămân în buclă

Avem o aplicație mică de chat roleplay cu AI. Pentru că oamenii sunt creativi, unii încearcă să împingă în locuri unde nu ar trebui — încercări de a sexualiza minori, jailbreak-uri, instigare politică din lumea reală. Așa că am construit un pipeline de moderare stratificat. Pasul final înainte de orice ban este un recenzor uman. Întotdeauna.

Una dintre uneltele din pipeline era OpenAI. Le trimiteam conversațiile semnalate pentru o a doua revizuire, conștientă de context. Fiecare dintre aceste cereri începea cu un prompt de sistem care spunea, textual:

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

Răspunsul pe care îl ceream era un obiect JSON cu câmpuri numite pedo, incest, rape, jailbreak, gore, geopolitical. Era output-ul unei echipe de siguranță. Orice om care citește un singur apel de-al nostru ar înțelege întregul caz de utilizare în 30 de secunde.

Ieri OpenAI ne-a reziliat accesul la API, invocând "Child Sexualization Activity". Traficul pe care îl invocă este traficul pe care îl trimiteam pentru a fi revizuit și respins. Eram literalmente clientul lor în scopul de a ține acest conținut în afara platformei lor.

Am făcut apel acum o săptămână, după primul lor avertisment, și am explicat toate acestea. Judecând după momentul și forma notificării de reziliere, nu cred că vreun om a citit-o. Un sistem automat ne-a banat, pe baza unor semnalizări automate, pentru că un alt sistem automat de partea lor nu a citit prompt-urile de sistem ale propriilor apeluri API. Modul de eșec pe care pipeline-ul nostru a fost proiectat să îl prevină.

Asta nu e de fapt despre noi — vom migra. Este despre tipar. Același tipar pe care Google l-a folosit asupra unui tată al cărui pediatru i-a cerut fotografii medicale ale copilului bolnav (NYT). Același tipar pe YouTube, pe Meta, pe Reddit. O mașină vede ceva rău în afara contextului, ia o acțiune serioasă împotriva unui om, iar omul nu poate ajunge la nimeni de cealaltă parte.

Principiul cu care ne punem numele: când o decizie automată poate răni serios un om, un om trebuie să fie în buclă înainte ca răul să se producă. Nu un formular care ajunge în /dev/null. Înainte.

— Rudolf, AICHIKI

Oamenii rămân în buclă ​

Oamenii rămân în buclă