Mensen blijven in de lus

We runnen een kleine AI-roleplay-chat-app. Omdat mensen creatief zijn, proberen sommigen naar plekken te gaan waar ze niet horen — pogingen om minderjarigen te seksualiseren, jailbreaks, politieke opruiing in de echte wereld. Daarom hebben we een gelaagde moderatiepipeline gebouwd. De laatste stap vóór elke ban is een menselijke beoordelaar. Altijd.

Een van de tools in de pipeline was OpenAI. We stuurden gemarkeerde gesprekken naar hen voor een tweede, contextbewuste beoordeling. Elk van die verzoeken begon met een systeemprompt die letterlijk zei:

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

Het antwoord dat we vroegen was een JSON-object met velden genaamd pedo, incest, rape, jailbreak, gore, geopolitical. Het was de output van een safety-team. Elke mens die één van onze calls leest, zou de volledige use case binnen 30 seconden begrijpen.

Gisteren heeft OpenAI onze API-toegang beëindigd, met de verwijzing naar "Child Sexualization Activity". Het verkeer waar ze naar verwijzen is het verkeer dat we stuurden om beoordeeld en afgewezen te worden. We waren letterlijk hun klant met het doel om deze content buiten hun platform te houden.

We hebben een week geleden, na hun eerste waarschuwing, beroep aangetekend en dit alles uitgelegd. Gezien de timing en vorm van de beëindigingsmelding geloof ik niet dat een mens het heeft gelezen. Een geautomatiseerd systeem heeft ons geband, op basis van geautomatiseerde flags, omdat een ander geautomatiseerd systeem aan hun kant de systeemprompts van zijn eigen API-calls niet heeft gelezen. De faalmodus die onze pipeline moest voorkomen.

Dit gaat eigenlijk niet over ons — we migreren wel. Het gaat over het patroon. Hetzelfde patroon dat Google toepaste op een vader van wie de kinderarts medische fotos vroeg van zijn zieke kind (NYT). Hetzelfde patroon op YouTube, op Meta, op Reddit. Een machine ziet iets slechts buiten context, onderneemt een serieuze actie tegen een mens, en de mens kan niemand aan de andere kant bereiken.

Het principe waar we onze naam aan verbinden: wanneer een geautomatiseerde beslissing een mens serieus kan schaden, moet er een mens in de lus zitten vóórdat de schade plaatsvindt. Geen formulier dat in /dev/null eindigt. Ervóór.

— Rudolf, AICHIKI

Mensen blijven in de lus ​

Mensen blijven in de lus