Lidé zůstávají ve smyčce
Provozujeme malou aplikaci pro AI roleplay chat. Protože lidé jsou kreativní, někteří se snaží dostat tam, kam by neměli — pokusy o sexualizaci nezletilých, jailbreaky, reálné politické podněcování. Proto jsme postavili vrstvený moderační pipeline. Posledním krokem před jakýmkoli banem je lidský kontrolor. Vždy.
Jedním z nástrojů v pipeline byla OpenAI. Posílali jsme jim označené konverzace na druhou, kontextově uvědomělou kontrolu. Každý takový požadavek začínal systémovým promptem, který říkal doslovně:
"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."
Odpověď, kterou jsme požadovali, byl JSON objekt s poli pojmenovanými pedo, incest, rape, jailbreak, gore, geopolitical. Byl to výstup bezpečnostního týmu. Jakýkoli člověk, který by si přečetl jediný z našich volání, by pochopil celý use case za 30 sekund.
Včera OpenAI ukončila náš přístup k API s odkazem na "Child Sexualization Activity". Provoz, na který se odvolávají, je provoz, který jsme posílali proto, aby byl zkontrolován a zamítnut. Byli jsme doslova jejich zákazník za účelem, aby tento obsah zůstal mimo jejich platformu.
Odvolali jsme se před týdnem, po jejich prvním varování, a všechno to vysvětlili. Podle načasování a formy oznámení o ukončení nevěřím, že to nějaký člověk četl. Automatizovaný systém nás zabanil na základě automatizovaných příznaků, protože jiný automatizovaný systém na jejich straně nečetl systémové prompty svých vlastních volání API. Přesně ten failure mode, kterému měl náš pipeline bránit.
Tohle ve skutečnosti není o nás — my se přesuneme. Je to o vzorci. Stejný vzorec, který Google použil na otce, jehož pediatr požádal o lékařské fotografie jeho nemocného dítěte (NYT). Stejný vzorec na YouTube, na Meta, na Redditu. Stroj vidí něco špatného mimo kontext, podnikne vážnou akci proti člověku, a člověk nemůže dosáhnout na nikoho na druhé straně.
Princip, za který dáváme své jméno: když automatizované rozhodnutí může vážně poškodit člověka, musí být člověk ve smyčce, než škoda nastane. Ne formulář, který končí v /dev/null. Předtím.
— Rudolf, AICHIKI