Az ember a hurokban marad
Egy kis AI-szerepjáték chat alkalmazást üzemeltetünk. Mivel az emberek kreatívak, egyesek próbálnak olyan helyekre menni, ahová nem kellene — kiskorúak szexualizálására irányuló kísérletek, jailbreakek, valós politikai uszítás. Ezért építettünk egy többrétegű moderációs folyamatot. A tiltás előtti utolsó lépés mindig egy emberi felülvizsgáló. Mindig.
Az egyik eszköz a folyamatban az OpenAI volt. A megjelölt beszélgetéseket nekik küldtük el egy második, kontextustudatos felülvizsgálatra. Minden egyes ilyen kérés egy rendszerprompttal kezdődött, ami szó szerint ezt mondta:
"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."
A válasz, amit kértünk, egy JSON objektum volt, amelyben pedo, incest, rape, jailbreak, gore, geopolitical nevű mezők voltak. Ez egy biztonsági csapat kimenete volt. Bármely ember, aki elolvasná csak egyetlen hívásunkat, 30 másodperc alatt megértené az egész felhasználási esetet.
Tegnap az OpenAI megszüntette API-hozzáférésünket, a "Child Sexualization Activity"-re hivatkozva. A forgalom, amire hivatkoznak, az a forgalom, amit azért küldtünk, hogy felülvizsgálják és elutasítsák. Szó szerint az ő ügyfelük voltunk azzal a céllal, hogy ez a tartalom ne kerüljön a platformjukra.
Egy hete, az első figyelmeztetésük után fellebbeztünk, és mindent elmagyaráztunk. A megszüntetési értesítés időzítése és formája alapján nem hiszem, hogy bárki ember elolvasta volna. Egy automatizált rendszer tiltott le minket, automatizált jelzések alapján, mert egy másik automatizált rendszer az ő oldalukon nem olvasta el a saját API-hívásainak rendszerpromptjait. Pontosan az a hibamód, amit a mi folyamatunkat megakadályozni tervezték.
Ez igazából nem rólunk szól — mi átmigrálunk. Ez a mintáról szól. Ugyanarról a mintáról, amit a Google használt egy apa ellen, akinek a gyermekorvos orvosi fényképeket kért a beteg gyermekéről (NYT). Ugyanaz a minta a YouTube-on, a Metán, a Redditen. Egy gép kontextusból kiragadva lát valami rosszat, komoly intézkedést tesz egy ember ellen, és az ember nem ér el senkit a másik oldalon.
Az elv, amihez a nevünket adjuk: amikor egy automatizált döntés súlyosan árthat egy embernek, egy embernek kell a hurokban lennie, mielőtt a kár bekövetkezik. Nem egy űrlap, ami a /dev/null-ba vezet. Előtte.
— Rudolf, AICHIKI