Gli umani restano nel ciclo
Gestiamo una piccola app di chat di roleplay con IA. Poiché le persone sono creative, alcune provano a spingersi dove non dovrebbero — tentativi di sessualizzare minori, jailbreak, istigazione politica del mondo reale. Per questo abbiamo costruito una pipeline di moderazione stratificata. Il passo finale prima di ogni ban è un revisore umano. Sempre.
Uno degli strumenti della pipeline era OpenAI. Inviavamo loro le conversazioni segnalate per una seconda revisione consapevole del contesto. Ognuna di queste richieste iniziava con un prompt di sistema che recitava, testualmente:
"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."
La risposta che chiedevamo era un oggetto JSON con campi chiamati pedo, incest, rape, jailbreak, gore, geopolitical. Era l''output di un team di sicurezza. Qualsiasi umano che legga anche solo una delle nostre chiamate capirebbe l''intero caso d''uso in 30 secondi.
Ieri OpenAI ha revocato il nostro accesso alle API, citando "Child Sexualization Activity". Il traffico che citano è il traffico che inviavamo per essere revisionato e rifiutato. Eravamo letteralmente loro cliente allo scopo di tenere questi contenuti fuori dalla loro piattaforma.
Abbiamo fatto ricorso una settimana fa, dopo il loro primo avviso, e spiegato tutto questo. Dal tempismo e dalla forma dell''avviso di revoca, non credo che un umano l''abbia letto. Un sistema automatizzato ci ha bannati, sulla base di flag automatizzati, perché un altro sistema automatizzato dalla loro parte non ha letto i prompt di sistema delle proprie chiamate API. La modalità di guasto che la nostra pipeline era stata progettata per prevenire.
Questo non riguarda davvero noi — noi migreremo. Riguarda lo schema. Lo stesso schema che Google ha usato contro un padre a cui il pediatra aveva chiesto foto mediche del figlio malato (NYT). Lo stesso schema su YouTube, su Meta, su Reddit. Una macchina vede qualcosa di brutto fuori contesto, prende un''azione seria contro un umano, e l''umano non riesce a raggiungere nessuno dall''altra parte.
Il principio a cui mettiamo il nostro nome: quando una decisione automatizzata può danneggiare seriamente un umano, un umano deve essere nel ciclo prima che il danno si verifichi. Non un modulo che finisce in /dev/null. Prima.
— Rudolf, AICHIKI