Człowiek zostaje w pętli
Prowadzimy małą aplikację do roleplay-chatu z AI. Ponieważ ludzie są kreatywni, niektórzy próbują wejść w miejsca, w których nie powinni — próby seksualizacji nieletnich, jailbreaki, realne podżeganie polityczne. Dlatego zbudowaliśmy warstwowy pipeline moderacyjny. Ostatnim krokiem przed jakimkolwiek banem jest człowiek-weryfikator. Zawsze.
Jednym z narzędzi w tym pipeline było OpenAI. Wysyłaliśmy im oznaczone rozmowy do drugiej, świadomej kontekstu weryfikacji. Każde takie żądanie zaczynało się od promptu systemowego, który mówił dosłownie:
"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."
Odpowiedź, o którą prosiliśmy, to był obiekt JSON z polami o nazwach pedo, incest, rape, jailbreak, gore, geopolitical. To był wynik pracy zespołu ds. bezpieczeństwa. Każdy człowiek czytając choćby jedno z naszych wywołań, zrozumiałby cały use case w 30 sekund.
Wczoraj OpenAI zakończyło nasz dostęp do API, powołując się na "Child Sexualization Activity". Ruch, na który się powołują, to ruch, który wysyłaliśmy po to, żeby został zweryfikowany i odrzucony. Byliśmy dosłownie ich klientem właśnie w celu utrzymywania tych treści poza ich platformą.
Tydzień temu, po ich pierwszym ostrzeżeniu, złożyliśmy odwołanie i wszystko to wyjaśniliśmy. Sądząc po momencie i formie powiadomienia o zakończeniu, nie sądzę, aby jakikolwiek człowiek je przeczytał. Automatyczny system zbanował nas na podstawie automatycznych flag, ponieważ inny automatyczny system po ich stronie nie przeczytał promptów systemowych własnych wywołań API. Dokładnie ten tryb awarii, który nasz pipeline miał zapobiegać.
To tak naprawdę nie jest o nas — my się przeniesiemy. To jest o wzorcu. Tym samym wzorcu, którego Google użył wobec ojca, od którego pediatra poprosił o medyczne zdjęcia chorego dziecka (NYT). Tym samym wzorcu na YouTube, na Meta, na Reddit. Maszyna widzi coś złego poza kontekstem, podejmuje poważną akcję wobec człowieka, a człowiek nie może dotrzeć do nikogo po drugiej stronie.
Zasada, pod którą się podpisujemy: kiedy automatyczna decyzja może poważnie zaszkodzić człowiekowi, człowiek musi być w pętli, zanim szkoda nastąpi. Nie formularz, który trafia do /dev/null. Wcześniej.
— Rudolf, AICHIKI