Menschen bleiben in der Schleife
Wir betreiben eine kleine AI-Roleplay-Chat-App. Weil Menschen kreativ sind, versuchen einige von ihnen, an Orte vorzudringen, an denen sie nicht sein sollten — Versuche, Minderjährige zu sexualisieren, Jailbreaks, reale politische Aufwiegelung. Also haben wir eine mehrschichtige Moderationspipeline gebaut. Der letzte Schritt vor jedem Bann ist ein menschlicher Prüfer. Immer.
Eines der Werkzeuge in der Pipeline war OpenAI. Wir sendeten gemeldete Konversationen an sie für eine zweite, kontextbewusste Überprüfung. Jede einzelne dieser Anfragen begann mit einem System-Prompt, der wortwörtlich lautete:
"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."
Die Antwort, die wir anforderten, war ein JSON-Objekt mit Feldern namens pedo, incest, rape, jailbreak, gore, geopolitical. Das war das Output eines Safety-Teams. Jeder Mensch, der einen einzigen unserer Aufrufe liest, würde den gesamten Anwendungsfall in 30 Sekunden verstehen.
Gestern hat OpenAI unseren API-Zugang gekündigt und dabei "Child Sexualization Activity" angeführt. Der Traffic, auf den sie sich berufen, ist der Traffic, den wir sendeten, um geprüft und abgelehnt zu werden. Wir waren buchstäblich ihr Kunde zu dem Zweck, diese Inhalte von ihrer Plattform fernzuhalten.
Wir haben vor einer Woche, nach ihrer ersten Warnung, Einspruch eingelegt und all das erklärt. Basierend auf dem Timing und der Form der Kündigungsnachricht glaube ich nicht, dass ein Mensch sie gelesen hat. Ein automatisiertes System hat uns auf Basis automatisierter Flags gesperrt, weil ein anderes automatisiertes System auf ihrer Seite die System-Prompts seiner eigenen API-Aufrufe nicht gelesen hat. Der Fehlermodus, den unsere Pipeline verhindern sollte.
Hierbei geht es eigentlich nicht um uns — wir werden migrieren. Es geht um das Muster. Dasselbe Muster, das Google bei einem Vater anwandte, dessen Kinderarzt medizinische Fotos seines kranken Kindes angefordert hatte (NYT). Dasselbe Muster bei YouTube, bei Meta, bei Reddit. Eine Maschine sieht etwas Schlechtes aus dem Kontext gerissen, ergreift eine ernsthafte Maßnahme gegen einen Menschen, und der Mensch kann keinen Menschen auf der anderen Seite erreichen.
Das Prinzip, zu dem wir uns bekennen: Wenn eine automatisierte Entscheidung einem Menschen ernsthaft schaden kann, muss ein Mensch in der Schleife sein, bevor der Schaden eintritt. Kein Formular, das nach /dev/null geleitet wird. Davor.
— Rudolf, AICHIKI