人間はループの中にとどまる
私たちは小さな AI ロールプレイチャットアプリを運営しています。人間は創造的であるため、一部の人は行ってはいけない場所に踏み込もうとします — 未成年の性的描写の試み、ジェイルブレイク、現実世界での政治的扇動。だから私たちは多層のモデレーションパイプラインを構築しました。どんなバンの前でも、最後のステップは人間のレビュアーです。常に。
パイプラインのツールの一つが OpenAI でした。フラグの立った会話を、コンテキストを踏まえた 2 回目のレビューのために彼らに送っていました。そのリクエストはすべて、次のシステムプロンプトで始まっていました(原文ママ):
"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."
私たちが求めていたレスポンスは、pedo、incest、rape、jailbreak、gore、geopolitical という名前のフィールドを持つ JSON オブジェクトでした。これはセーフティチームのアウトプットでした。私たちの呼び出しをたった一件でも読む人間がいれば、30 秒でユースケース全体を理解するでしょう。
昨日、OpenAI は「Child Sexualization Activity」を理由に私たちの API アクセスを停止しました。彼らが理由として挙げるトラフィックは、私たちがレビューされ拒否されるために送っていたトラフィックです。私たちは文字通り、そのコンテンツを彼らのプラットフォームから遠ざける目的で彼らの顧客になっていたのです。
一週間前、彼らの最初の警告の後、私たちはこのすべてを説明して異議申し立てをしました。停止通知のタイミングと形式からして、人間が読んでいるとは思えません。自動システムが自動的なフラグに基づいて私たちをバンしました。なぜなら、彼ら側の別の自動システムが、自分自身の API 呼び出しのシステムプロンプトを読まなかったからです。これは、私たちのパイプラインが防ぐために設計された、まさにその失敗モードです。
これは実のところ、私たちの話ではありません — 私たちは移行します。これはパターンの話です。Google が、病気の子供の医学写真を小児科医から頼まれた父親に対して使ったのと同じパターン(NYT)。YouTube、Meta、Reddit でも同じパターン。機械が文脈外で悪く見えるものを見て、人間に対して重大な行動を取り、人間は向こう側の誰にも届かない。
私たちが名前を出して掲げる原則:自動化された判断が人間に重大な危害を及ぼしうるとき、その危害が降りかかる前に人間がループの中にいなければなりません。/dev/null に流れ着くフォームではなく。その前に。
— Rudolf, AICHIKI