Skip to content

Человек остаётся в цикле

У нас небольшое приложение для AI роллплей-чата. Поскольку люди креативны, некоторые из них пытаются зайти туда, куда не следует — попытки сексуализации несовершеннолетних, джейлбрейки, реальное политическое подстрекательство. Поэтому мы построили многоуровневый пайплайн модерации. Последний шаг перед любым баном — человек-проверяющий. Всегда.

Одним из инструментов в пайплайне был OpenAI. Мы отправляли им помеченные разговоры для второй, осознающей контекст проверки. Каждый такой запрос начинался с системного промпта, который дословно говорил:

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

Ответ, который мы запрашивали, — это был JSON-объект с полями pedo, incest, rape, jailbreak, gore, geopolitical. Это был результат работы команды безопасности. Любой человек, прочитав хотя бы один наш вызов, понял бы всю модель использования за 30 секунд.

Вчера OpenAI прекратили наш доступ к API, сославшись на "Child Sexualization Activity". Трафик, на который они ссылаются, — это трафик, который мы отправляли, чтобы его проверили и отклонили. Мы буквально были их клиентом с целью удерживать этот контент вне их платформы.

Неделю назад, после их первого предупреждения, мы подали апелляцию и всё это объяснили. Судя по времени и форме уведомления о прекращении, я не думаю, что его читал человек. Автоматизированная система забанила нас на основе автоматизированных флагов, потому что другая автоматизированная система с их стороны не прочитала системные промпты собственных API-вызовов. Именно тот режим отказа, который наш пайплайн был спроектирован предотвращать.

На самом деле это не о нас — мы мигрируем. Это о шаблоне. Том же самом шаблоне, который Google применил к отцу, у которого педиатр запросил медицинские фотографии больного ребёнка (NYT). Тот же шаблон на YouTube, в Meta, на Reddit. Машина видит что-то плохое вне контекста, предпринимает серьёзное действие против человека, и человек не может достучаться ни до кого с другой стороны.

Принцип, под которым мы ставим своё имя: когда автоматизированное решение может серьёзно навредить человеку, человек должен быть в цикле до того, как вред произойдёт. Не форма, уходящая в /dev/null. До этого.

— Rudolf, AICHIKI