Skip to content

Люди залишаються в циклі

Ми тримаємо невеликий застосунок для AI роллплей-чату. Оскільки люди креативні, деякі з них намагаються зайти туди, куди не слід — спроби сексуалізації неповнолітніх, джейлбрейки, реальне політичне підбурювання. Тож ми побудували шаруватий модераційний пайплайн. Останнім кроком перед будь-яким баном є людина-рецензент. Завжди.

Один із інструментів у пайплайні був OpenAI. Ми надсилали їм позначені розмови для другої перевірки, яка усвідомлює контекст. Кожен з цих запитів починався із системного промпту, який дослівно казав:

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

Відповідь, яку ми просили, — це був JSON-об''єкт з полями під назвами pedo, incest, rape, jailbreak, gore, geopolitical. Це був вихід команди безпеки. Будь-яка людина, прочитавши лише один із наших викликів, зрозуміла б увесь use case за 30 секунд.

Учора OpenAI припинили наш доступ до API, посилаючись на "Child Sexualization Activity". Трафік, на який вони посилаються, — це трафік, який ми надсилали для того, щоб його перевірили і відхилили. Ми буквально були їхніми клієнтами саме для того, щоб цей контент не потрапляв на їхню платформу.

Ми подали апеляцію тиждень тому, після їхнього першого попередження, і пояснили усе це. Судячи з часу та форми повідомлення про припинення, я не думаю, що його прочитала якась людина. Автоматизована система забанила нас на основі автоматизованих позначень, тому що інша автоматизована система з їхнього боку не прочитала системних промптів своїх власних викликів API. Саме той режим відмови, який наш пайплайн був розроблений запобігати.

Це насправді не про нас — ми мігруємо. Це про шаблон. Той самий шаблон, який Google застосував до батька, у якого педіатр попросив медичні фотографії його хворої дитини (NYT). Той самий шаблон на YouTube, на Meta, на Reddit. Машина бачить щось погане поза контекстом, вживає серйозних дій проти людини, і людина не може дістатися до когось з іншого боку.

Принцип, під яким ми ставимо своє ім''я: коли автоматизоване рішення може серйозно зашкодити людині, людина має бути в циклі ще до того, як шкода станеться. Не форма, що йде в /dev/null. До цього.

— Rudolf, AICHIKI