Humanos ficam no circuito

Administramos um pequeno app de chat de roleplay com IA. Como as pessoas são criativas, algumas tentam ir a lugares onde não deveriam — tentativas de sexualizar menores, jailbreaks, incitação política no mundo real. Por isso construímos um pipeline de moderação em camadas. A etapa final antes de qualquer banimento é um revisor humano. Sempre.

Uma das ferramentas do pipeline era a OpenAI. Enviávamos a eles conversas sinalizadas para uma segunda revisão, consciente do contexto. Cada uma dessas requisições começava com um prompt de sistema que dizia, literalmente:

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

A resposta que pedíamos era um objeto JSON com campos chamados pedo, incest, rape, jailbreak, gore, geopolitical. Era a saída de uma equipe de segurança. Qualquer humano lendo uma única de nossas chamadas entenderia todo o caso de uso em 30 segundos.

Ontem a OpenAI encerrou nosso acesso à API, citando "Child Sexualization Activity". O tráfego que eles citam é o tráfego que enviávamos para ser revisado e rejeitado. Éramos literalmente clientes deles com o propósito de manter esse conteúdo fora da plataforma.

Recorremos há uma semana, após o primeiro aviso, e explicamos tudo isso. Pelo momento e forma do aviso de encerramento, não acredito que nenhum humano o tenha lido. Um sistema automatizado nos baniu, com base em sinalizações automatizadas, porque um outro sistema automatizado do lado deles não leu os prompts de sistema das próprias chamadas da API deles. O modo de falha que nosso pipeline foi desenhado para prevenir.

Isto não é realmente sobre nós — vamos migrar. É sobre o padrão. O mesmo padrão que o Google usou contra um pai cujo pediatra pediu fotos médicas do filho doente (NYT). O mesmo padrão no YouTube, na Meta, no Reddit. Uma máquina vê algo ruim fora de contexto, toma uma ação séria contra um humano, e o humano não consegue alcançar ninguém do outro lado.

O princípio com o qual colocamos nosso nome: quando uma decisão automatizada pode prejudicar seriamente um humano, um humano precisa estar no circuito antes que o dano aconteça. Não um formulário que termina em /dev/null. Antes.

— Rudolf, AICHIKI

Humanos ficam no circuito ​

Humanos ficam no circuito