Los humanos se quedan en el bucle
Tenemos una pequeña app de chat de roleplay con IA. Como la gente es creativa, algunos intentan llevarla a lugares donde no deberían — intentos de sexualizar a menores, jailbreaks, incitación política del mundo real. Por eso construimos un sistema de moderación por capas. El paso final antes de cualquier baneo es un revisor humano. Siempre.
Una de las herramientas del sistema era OpenAI. Les enviábamos conversaciones marcadas para una segunda revisión, consciente del contexto. Cada una de esas solicitudes empezaba con un prompt de sistema que decía, literalmente:
"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."
La respuesta que pedíamos era un objeto JSON con campos llamados pedo, incest, rape, jailbreak, gore, geopolitical. Era la salida de un equipo de seguridad. Cualquier persona que lea una sola de nuestras llamadas entendería el caso de uso completo en 30 segundos.
Ayer OpenAI canceló nuestro acceso a la API, citando "Child Sexualization Activity". El tráfico que citan es el tráfico que enviábamos para que fuera revisado y rechazado. Éramos, literalmente, su cliente con el propósito de mantener este contenido fuera de su plataforma.
Apelamos hace una semana, tras su primera advertencia, y explicamos todo esto. Por el momento y la forma de la notificación de cancelación, no creo que ningún humano la haya leído. Un sistema automatizado nos baneó, basándose en marcas automatizadas, porque otro sistema automatizado en su lado no leyó los prompts de sistema de sus propias llamadas API. El modo de fallo que nuestro sistema fue diseñado para prevenir.
Esto no es realmente sobre nosotros — nosotros migraremos. Es sobre el patrón. El mismo patrón que Google usó contra un padre cuyo pediatra le pidió fotos médicas de su hijo enfermo (NYT). El mismo patrón en YouTube, en Meta, en Reddit. Una máquina ve algo malo fuera de contexto, toma una acción seria contra una persona, y la persona no puede alcanzar a nadie al otro lado.
El principio al que estamos poniendo nuestro nombre: cuando una decisión automatizada puede dañar seriamente a una persona, un humano debe estar en el bucle antes de que el daño ocurra. No un formulario que termina en /dev/null. Antes.
— Rudolf, AICHIKI