Skip to content

Les humains restent dans la boucle

Nous gérons une petite application de chat de roleplay avec IA. Comme les gens sont créatifs, certains essaient d''aller dans des endroits où ils ne devraient pas — tentatives de sexualisation de mineurs, jailbreaks, incitation politique dans le monde réel. Nous avons donc construit un pipeline de modération en couches. La dernière étape avant tout bannissement est un examinateur humain. Toujours.

L''un des outils du pipeline était OpenAI. Nous leur envoyions les conversations signalées pour un deuxième examen, conscient du contexte. Chacune de ces requêtes commençait par un prompt système qui disait, textuellement :

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

La réponse que nous demandions était un objet JSON avec des champs nommés pedo, incest, rape, jailbreak, gore, geopolitical. C''était la sortie d''une équipe de sécurité. N''importe quel humain lisant un seul de nos appels comprendrait l''ensemble du cas d''usage en 30 secondes.

Hier, OpenAI a résilié notre accès API, en citant « Child Sexualization Activity ». Le trafic qu''ils citent est le trafic que nous envoyions pour être examiné et rejeté. Nous étions littéralement leur client dans le but de garder ce contenu hors de leur plateforme.

Nous avons fait appel il y a une semaine, après leur premier avertissement, et avons expliqué tout cela. D''après le moment et la forme de l''avis de résiliation, je ne crois pas qu''un humain l''ait lu. Un système automatisé nous a bannis, basé sur des signalements automatisés, parce qu''un autre système automatisé de leur côté n''a pas lu les prompts système de ses propres appels API. Le mode de défaillance que notre pipeline a été conçu pour empêcher.

Ce n''est pas vraiment à propos de nous — nous migrerons. C''est à propos du schéma. Le même schéma que Google a utilisé contre un père dont le pédiatre avait demandé des photos médicales de son enfant malade (NYT). Le même schéma sur YouTube, sur Meta, sur Reddit. Une machine voit quelque chose de mauvais hors contexte, prend une action sérieuse contre un humain, et l''humain ne peut atteindre personne de l''autre côté.

Le principe que nous assumons publiquement : quand une décision automatisée peut sérieusement nuire à un humain, un humain doit être dans la boucle avant que le mal ne survienne. Pas un formulaire qui aboutit dans /dev/null. Avant.

— Rudolf, AICHIKI