사람은 루프 안에 남는다

우리는 작은 AI 롤플레이 채팅 앱을 운영하고 있습니다. 사람은 창의적이기 때문에 일부 사용자는 가지 말아야 할 곳까지 밀고 나가려 합니다 — 미성년자의 성적 묘사 시도, 탈옥(jailbreak), 현실 세계의 정치적 선동. 그래서 우리는 계층화된 모더레이션 파이프라인을 만들었습니다. 어떤 벤(ban)이든 그 직전의 마지막 단계는 사람 검토자입니다. 언제나.

파이프라인에 있는 도구 중 하나가 OpenAI였습니다. 우리는 플래그된 대화를 그들에게 보내 맥락을 이해한 두 번째 검토를 받았습니다. 이러한 모든 요청은 다음과 같은 시스템 프롬프트로 시작했습니다(원문 그대로):

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

우리가 요청한 응답은 pedo, incest, rape, jailbreak, gore, geopolitical 이라는 필드를 가진 JSON 객체였습니다. 이는 세이프티 팀의 산출물이었습니다. 우리의 호출을 단 한 건이라도 읽어 본 사람이라면 30초 안에 전체 사용 사례를 이해할 것입니다.

어제 OpenAI는 "Child Sexualization Activity"를 이유로 우리의 API 접근을 종료했습니다. 그들이 근거로 드는 트래픽은 우리가 검토되고 거부되도록 보낸 바로 그 트래픽입니다. 우리는 말 그대로 그 콘텐츠를 그들의 플랫폼에서 멀리 두기 위한 목적으로 그들의 고객이었습니다.

일주일 전, 그들의 첫 경고 이후 우리는 이 모든 것을 설명하며 이의를 제기했습니다. 종료 통보의 시점과 형식으로 볼 때, 누구도 사람이 이를 읽었다고는 믿지 않습니다. 자동 시스템이 자동 플래그에 근거하여 우리를 벤했고, 그 이유는 그쪽의 또 다른 자동 시스템이 자신의 API 호출에 붙은 시스템 프롬프트를 읽지 않았기 때문입니다. 정확히 우리 파이프라인이 막으려고 설계된 바로 그 실패 모드입니다.

사실 이건 우리에 관한 이야기가 아닙니다 — 우리는 이전할 겁니다. 이건 패턴에 관한 이야기입니다. Google이 소아과 의사의 요청으로 아픈 아이의 의료 사진을 찍은 아버지에게 적용한 바로 그 패턴(NYT). YouTube, Meta, Reddit에서도 똑같은 패턴. 기계가 맥락 밖에서 나쁜 것을 보고, 사람에 대해 심각한 조치를 취하고, 사람은 반대편의 누구에게도 닿을 수 없습니다.

우리가 이름을 걸고 내놓는 원칙: 자동화된 결정이 사람에게 심각한 해를 끼칠 수 있을 때, 해가 닥치기 전에 사람이 루프 안에 있어야 합니다. /dev/null로 향하는 양식이 아니라. 그 전에.

— Rudolf, AICHIKI

사람은 루프 안에 남는다 ​

사람은 루프 안에 남는다