人类必须留在环中

我们运营着一款小型的 AI 角色扮演聊天应用。由于人总是有创造力的，有些用户会尝试进入他们不该去的地方——试图将未成年人性化、越狱（jailbreak）、现实世界中的政治煽动。所以我们构建了一条分层的审核管线。任何封禁之前的最后一步，始终是一名人工审核员。始终如此。

管线中的工具之一就是 OpenAI。我们曾把被标记的对话发给他们做第二轮、具备上下文意识的复核。每一个这样的请求都以一条系统提示开始，原文如下：

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

我们要求的返回是一个 JSON 对象，字段名为 pedo、incest、rape、jailbreak、gore、geopolitical。那就是一个安全团队的产出。任何人只要读过我们其中任意一次调用，都能在 30 秒内理解整个使用场景。

昨天 OpenAI 以 "Child Sexualization Activity" 为由终止了我们的 API 访问。他们所引用的流量，就是我们发过去让他们审核并拒绝的流量。我们原本就是他们的客户，目的就是让这类内容远离他们的平台。

我们在他们第一次警告后的一周前提出过申诉，并把所有这些都解释了。从终止通知的时间点和形式来看，我不相信有任何人读过它。一个自动化系统把我们封掉了，依据的是自动化的标记，因为他们这一端的另一个自动化系统没有读取它自己 API 调用上的系统提示。这正是我们管线被设计来防止的那种失败模式。

这其实并不是关于我们——我们会迁移走。这是关于这个模式。就是 Google 用在那位父亲身上的同一个模式——他的儿科医生要求他拍摄生病孩子的医学照片（NYT）。YouTube、Meta、Reddit 上也是同一个模式。一台机器脱离上下文看到某个不好的东西，对一个人采取了严重行动，而这个人无法触及另一端的任何人。

我们以我们的名义确立的原则：当一项自动化决策可能严重伤害一个人时，必须在伤害降临之前就有人在环中。不是一个指向 /dev/null 的表单，而是在之前。

— Rudolf, AICHIKI

人类必须留在环中 ​

人类必须留在环中