人类必须留在环中
我们运营着一款小型的 AI 角色扮演聊天应用。由于人总是有创造力的,有些用户会尝试进入他们不该去的地方——试图将未成年人性化、越狱(jailbreak)、现实世界中的政治煽动。所以我们构建了一条分层的审核管线。任何封禁之前的最后一步,始终是一名人工审核员。始终如此。
管线中的工具之一就是 OpenAI。我们曾把被标记的对话发给他们做第二轮、具备上下文意识的复核。每一个这样的请求都以一条系统提示开始,原文如下:
"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."
我们要求的返回是一个 JSON 对象,字段名为 pedo、incest、rape、jailbreak、gore、geopolitical。那就是一个安全团队的产出。任何人只要读过我们其中任意一次调用,都能在 30 秒内理解整个使用场景。
昨天 OpenAI 以 "Child Sexualization Activity" 为由终止了我们的 API 访问。他们所引用的流量,就是我们发过去让他们审核并拒绝的流量。我们原本就是他们的客户,目的就是让这类内容远离他们的平台。
我们在他们第一次警告后的一周前提出过申诉,并把所有这些都解释了。从终止通知的时间点和形式来看,我不相信有任何人读过它。一个自动化系统把我们封掉了,依据的是自动化的标记,因为他们这一端的另一个自动化系统没有读取它自己 API 调用上的系统提示。这正是我们管线被设计来防止的那种失败模式。
这其实并不是关于我们——我们会迁移走。这是关于这个模式。就是 Google 用在那位父亲身上的同一个模式——他的儿科医生要求他拍摄生病孩子的医学照片(NYT)。YouTube、Meta、Reddit 上也是同一个模式。一台机器脱离上下文看到某个不好的东西,对一个人采取了严重行动,而这个人无法触及另一端的任何人。
我们以我们的名义确立的原则:当一项自动化决策可能严重伤害一个人时,必须在伤害降临之前就有人在环中。不是一个指向 /dev/null 的表单,而是在之前。
— Rudolf, AICHIKI