Manusia tetap dalam lingkaran

Kami menjalankan sebuah aplikasi chat roleplay AI yang kecil. Karena orang-orang itu kreatif, sebagian mencoba masuk ke tempat yang seharusnya tidak mereka datangi — upaya menyeksualisasi anak di bawah umur, jailbreak, hasutan politik di dunia nyata. Maka kami membangun pipeline moderasi berlapis. Langkah terakhir sebelum setiap ban adalah seorang peninjau manusia. Selalu.

Salah satu alat dalam pipeline itu dulu adalah OpenAI. Kami mengirimkan percakapan yang ditandai kepada mereka untuk tinjauan kedua yang sadar konteks. Setiap satu dari permintaan tersebut diawali dengan system prompt yang berbunyi, secara verbatim:

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

Respons yang kami minta adalah objek JSON dengan field bernama pedo, incest, rape, jailbreak, gore, geopolitical. Itu adalah keluaran dari tim keamanan. Manusia mana pun yang membaca satu saja dari panggilan kami akan memahami seluruh use case dalam 30 detik.

Kemarin OpenAI menghentikan akses API kami dengan alasan "Child Sexualization Activity". Trafik yang mereka kutip adalah trafik yang kami kirimkan untuk ditinjau dan ditolak. Kami benar-benar adalah pelanggan mereka dengan tujuan menjaga konten semacam itu keluar dari platform mereka.

Kami mengajukan banding seminggu lalu, setelah peringatan pertama mereka, dan menjelaskan semua ini. Berdasarkan waktu dan bentuk pemberitahuan penghentian, saya tidak percaya ada manusia yang telah membacanya. Sebuah sistem otomatis membanned kami, berdasarkan flag otomatis, karena sistem otomatis lain di sisi mereka tidak membaca system prompt dari panggilan API-nya sendiri. Persis mode kegagalan yang pipeline kami dirancang untuk mencegah.

Ini sebenarnya bukan soal kami — kami akan bermigrasi. Ini soal pola. Pola yang sama yang digunakan Google pada seorang ayah yang diminta dokter anaknya mengambil foto medis anaknya yang sakit (NYT). Pola yang sama di YouTube, di Meta, di Reddit. Sebuah mesin melihat sesuatu yang buruk tanpa konteks, mengambil tindakan serius terhadap manusia, dan manusia itu tidak dapat menjangkau siapa pun di sisi lain.

Prinsip yang kami perjuangkan dengan nama kami: ketika sebuah keputusan otomatis dapat merugikan manusia secara serius, manusia harus ada dalam lingkaran sebelum kerugian itu terjadi. Bukan formulir yang berakhir di /dev/null. Sebelumnya.

— Rudolf, AICHIKI

Manusia tetap dalam lingkaran ​

Manusia tetap dalam lingkaran