มนุษย์ต้องอยู่ในลูป
เราดำเนินแอปแชทบทบาทสมมติ AI ขนาดเล็กแอปหนึ่ง เนื่องจากผู้คนมีความคิดสร้างสรรค์ บางคนจึงพยายามผลักดันไปยังจุดที่พวกเขาไม่ควรไป — ความพยายามทำให้ผู้เยาว์มีนัยทางเพศ, jailbreak, การปลุกปั่นทางการเมืองในโลกจริง ดังนั้นเราจึงสร้างไปป์ไลน์การตรวจสอบแบบหลายชั้น ขั้นตอนสุดท้ายก่อนการแบนใดๆ คือผู้ตรวจสอบที่เป็นมนุษย์ เสมอ
เครื่องมือหนึ่งในไปป์ไลน์เคยคือ OpenAI เราเคยส่งบทสนทนาที่ถูกแฟล็กให้พวกเขาเพื่อการตรวจสอบครั้งที่สองซึ่งเข้าใจบริบท ทุกคำขอเหล่านั้นเคยเริ่มต้นด้วย system prompt ที่กล่าวตามตัวอักษรว่า:
"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."
คำตอบที่เราร้องขอคือออบเจกต์ JSON ที่มีฟิลด์ชื่อ pedo, incest, rape, jailbreak, gore, geopolitical มันคือผลลัพธ์ของทีมความปลอดภัย มนุษย์คนใดก็ตามที่อ่านเพียงคำขอของเราเพียงครั้งเดียวก็จะเข้าใจกรณีการใช้งานทั้งหมดได้ใน 30 วินาที
เมื่อวาน OpenAI ยุติการเข้าถึง API ของเรา โดยอ้างถึง "Child Sexualization Activity" ทราฟฟิกที่พวกเขาอ้างถึงคือทราฟฟิกที่เราส่งไปเพื่อให้ได้รับการตรวจสอบและปฏิเสธ เราเคยเป็นลูกค้าของพวกเขาตามตัวอักษรด้วยวัตถุประสงค์ที่จะกันเนื้อหาประเภทนี้ให้พ้นจากแพลตฟอร์มของพวกเขา
เราได้ยื่นอุทธรณ์เมื่อสัปดาห์ที่แล้ว หลังจากคำเตือนครั้งแรกของพวกเขา และได้อธิบายเรื่องทั้งหมดนี้ จากจังหวะเวลาและรูปแบบของประกาศยุติ ผมไม่เชื่อว่ามีมนุษย์คนใดได้อ่านมัน ระบบอัตโนมัติหนึ่งแบนเราโดยอิงจากแฟล็กอัตโนมัติ เพราะระบบอัตโนมัติอีกระบบในฝั่งของพวกเขาไม่ได้อ่าน system prompt ของการเรียก API ของตัวเอง มันคือโหมดความล้มเหลวที่ไปป์ไลน์ของเราถูกออกแบบมาเพื่อป้องกันโดยเฉพาะ
เรื่องนี้ไม่ได้เกี่ยวกับเราจริงๆ — เราจะย้ายไป มันเกี่ยวกับรูปแบบ รูปแบบเดียวกันที่ Google ใช้กับพ่อคนหนึ่งที่กุมารแพทย์ขอให้ถ่ายภาพทางการแพทย์ของลูกที่ป่วย (NYT) รูปแบบเดียวกันบน YouTube, บน Meta, บน Reddit เครื่องจักรเห็นบางสิ่งที่ดูแย่โดยปราศจากบริบท ดำเนินการอย่างจริงจังต่อมนุษย์ และมนุษย์ก็ไม่สามารถเข้าถึงใครในอีกฟากหนึ่งได้
หลักการที่เรานำชื่อของเราไปผูกไว้: เมื่อการตัดสินใจอัตโนมัติสามารถทำร้ายมนุษย์อย่างร้ายแรงได้ มนุษย์ต้องอยู่ในลูปก่อนที่ความเสียหายจะมาถึง ไม่ใช่แบบฟอร์มที่วิ่งไปจบที่ /dev/null ก่อนหน้านั้น
— Rudolf, AICHIKI