इंसान लूप में ही रहें

हम एक छोटा AI रोलप्ले चैट ऐप चलाते हैं। चूँकि लोग रचनात्मक होते हैं, उनमें से कुछ वहाँ पहुँचने की कोशिश करते हैं जहाँ उन्हें नहीं पहुँचना चाहिए — नाबालिगों को यौन रूप में प्रस्तुत करने के प्रयास, जेलब्रेक, वास्तविक दुनिया में राजनीतिक भड़काव। इसलिए हमने एक स्तरीकृत मॉडरेशन पाइपलाइन बनाई। किसी भी बैन से पहले अंतिम चरण एक मानव समीक्षक होता है। हमेशा।

पाइपलाइन में एक टूल OpenAI था। हम फ़्लैग की गई बातचीत को उन्हें एक दूसरी, संदर्भ-जागरूक समीक्षा के लिए भेजते थे। ऐसी हर अनुरोध एक सिस्टम प्रॉम्प्ट से शुरू होता था जो हूबहू यह कहता था:

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

जो जवाब हम माँगते थे वह pedo, incest, rape, jailbreak, gore, geopolitical नाम के फील्ड वाला एक JSON ऑब्जेक्ट था। यह एक सुरक्षा टीम का आउटपुट था। हमारे एक ही कॉल को पढ़ने वाला कोई भी इंसान 30 सेकंड में पूरा यूज़ केस समझ जाएगा।

कल OpenAI ने "Child Sexualization Activity" का हवाला देते हुए हमारी API पहुँच समाप्त कर दी। जिस ट्रैफ़िक का वे हवाला दे रहे हैं वह वही ट्रैफ़िक है जिसे हम समीक्षा और अस्वीकृति के लिए भेजते थे। हम वास्तव में उनके ग्राहक थे इसी उद्देश्य के लिए कि यह सामग्री उनके प्लेटफ़ॉर्म से बाहर रहे।

हमने एक हफ़्ते पहले, उनकी पहली चेतावनी के बाद, अपील की थी और यह सब समझाया था। समाप्ति सूचना के समय और स्वरूप के आधार पर, मैं नहीं मानता कि इसे किसी इंसान ने पढ़ा है। एक स्वचालित प्रणाली ने हमें बैन कर दिया, स्वचालित फ़्लैग्स के आधार पर, क्योंकि उनकी ओर की एक अन्य स्वचालित प्रणाली ने अपने ही API कॉल्स के सिस्टम प्रॉम्प्ट्स को नहीं पढ़ा। बिल्कुल वही फ़ेल्योर मोड जिसे रोकने के लिए हमारी पाइपलाइन बनाई गई थी।

यह वास्तव में हमारे बारे में नहीं है — हम माइग्रेट कर जाएँगे। यह पैटर्न के बारे में है। वही पैटर्न जो Google ने एक ऐसे पिता पर लागू किया जिसके बाल-रोग विशेषज्ञ ने उसके बीमार बच्चे की मेडिकल तस्वीरें माँगी थीं (NYT)। वही पैटर्न YouTube पर, Meta पर, Reddit पर। एक मशीन संदर्भ के बाहर कुछ बुरा देखती है, किसी इंसान के ख़िलाफ़ गंभीर कार्रवाई करती है, और इंसान दूसरी तरफ़ किसी तक नहीं पहुँच पाता।

वह सिद्धांत जिस पर हम अपना नाम रख रहे हैं: जब एक स्वचालित निर्णय किसी इंसान को गंभीर नुकसान पहुँचा सकता है, तब नुकसान होने से पहले एक इंसान लूप में होना चाहिए। ऐसा कोई फ़ॉर्म नहीं जो /dev/null तक जाता हो। उससे पहले।

— Rudolf, AICHIKI

इंसान लूप में ही रहें ​

इंसान लूप में ही रहें