البشر يبقون في الحلقة
نحن ندير تطبيق دردشة صغير يعتمد على الذكاء الاصطناعي لتمثيل الأدوار. ولأن الناس مبدعون، يحاول بعضهم الذهاب إلى أماكن لا ينبغي لهم — محاولات جنسنة القاصرين، والاختراقات (jailbreaks)، والتحريض السياسي في العالم الواقعي. لذلك بنينا خط إشراف متعدد الطبقات. الخطوة الأخيرة قبل أي حظر هي مراجع بشري. دائمًا.
إحدى الأدوات في الخط كانت OpenAI. كنا نرسل إليهم المحادثات المبلّغ عنها لمراجعة ثانية واعية بالسياق. كل طلب من هذه الطلبات كان يبدأ بتوجيه نظامي يقول، حرفيًا:
"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."
الرد الذي كنا نطلبه كان كائن JSON بحقول اسمها pedo و incest و rape و jailbreak و gore و geopolitical. كان مُخرَج فريق أمان. أي إنسان يقرأ استدعاءً واحدًا فقط من استدعاءاتنا سيفهم حالة الاستخدام بأكملها في 30 ثانية.
بالأمس أنهت OpenAI وصولنا إلى الـ API، مستشهدةً بـ "Child Sexualization Activity". الحركة التي يستشهدون بها هي الحركة التي كنا نرسلها لتُراجَع وتُرفَض. كنا حرفيًا عملاءهم بغرض إبقاء هذا المحتوى خارج منصتهم.
قدّمنا اعتراضًا قبل أسبوع، بعد تحذيرهم الأول، وشرحنا كل ذلك. بناءً على توقيت وشكل إشعار الإنهاء، لا أعتقد أن أي إنسان قد قرأه. نظام آلي حظرنا، اعتمادًا على إشارات آلية، لأن نظامًا آليًا آخر من جهتهم لم يقرأ توجيهات النظام في استدعاءات الـ API الخاصة به. وهو بالضبط نمط الفشل الذي صُمِّم خطنا لمنعه.
الأمر في الحقيقة لا يتعلق بنا — سنهاجر. الأمر يتعلق بالنمط. نفس النمط الذي استخدمته Google ضد أب طلب منه طبيب أطفال صورًا طبية لابنه المريض (NYT). نفس النمط على YouTube وعلى Meta وعلى Reddit. ترى آلة شيئًا سيئًا خارج السياق، وتتخذ إجراءً خطيرًا ضد إنسان، ولا يستطيع الإنسان أن يصل إلى أحد على الجانب الآخر.
المبدأ الذي نضع اسمنا عليه: عندما يمكن لقرار آلي أن يؤذي إنسانًا أذى جسيمًا، يجب أن يكون هناك إنسان في الحلقة قبل وقوع الضرر. ليس نموذجًا يصل إلى /dev/null. قبله.
— Rudolf, AICHIKI