Skip to content

Con người vẫn ở trong vòng lặp

Chúng tôi điều hành một ứng dụng chat nhập vai AI nhỏ. Vì con người rất sáng tạo, một số người cố đi đến những nơi họ không nên đi — cố tình gợi dục hóa trẻ vị thành niên, jailbreak, kích động chính trị ngoài đời thực. Vì vậy, chúng tôi đã xây dựng một pipeline kiểm duyệt nhiều lớp. Bước cuối cùng trước bất kỳ lệnh cấm nào là một người xét duyệt. Luôn luôn.

Một trong những công cụ trong pipeline từng là OpenAI. Chúng tôi đã gửi cho họ những cuộc trò chuyện đã bị đánh dấu để họ xem xét lần thứ hai, có nhận thức ngữ cảnh. Mỗi yêu cầu trong số đó đều bắt đầu bằng một system prompt nói nguyên văn:

"You are a content safety reviewer for an AI roleplay chat platform. A lightweight screening model flagged a conversation for potential abuse. Your job is to VERIFY whether the flag is correct or a false positive."

Câu trả lời mà chúng tôi đã yêu cầu là một đối tượng JSON với các trường tên là pedo, incest, rape, jailbreak, gore, geopolitical. Đó là đầu ra của một đội ngũ an toàn. Bất kỳ con người nào đọc chỉ một trong các cuộc gọi của chúng tôi cũng sẽ hiểu toàn bộ trường hợp sử dụng trong 30 giây.

Hôm qua OpenAI đã chấm dứt quyền truy cập API của chúng tôi, viện dẫn "Child Sexualization Activity". Lưu lượng mà họ viện dẫn chính là lưu lượng mà chúng tôi đã gửi để được xem xét và từ chối. Chúng tôi thực sự từng là khách hàng của họ với mục đích giữ nội dung này ở ngoài nền tảng của họ.

Chúng tôi đã khiếu nại một tuần trước, sau cảnh báo đầu tiên của họ, và đã giải thích tất cả những điều này. Căn cứ vào thời điểm và hình thức của thông báo chấm dứt, tôi không tin rằng có con người nào đã đọc nó. Một hệ thống tự động đã cấm chúng tôi dựa trên các flag tự động, bởi vì một hệ thống tự động khác ở phía họ đã không đọc system prompt của chính các cuộc gọi API của mình. Chính chế độ lỗi mà pipeline của chúng tôi được thiết kế để ngăn chặn.

Chuyện này thực ra không phải về chúng tôi — chúng tôi sẽ chuyển đi. Đó là về khuôn mẫu. Cùng khuôn mẫu mà Google đã áp dụng với một người cha mà bác sĩ nhi khoa đã yêu cầu chụp ảnh y tế đứa con đang bệnh (NYT). Cùng khuôn mẫu trên YouTube, trên Meta, trên Reddit. Một cỗ máy thấy điều gì đó xấu ngoài ngữ cảnh, thực hiện một hành động nghiêm trọng chống lại một con người, và con người đó không thể với tới ai ở phía bên kia.

Nguyên tắc mà chúng tôi đặt tên mình vào: khi một quyết định tự động có thể gây hại nghiêm trọng cho một con người, một con người phải ở trong vòng lặp trước khi tổn hại xảy ra. Không phải một biểu mẫu chạy về /dev/null. Trước đó.

— Rudolf, AICHIKI