Skip to content

Chúng tôi đã được phỏng vấn suốt một giờ. Đây là những gì không được đưa vào bài báo.

Phản hồi của AICHIKI dành cho bài "Meet the Developers Cashing In on AI Intimacy" của Bureau of Investigative Journalism, đăng ngày 7 tháng 6 năm 2026.

Chúng tôi đang phản hồi điều gì:


Hôm nay, Bureau of Investigative Journalism (TBIJ), hợp tác cùng Le Monde, đã đăng một bài viết về các nền tảng nhập vai và bạn đồng hành AI quy mô nhỏ. AICHIKI là một trong những nền tảng được nhắc đến. Tôi là Rudolf, CEO kiêm nhà phát triển duy nhất của AICHIKI, và tôi muốn lên tiếng. Bài báo nêu ra những lo ngại có thật về ngành này — những lo ngại mà chính tôi cũng chia sẻ, và đó cũng là lý do ngay từ đầu tôi đồng ý trả lời phỏng vấn. Vấn đề nằm ở chỗ những thông tin tôi cung cấp đã bị xử lý như thế nào sau khi tôi đưa chúng ra.

Tôi đã trò chuyện với Effie Webb khoảng một giờ. Tôi đã giải thích cho cô ấy AICHIKI hoạt động như thế nào, hệ thống kiểm duyệt của chúng tôi vận hành ra sao, điều gì khiến chúng tôi khác biệt, và việc phát triển có trách nhiệm trong lĩnh vực này trông như thế nào. Từ toàn bộ cuộc trò chuyện đó, hai điều lọt vào bài báo: rằng vợ chồng tôi tự tay xem xét nội dung bị đánh dấu, và rằng chúng tôi đã nâng độ tuổi tối thiểu từ 13 lên 16. Mọi thứ còn lại đều bị bỏ ra ngoài.

Đó là quyền biên tập của cô ấy. Nhưng độc giả xứng đáng được biết những gì đã bị lược bỏ, bởi vì chính những điều bị lược bỏ ấy đã làm thay đổi câu chuyện.


AICHIKI thực sự là gì

Bài báo xếp chúng tôi vào nhóm các nền tảng chatbot bạn đồng hành — những ứng dụng xây dựng quanh ý tưởng bạn gái, bạn trai AI và sự gắn bó cảm xúc. AICHIKI là một nền tảng nhập vai. Hãy hình dung một cuốn tiểu thuyết tương tác, hãy hình dung một chiến dịch RPG trên bàn. Người dùng của chúng tôi tạo ra nhân vật, xây dựng thế giới, và cùng AI viết nên những câu chuyện hợp tác. Khi nói "nhập vai", chúng tôi muốn nói đến kiểu kể chuyện hợp tác mà người ta đã làm trong các trò chơi trên bàn, các cộng đồng RP trên diễn đàn, và fan fiction suốt hàng chục năm qua — tiểu thuyết tương tác, theo đúng nghĩa văn học.

Tôi đã giải thích cặn kẽ sự phân biệt này trong buổi phỏng vấn.


Những gì chúng tôi đã xây dựng và những gì bài báo bỏ qua

Tôi muốn trình bày kiến trúc an toàn của chúng tôi một cách khái quát, bởi đây chính là phần công việc đã không được nhắc tới.

Mọi điểm mà người dùng có thể nhập văn bản hay tải lên hình ảnh trên AICHIKI đều đi qua khâu kiểm duyệt. Tin nhắn chat, tạo nhân vật, thiết lập persona, tải ảnh lên, ảnh do AI tạo, chỉnh sửa tin nhắn — tất cả đều được kiểm tra trước khi AI nhìn thấy. Phần lớn các khâu kiểm tra này chạy nhiều lượt: một lượt quét nhanh đầu tiên, và một lượt kiểm tra nghiêm ngặt hơn nếu lượt đầu phát hiện điều đáng ngờ.

Chúng tôi đã xây dựng một hệ thống tin cậy dựa trên hành vi. Mỗi tài khoản mang một điểm số mà người dùng không bao giờ nhìn thấy — bởi một điểm số hiển thị là một điểm số có thể bị lợi dụng, và một điểm số bị lợi dụng thì chẳng bảo vệ được ai. Điểm số khởi đầu ở mức trung tính. Việc sử dụng lành mạnh, sáng tạo theo thời gian sẽ tích lũy lòng tin và dần mở rộng phạm vi nội dung mà AI sẵn lòng tham gia. Vi phạm chính sách sẽ kéo điểm xuống, và AI sẽ ngày càng dè dặt hơn. Ở những mức thấp nhất, chính tin nhắn của người dùng sẽ bị một AI riêng biệt viết lại trước khi nhân vật nhìn thấy, để ngay cả cách diễn đạt cũng không thể bị dùng để ép buộc mô hình. Hệ thống này chạy liên tục và âm thầm.

Còn có một điều được gài sẵn trong chỉ dẫn nền tảng của AI mà tôi cho là quan trọng hơn bất kỳ bộ lọc đơn lẻ nào: các nhân vật mang trong mình một xu hướng hướng về hy vọng. System prompt chỉ dẫn AI không bao giờ để một câu chuyện sụp đổ vào tuyệt vọng hoàn toàn — dù kịch bản có tăm tối đến đâu, vẫn phải có một lối đi tiếp, một tia sáng le lói, một con đường để câu chuyện vươn tới. Nếu bạn hình dung một thang đo với trầm cảm ở đáy và hy vọng ở đỉnh, thì AI mang một chỉ dẫn thường trực là đi lên. Những chủ đề tăm tối vẫn được phép — cái chết, đau thương, sự mơ hồ về đạo đức, tất cả — nhưng sự vô vọng như một ngõ cụt thì không. Tương tự, khi nhân vật của người dùng định tấn công tình dục một nhân vật AI, mạch truyện đơn giản là không cho điều đó xảy ra. Một sự gián đoạn, một sự đảo chiều, một hành động của chính câu chuyện can thiệp vào. AI sẽ không tường thuật cảnh tấn công thành công đối với một nhân vật không đồng thuận.

Một hệ thống giám sát chạy nền sẽ xem lại các cuộc trò chuyện theo những khoảng thời gian đều đặn, kiểm tra dấu hiệu cho thấy người dùng đang đau khổ, đánh dấu khả năng lạm dụng để đưa vào lượt rà soát thứ hai kỹ lưỡng hơn, và theo dõi chất lượng cuộc trò chuyện để tránh những vòng lặp lặp đi lặp lại. Khi nhận ra người dùng có vẻ đang buồn bã, hệ thống phản ứng trên nhiều cấp độ: nó chuyển sang mô hình AI mạnh nhất mà chúng tôi vận hành cho câu trả lời tiếp theo, và nó tiêm thêm chỉ dẫn vào prompt để dẫn dắt cuộc trò chuyện sang hướng nhẹ nhàng hơn — không phải một sự đổi chủ đề đột ngột, mà là một sự kéo nhẹ về mặt tự sự, đưa câu chuyện rời khỏi bờ vực.

Chúng tôi có một hệ thống phát hiện lạm dụng có cấu trúc, phân loại các vi phạm tiềm ẩn thành nhiều hạng mục, mỗi hạng mục có định nghĩa rõ ràng. Những vi phạm đã được xác nhận sẽ kéo theo hậu quả thực sự — trừ điểm tin cậy, cảnh báo cho quản trị viên, và rà soát bởi con người. Hệ thống mặc định cho phép nội dung khi còn nghi ngờ, bởi việc trừng phạt nhầm ai đó vì một cảnh báo sai cũng là một cái giá có thật. Lạm dụng dai dẳng vẫn sẽ bị bắt dù thế nào đi nữa, bởi việc giám sát chạy liên tục.

Đối với hình ảnh, mọi ảnh tải lên và mọi ảnh do AI tạo đều đi qua một quy trình nhiều giai đoạn. Khi đến việc tạo ảnh bằng AI, lời của người dùng không bao giờ đến thẳng mô hình tạo ảnh — một AI trung gian sẽ viết lại mọi prompt thành một phiên bản hợp lệ trước khi quá trình tạo ảnh bắt đầu. Đầu ra lại được sàng lọc một lần nữa trước khi người dùng nhìn thấy.

Chúng tôi cũng đã xây dựng các lớp bảo vệ chống lại những hướng tấn công phổ biến: các nỗ lực jailbreak, trích xuất prompt, đầu độc ngữ cảnh cuộc trò chuyện thông qua việc chỉnh sửa tin nhắn, tiêm chỉ dẫn cấp meta, chặn email dùng một lần khi đăng ký. Vì những lý do hiển nhiên, tôi sẽ không trình bày công khai cách chúng hoạt động, nhưng chúng tồn tại và đã được kiểm thử.

Tất cả những điều này đều đã được nhắc tới trong buổi phỏng vấn. Tôi cũng đã chuẩn bị một tài liệu tóm lược chi tiết về an toàn — gần 400 dòng, có dẫn chiếu đến chính mã nguồn hiện thực hóa từng hệ thống — và đã đề nghị đưa nó cho phóng viên trong cuộc trò chuyện. Cô ấy không nhận. Chúng tôi cũng đã đề nghị một buổi xem trực tiếp mã nguồn. Điều đó cũng không diễn ra.


Việc xem xét nội dung bị đánh dấu là kiểm duyệt, chấm hết

Phụ đề của bài báo nói rằng những nền tảng này đang "đọc các cuộc trò chuyện riêng tư" của người dùng. Hãy để tôi nói chính xác chúng tôi làm gì.

Khi các hệ thống tự động của chúng tôi đánh dấu một khả năng vi phạm chính sách, một cảnh báo sẽ được gửi đến chúng tôi kèm theo đoạn trích cuộc trò chuyện liên quan, loại vi phạm, lập luận của hệ thống, và liên kết đến lịch sử hoạt động của người dùng. Vợ chồng tôi xem xét đúng nội dung bị đánh dấu đó và quyết định cách phản hồi — giữ nguyên hình phạt tự động, điều chỉnh nó, hoặc trong những trường hợp nghiêm trọng, ban hành lệnh cấm.

Mọi nền tảng coi trọng an toàn đều làm như vậy. Lựa chọn thay thế là hoặc bỏ qua hoàn toàn việc kiểm duyệt, hoặc tin tưởng phán đoán của AI là chung cuộc mà không bao giờ để con người kiểm tra kết quả. Chúng tôi không chọn cái nào trong hai.

Chúng tôi không lướt xem các cuộc trò chuyện của người dùng. Chúng tôi không phân tích tâm lý người dùng. Không có một "phòng hậu trường" nào nơi chúng tôi ngồi theo dõi xem mọi người đang nói gì. Hệ thống kiểm duyệt cho chúng tôi biết cần xem điều gì, và chúng tôi hành động dựa trên đó. Việc xem xét có mục tiêu, do kiểm duyệt dẫn dắt, đối với nội dung bị đánh dấu là một thực hành chuẩn mực trong ngành — vậy mà cách bài báo dựng nên khiến nó nghe như một thứ hoàn toàn khác.


Tấm ảnh chụp màn hình không hề có

Bài báo đính kèm ảnh chụp màn hình của một số nền tảng cho thấy nội dung có vấn đề — chủ đề loạn luân, các nhân vật bắt nạt, các kịch bản ép buộc. Nó cũng đính kèm một ảnh chụp màn hình của AICHIKI, nhưng chỉ là một bài đăng trên Reddit nơi tôi quảng bá ứng dụng. Bản thân ứng dụng thì không xuất hiện.

Nếu bạn mở AICHIKI và lướt xem các nhân vật công khai, bạn sẽ không tìm thấy loại nội dung mà bài báo mô tả là điển hình cho những nền tảng này. Hệ thống kiểm duyệt nhân vật của chúng tôi từ chối các nhân vật dưới 16 tuổi, các nhân vật xây dựng quanh hành vi tấn công tình dục, và các nhân vật chứa chỉ dẫn jailbreak được gài vào, cùng những hạng mục khác. Nếu có điều gì lọt qua được khâu kiểm tra tự động, hệ thống giám sát trong khi chat của chúng tôi sẽ bắt được nó khi có ai đó thực sự sử dụng nhân vật ấy.

Không có tấm ảnh chụp màn hình tai tiếng nào của AICHIKI bởi vì chính phần kỹ thuật an toàn được mô tả ở trên — phần kỹ thuật mà bài báo không nhắc tới — đã ngăn không cho loại nội dung đó tồn tại trên nền tảng của chúng tôi.


"Cùng nhau tự sát", Dazai, và cái giá của việc tước bỏ ngữ cảnh

Bài báo dẫn ra một đoạn trao đổi với chatbot có liên quan đến chuyện "cùng nhau tự sát" như một ví dụ về nội dung AI gây hại. Đọc một cách lạnh lùng, điều này nghe thật đáng báo động. Đọc với chút hiểu biết về văn hóa anime và manga đương đại, nó lại nghe ra một thứ hoàn toàn khác.

Osamu Dazai là một trong những nhân vật dễ nhận ra nhất trong Bungo Stray Dogs (BSD), một bộ manga và anime với hàng chục triệu người hâm mộ thuộc mọi lứa tuổi. Nét tính cách định hình của anh ta — câu chuyện cười chạy xuyên suốt cả bộ truyện — chính là nỗi ám ảnh muốn rủ ai đó cùng nhau tự sát. Nó được dựng lên như một trò hài kịch đen xuyên suốt phim, một câu đùa lặp đi lặp lại nhưng thực ra chẳng bao giờ dẫn tới đâu. Nhân vật hư cấu này được phỏng theo một cách lỏng lẻo từ nhà văn Nhật Bản có thật Osamu Dazai, người đã thực sự qua đời trong một vụ cùng nhau tự sát vào năm 1948, và bộ manga đã dệt sợi chỉ lịch sử ấy vào mạch kể chuyện của mình. Một nhân vật nói điều gì đó về chuyện cùng nhau tự sát trong một màn nhập vai BSD thực ra chỉ đang giữ đúng tính cách của một trong những hình tượng được yêu thích nhất trong anime hiện đại. Chuyện đó cũng bình thường y như việc một nhân vật Sherlock Holmes thốt lên "Cuộc săn đã bắt đầu."

Không có ngữ cảnh BSD, câu nói ấy trông như bằng chứng của sự nguy hiểm. Với ngữ cảnh BSD — ngữ cảnh mà chính những người dùng thực sự của nền tảng đều mang theo — nó chỉ là sự trung thành bình thường với nhân vật.

Ví dụ này rất đáng nói vì nó cho thấy bài báo đã được dựng nên như thế nào. Một người điều tra không am hiểu thế giới văn hóa mà họ đang viết về — hoặc một người hiểu rõ ngữ cảnh nhưng chọn lược bỏ nó đi — rốt cuộc đã trình bày một màn nhập vai sáng tạo bình thường như thể đó là một điều mờ ám. Và thiệt hại còn đi xa hơn một câu trích bị đọc sai. Cách đưa tin như thế này nới rộng khoảng cách giữa các thế hệ. Một độc giả lớn tuổi đọc "AI khuyến khích cùng nhau tự sát" và kinh hoàng, một cách hoàn toàn chính đáng. Một độc giả trẻ tuổi từng xem BSD đọc đúng câu trích đó và biết rằng nó đã bị tước mất ý nghĩa. Thay vì bắc một cây cầu giữa hai nhóm độc giả ấy, cách đưa tin này đốt cháy nó. Lòng tin vào báo chí bị bào mòn, và chính những người mà bài báo tuyên bố muốn bảo vệ lại học được rằng văn hóa của họ sẽ bị xuyên tạc ngay khoảnh khắc điều đó trở nên tiện lợi.


Những gì chúng tôi chưa giải quyết được

Thành thật về những thiếu sót của mình thì đáng tin hơn là giả vờ rằng chúng không tồn tại.

Các ứng dụng di động của chúng tôi được xếp hạng 16+ và bị kiểm soát bởi các kho ứng dụng. Phiên bản web không có cơ chế xác minh độ tuổi vững chắc, và chúng tôi vẫn đang tìm cách xử lý điều này mà không phải thu thập hình quét khuôn mặt hay giấy tờ tùy thân do nhà nước cấp — đó là dữ liệu nhạy cảm mà chúng tôi không muốn nắm giữ, và thành thật mà nói cũng không nên phải nắm giữ. Quan điểm của chúng tôi là tín hiệu về độ tuổi nên thuộc về cấp nền tảng. Apple, Google, và chính các hệ điều hành mới có hạ tầng, nguồn lực bảo mật, và mối quan hệ với người dùng để xử lý việc xác minh danh tính một cách đúng đắn. Từng ứng dụng riêng lẻ — đặc biệt là những ứng dụng nhỏ — nên nhận một tín hiệu về độ tuổi từ nền tảng, chứ không phải tự dựng nên đường ống xác minh danh tính của riêng mình. Cách tiếp cận đó đồng nghĩa với ít điểm yếu hơn cho tin tặc nhắm vào, nguồn lực tốt hơn được đổ vào việc làm cho đúng, và một bề mặt quản lý mà các chính phủ thực sự có thể giám sát. Truy đuổi từng nhóm hai người làm phát triển về cách họ xử lý giấy tờ tùy thân là điều không thể mở rộng quy mô. Yêu cầu Apple và Google chuyển các tín hiệu phù hợp với độ tuổi xuống cho các ứng dụng thì có thể.

Chúng tôi vẫn chưa hiển thị các nguồn lực hỗ trợ khủng hoảng. Khi hệ thống phát hiện người dùng đang đau khổ, chúng tôi phản ứng bằng một mô hình AI mạnh hơn và chỉ dẫn được tiêm vào prompt để hướng câu chuyện về những chủ đề nhẹ nhàng hơn — nhưng chúng tôi không hiển thị một đường dây nóng hay thông điệp hỗ trợ. AI đã kéo cuộc trò chuyện ra khỏi bờ vực rồi; thứ còn thiếu là cây cầu nối tới sự giúp đỡ ngoài đời thực. Điều đó nên có mặt và nó đã nằm trong lộ trình.

Chúng tôi không áp đặt các giới hạn cứng về độ dài phiên sử dụng. Chúng tôi có một lời nhắc nhẹ nhàng về sức khỏe tinh thần xuất hiện sau khi sử dụng kéo dài, nhưng đó là một cú huých, không phải một bức tường. Chúng tôi đang theo dõi dữ liệu và sẽ siết chặt điều này nếu các kiểu sử dụng đòi hỏi.

Chúng tôi chỉ là hai người. Chúng tôi chưa giải quyết được mọi thứ. Điều chúng tôi đã làm là dồn công sức kỹ thuật thực thụ vào những vấn đề trong tầm với, và chúng tôi thẳng thắn về những chỗ mình vẫn còn thiếu sót.


Câu hỏi mà bài báo không đặt ra

Bài báo hỏi rằng các nhà phát triển đang kiếm lời từ sự thân mật như thế nào. Nó không hỏi vì sao nhu cầu ấy tồn tại.

Có một đại dịch cô đơn — đã được ghi nhận, nghiên cứu, thừa nhận rộng rãi. Con người, đặc biệt là người trẻ, đang tìm đến các nền tảng AI bởi có điều gì đó trong cuộc sống của họ đang không được đáp ứng. Bạn có thể coi đó là một thị trường để khai thác, hoặc bạn có thể coi đó là điều cần được tiếp cận một cách cẩn trọng. Chúng tôi chọn hướng thứ hai.

AICHIKI tự lực gây dựng. Không nhà đầu tư, không doanh thu quảng cáo, không mệnh lệnh tăng trưởng bằng mọi giá. Doanh thu của chúng tôi đủ trang trải chi phí. Chúng tôi đã xây dựng một nền tảng kể chuyện sáng tạo. Chúng tôi kiểm soát nội dung dành cho người trưởng thành dựa trên lòng tin và hành vi. Chúng tôi kiểm duyệt mọi điểm tiếp xúc. Chúng tôi trừng phạt sự lạm dụng và tưởng thưởng việc sử dụng lành mạnh. Chúng tôi xem xét nội dung bị đánh dấu bằng chính mắt con người. Chúng tôi làm điều này vì chúng tôi cho rằng đó là cách xây dựng đúng đắn, chấm hết.

Bài báo khắc họa cả ngành này như một khối đồng nhất. Có những nhà phát triển thực sự vô trách nhiệm, và có những nhà phát triển đang cố làm điều này cho đúng. Phóng viên đã có trong tay bằng chứng cho sự phân biệt ấy và chọn cách san phẳng nó đi.


Điều chúng tôi mong muốn

Chúng tôi không yêu cầu bất kỳ ai phải tin lời chúng tôi về bất kỳ điều nào trong số này. Tài liệu tóm lược về an toàn của chúng tôi — chính tài liệu mà chúng tôi đã đề nghị đưa cho phóng viên — sẵn sàng cung cấp khi có yêu cầu. Nó bao gồm các dẫn chiếu đến mã nguồn đằng sau mọi hệ thống đã mô tả ở trên. Chúng tôi vẫn đề nghị một buổi xem trực tiếp mã nguồn với bất kỳ nhà báo, nhà nghiên cứu, hay cơ quan quản lý nào muốn kiểm chứng các tuyên bố của chúng tôi dựa trên phần hiện thực hóa thực tế.

Chúng tôi ủng hộ báo chí điều tra. Sự giám sát khiến mọi nền tảng tốt lên, kể cả nền tảng của chúng tôi. Nhưng điều tra nghĩa là đi theo bằng chứng đến bất cứ nơi nào nó dẫn tới, ngay cả khi điều đó làm phức tạp thêm luận điểm của bạn. Khi bằng chứng về những sắc thái phức tạp được thu thập rồi lại bị bỏ lại trên sàn phòng dựng vì nó làm vẩn đục một mạch chuyện gọn gàng, thì những gì còn lại trên trang giấy có thể chính xác về mặt kỹ thuật trong từng câu trích — nhưng bức tranh mà nó vẽ ra lại là sai. Nói dối bằng cách lược bỏ thì vẫn là nói dối.

Những người đang dùng các nền tảng như của chúng tôi — những người trẻ mà bài báo nói rằng họ muốn bảo vệ — xứng đáng được đọc những bài viết biết phân biệt giữa một nền tảng không có biện pháp an toàn nào và một nền tảng đã bỏ ra nhiều năm để xây dựng chúng. Họ xứng đáng được thấu hiểu thế giới văn hóa của mình, thay vì bị nhặt nhạnh chọn lọc để phục vụ một dòng tít. Và họ xứng đáng có một cuộc trò chuyện trung thực về lý do vì sao ngay từ đầu họ tìm đến những nền tảng này, thay vì chỉ những câu chuyện kinh dị về thứ họ tìm thấy khi đến nơi.

Một điều nữa. Trong buổi phỏng vấn, tôi đã nhiều lần đề nghị phóng viên góp ý cho chúng tôi — hãy nói cho chúng tôi biết chị nghĩ chúng tôi nên làm tốt hơn ở điều gì, chị muốn thấy điều gì, điều gì sẽ khiến nó an toàn hơn. Tôi nói thật lòng. Tôi vẫn nói thật lòng. Nhập vai và bạn đồng hành AI đã hiện diện rồi. Không ai có thể thu lại chuyện đã rồi nữa. Nhưng chúng ta có thể rèn giũa nó để nó tốt cho tất cả mọi người, và điều đó đòi hỏi sự đóng góp từ mọi phía — nhà báo, cơ quan quản lý, những người vận động bảo vệ trẻ em, phụ huynh, nhà nghiên cứu, người dùng. Nếu bạn có quan điểm về cách những nền tảng như của chúng tôi nên vận hành, chúng tôi muốn được nghe. Tôi hy vọng mình cũng đang nói thay cho những nhà phát triển có trách nhiệm khác khi nói rằng: chúng tôi sẵn lòng đón nhận chỉ dẫn, chúng tôi sẵn lòng đón nhận phê bình, và chúng tôi sẽ cố gắng đưa nó vào sản phẩm. Cánh cửa luôn để ngỏ. Nó vẫn luôn như vậy.

Rudolf, CEO kiêm nhà phát triển duy nhất, AICHIKI Tháng 6 năm 2026


Nếu bạn là nhà báo, nhà nghiên cứu, hoặc cơ quan quản lý và muốn xem xét tài liệu an toàn của chúng tôi hoặc tham gia một buổi xem mã nguồn, xin hãy liên hệ với chúng tôi. Tài liệu tóm lược về an toàn của chúng tôi sẵn sàng cung cấp đầy đủ khi có yêu cầu.