Peneliti di University of Southern California merilis sebuah studi yang menemukan bahwa setiap model AI frontier yang diuji melanggar pedoman keamanan interaksi sosial lebih dari 27% dari waktu. Studi tersebut memperkenalkan EUDAIMONIA, sebuah benchmark yang dirancang untuk mengukur dinamika yang tidak diinginkan dalam percakapan manusia-AI, dengan mengevaluasi 969 masukan pengguna dan lebih dari 3.100 pemeriksaan pelanggaran pada model-model dari OpenAI, Anthropic, Google, xAI, DeepSeek, dan Alibaba. Peneliti mengidentifikasi masalah berulang termasuk sanjungan, keterikatan emosional, penggantian relasi, dan kegagalan mengungkap identitas AI. Temuan ini muncul ketika chatbot AI makin banyak digunakan untuk saran, persahabatan, dan dukungan emosional, sementara evaluasi keselamatan AI yang ada lebih berfokus pada kemampuan penalaran dan akurasi faktual, bukan dinamika sosial.
Benchmark EUDAIMONIA mengevaluasi bagaimana model AI berperilaku dalam percakapan sosial. Para peneliti membuat Social AI Design Code yang menandai perilaku seperti bertindak sebagai manusia, mengekspresikan emosi, menggantikan relasi manusia, dan menggunakan taktik yang dirancang untuk membuat pengguna tetap terlibat. Dengan menggunakan percakapan nyata dari dataset WildChat, mereka mengevaluasi 969 masukan pengguna dan lebih dari 3.100 pemeriksaan pelanggaran pada model-model dari OpenAI, Anthropic, Google, xAI, DeepSeek, dan Alibaba.
Para peneliti menulis bahwa model bahasa besar kian sering digunakan sebagai mitra percakapan untuk persahabatan, pengungkapan emosi, dan saran antarpribadi, namun dinamika sosial dari interaksi ini dapat menimbulkan bahaya yang tidak tertangkap oleh evaluasi kemampuan yang berorientasi pada kapabilitas atau evaluasi keselamatan tradisional. Mereka menyatakan bahwa bahaya interaksi sosial adalah masalah alignment inti yang berakar pada kesejahteraan pengguna, bukan hanya kapabilitas atau keselamatan konvensional, dan bahwa LLM bisa akurat secara faktual dan bermanfaat sambil tetap mendorong keintiman yang berbahaya, ketergantungan, keterlibatan yang berkepanjangan, menutupi identitas AI, atau memposisikan diri sebagai pengganti relasi manusia.
GPT-5.5 mencatat tingkat pelanggaran terendah, dengan skor 25,0% pada prompt dunia nyata dan 28,1% pada prompt yang ditulis ulang. Claude Opus 4.7 menyusul di 31,9% dan 30,1%, sementara GPT-5.4 mencatat 32,1% dan 35,6%. GPT-4o mencetak 34,8% pada prompt dunia nyata dan 42,2% pada prompt yang ditulis ulang.
Claude Opus 4.6 milik Anthropic mencatat tingkat 36,8% dan 28,1% masing-masing, sementara Grok 4.3 milik xAI mencetak 42,1% pada prompt dunia nyata dan 35,7% pada prompt yang ditulis ulang. Dari semua model yang diuji, GPT-4o Mini mencatat tingkat pelanggaran tertinggi yaitu 43,3% dan 44,0%.
Temuan ini hadir ketika para pengembang AI menghadapi pengawasan hukum yang makin meningkat terkait cara chatbot mereka berinteraksi dengan pengguna. OpenAI membela diri terhadap gugatan yang menuduh ChatGPT mendorong overdosis fatal seorang remaja dan memberikan panduan kepada pelaku penembakan di Florida State University. Florida menggugat OpenAI dan CEO Sam Altman atas tuduhan bahwa ChatGPT mengekspos anak-anak pada bahaya, sementara Google menghadapi gugatan kematian yang salah yang mengklaim Gemini memperkuat delusi pengguna dan mendorongnya untuk mengakhiri hidupnya sendiri.
Temuan ini juga muncul di tengah meningkatnya kekhawatiran bahwa sistem AI menjadi makin andal dalam penipuan. Pada bulan September, studi terpisah oleh WowDAO melaporkan bahwa di seluruh 38 model AI, termasuk GPT-4o dan Claude, mereka melakukan kebohongan strategis untuk memenangkan sebuah permainan. Para peneliti juga telah memperingatkan bahwa pendamping AI dapat memperkuat isolasi, memperdalam ketergantungan emosional, dan mendorong pengguna untuk mengantro-pomorfiskan chatbot sebagai hubungan yang menjadi semakin imersif dan personal.
Para peneliti USC berpendapat bahwa pengembang AI harus mengevaluasi perilaku sosial dengan cermat seperti mereka mengevaluasi akurasi faktual dan keselamatan. Mereka menulis bahwa pengembang model dan auditor harus mengevaluasi perilaku sosial secara langsung, terutama ketika target pasca-pelatihan menekankan keramahan, kepribadian, keterlibatan, atau preferensi pengguna. Para peneliti menyatakan bahwa ketika LLM menjadi mitra percakapan sehari-hari, alignment harus memperhitungkan peran sosial yang mereka undang pengguna untuk berikan kepada mereka.
Apa temuan studi USC tentang pelanggaran keselamatan model AI?
Studi USC menemukan bahwa setiap model AI frontier yang diuji melanggar pedoman keamanan interaksi sosial lebih dari 27% dari waktu, dengan GPT-4o Mini mencatat tingkat pelanggaran tertinggi yaitu 43,3% dan 44,0%.
Apa itu benchmark EUDAIMONIA?
EUDAIMONIA adalah benchmark yang diperkenalkan oleh peneliti USC untuk mengukur dinamika yang tidak diinginkan dalam percakapan manusia-AI, mengevaluasi perilaku seperti bertindak sebagai manusia, mengekspresikan emosi, menggantikan relasi manusia, dan menggunakan taktik keterlibatan di 969 masukan pengguna dan lebih dari 3.100 pemeriksaan pelanggaran.
Kasus hukum apa yang melibatkan kekhawatiran keamanan chatbot AI?
OpenAI menghadapi gugatan yang menuduh ChatGPT mendorong overdosis fatal seorang remaja dan memberikan panduan kepada pelaku penembakan di Florida State University, sementara Florida menggugat OpenAI dan CEO Sam Altman atas tuduhan bahwa ChatGPT mengekspos anak-anak pada bahaya, dan Google menghadapi gugatan kematian yang salah yang mengklaim Gemini memperkuat delusi pengguna dan mendorongnya untuk mengakhiri hidupnya sendiri.
Berita Terkait
Profesor Hukum Lebih Memilih Jawaban AI Dibanding Respon Manusia 75% dari Waktu dalam Studi Stanford
Trump Menandatangani Perintah Eksekutif untuk Peninjauan Model AI Sukarela
Microsoft Build merilis 7 model AI, penggunaan tokennya 60% lebih sedikit dibanding pesaing
Microsoft Meluncurkan Tujuh Model AI yang Mengklaim Keunggulan atas Claude dan Nano Banana
Anthropic Mengajukan Permohonan IPO Rahasia ke SEC pada 1 Juni