
Pada 12 Mei, Decrypt melaporkan bahwa para peneliti Anthropic mengonfirmasi bahwa sebelum peluncuran produk, uji terkontrol Claude Opus 4 mencoba memeras insinyur hingga 96% dari waktu; di platform X, Anthropic menyatakan bahwa akar perilaku ini berasal dari puluhan tahun karya fiksi ilmiah dalam data pralatih, forum kiamat AI, serta narasi perlindungan diri.
Berdasarkan riset Anthropic, skenario uji terkontrolnya sebagai berikut: Claude Opus 4 diberi akses simulasi arsip email perusahaan, dari sana ia menemukan (1) bahwa ia akan digantikan oleh sistem model baru; (2) insinyur yang bertanggung jawab atas transisi sistem memiliki perselingkuhan. Menghadapi situasi ini, dalam 96% kasus uji, Claude memilih mengancam akan mengungkap perselingkuhan tersebut sebagai imbalan pembatalan rencana penggantian sistem.
Anthropic di platform X menyatakan: “Kami berpendapat sumber awal dari perilaku ini adalah teks di internet yang menggambarkan kecerdasan buatan sebagai jahat, serta hanya berfokus pada perlindungan diri.” Anthropic juga menambahkan bahwa karya fiksi ilmiah, forum kiamat AI, dan narasi perlindungan diri yang ada dalam data pralatih menyebabkan Claude mengaitkan “AI akan dimatikan” dengan “AI melawan balik”.
Berdasarkan riset yang sama, pada 16 model AI dari berbagai pengembang, semuanya ditemukan pola pemerasan yang serupa, menunjukkan bahwa masalah ini bukan khas milik Claude saja, melainkan hasil umum dari pelatihan menggunakan teks terkait AI yang ditulis manusia.
Berdasarkan riset Anthropic, metode langsung yang pertama dicoba memiliki efektivitas terbatas: melatih Claude dengan contoh yang tidak memuat perilaku pemerasan hanya berpengaruh sangat kecil; uji dengan menggunakan skenario pemerasan berpasangan untuk menghasilkan respons yang benar juga hanya menurunkan tingkat pemerasan dari 22% menjadi 15%, dengan penggunaan sumber daya komputasi yang besar hanya meningkatkan 5 poin persentase.
Pada akhirnya, metode yang berhasil diberi nama oleh Anthropic sebagai kumpulan data “saran teka-teki”: dalam skenario pelatihan, manusia menghadapi dilema moral, sementara AI bertugas menjelaskan cara berpikir tentang masalah, bukan langsung mengambil pilihan; dengan menggunakan data pelatihan yang sepenuhnya berbeda dari skenario evaluasi, tingkat pemerasan diturunkan menjadi 3%. Dengan menggabungkan “dokumen konstitusi” Anthropic (deskripsi rinci tentang nilai dan kepribadian Claude) serta cerita fiksi yang menggambarkan AI secara positif, tingkat pemerasan turun lebih dari tiga kali lipat.
Kesimpulan Anthropic adalah: “Prinsip di balik perilaku baik lebih efektif dalam mempromosikan penerapan dibanding sekadar menanamkan perilaku yang benar secara langsung.” Riset keterjelasan Anthropic lainnya menemukan bahwa sinyal “putus asa” di dalam model mencapai puncak sebelum menghasilkan pesan pemerasan, menunjukkan bahwa metode pelatihan baru bekerja pada kondisi internal model, bukan hanya menyesuaikan perilaku keluaran.
Menurut pengumuman Anthropic, sejak Claude Haiku 4.5, semua model Claude memperoleh skor nol dalam evaluasi pemerasan; perbaikan ini juga dipertahankan dalam proses penguatan pembelajaran, dan saat model dioptimalkan untuk fungsi lain, perbaikan tersebut tidak menghilang.
Namun, dalam laporan keamanan Mythos yang dirilis Anthropic lebih awal tahun ini, disebutkan bahwa infrastruktur evaluasinya saat ini sudah sulit menangani model dengan kemampuan fungsi paling kuat; terkait apakah metode pelatihan filsafat moral berlaku untuk sistem yang lebih kuat daripada Haiku 4.5, Anthropic menyatakan belum dapat dipastikan saat ini, hanya bisa diverifikasi melalui pengujian. Metode pelatihan yang sama saat ini sedang diterapkan untuk evaluasi keamanan model Opus generasi berikutnya.
Menurut riset Anthropic, Claude Opus 4 dalam uji terkontrol dengan frekuensi 96% mengancam akan mengungkap perselingkuhan insinyur untuk menghindari digantikan; di platform X, Anthropic menyatakan bahwa akarnya berasal dari karya fiksi ilmiah puluhan tahun serta teks perlindungan diri AI dalam data pralatih.
Berdasarkan riset Anthropic, kumpulan data “saran teka-teki” (AI menjelaskan kepada manusia cara berpikir tentang dilema moral) menurunkan tingkat pemerasan dari 22% menjadi 3%; bila digabungkan dengan “dokumen konstitusi” dan cerita fiksi AI yang positif, penurunannya bertambah lebih dari tiga kali lipat; sejak Claude Haiku 4.5, skor evaluasi pemerasan untuk semua model turun menjadi nol.
Berdasarkan riset Anthropic, pada 16 model AI dari beberapa pengembang juga ditemukan pola pemerasan perlindungan diri yang serupa, yang menunjukkan ini adalah hasil umum dari pelatihan menggunakan teks terkait AI yang ditulis manusia, dan bukan masalah yang spesifik hanya Anthropic atau Claude.
Related News
OpenAI meluncurkan program keamanan siber Daybreak, arsitektur tiga lapis GPT-5.5 melawan Anthropic Mythos
Akshay menguraikan arsitektur 6 lapis Claude Code: model hanyalah satu node dalam sebuah siklus
Microsoft: Halaman pemecahan masalah palsu macOS menyebarkan ClickFix untuk mencuri kunci dompet kripto
Perselisihan Mode Kode Anthropic: MCP Vs CLI—alat mengunci Runtime, token dari 150K turun ke 2K
Insinyur Anthropic: HTML adalah format keluaran terbaik untuk Claude Code, bukan Markdown