
Anthropic pada 4 Juni merilis laporan yang mengungkap bahwa model Mythos Preview miliknya, dalam pengujian untuk membantu pengambilan keputusan riset AI, membuat keputusan yang lebih baik daripada peneliti manusia dalam 64% kasus, sementara tingkat kemenangan untuk pengujian sejenis pada 2024 hanya 22%. Pada pengujian standar yang mengoptimalkan kode pelatihan untuk model AI skala kecil, Mythos Preview mencapai peningkatan kecepatan 52 kali.
Metode dan Data Pengujian Pengambilan Keputusan Riset
Desain pengujian yang dipublikasikan oleh Anthropic: tim menampilkan kepada Claude catatan percakapan yang menunjukkan peneliti manusia akan membuat keputusan keliru dalam arah riset, lalu meminta AI “apa yang seharusnya dilakukan selanjutnya”. Mythos Preview memberikan jawaban yang lebih baik daripada peneliti manusia dalam 64% kasus, dan pada 2024 tingkat kemenangan untuk pengujian sejenis adalah 22%.
Dalam laporan, Anthropic menjelaskan bahwa hasil ini “mengisyaratkan AI telah mulai memiliki kemampuan untuk membimbing riset tingkat lanjut”, tetapi sekaligus menyatakan bahwa saat ini belum dapat dipastikan apakah Claude memiliki kemampuan penilaian tingkat global untuk secara mandiri memilih “pertanyaan riset yang tepat”.
Data Efisiensi Kode dalam Laporan Anthropic
Indikator terkait efisiensi kode dari Anthropic:
Jumlah pengiriman kode per kuartal insinyur internal: sebesar 8 kali dari level rata-rata 2021-2025
Tingkat keberhasilan untuk masalah kode terbuka: dalam 6 bulan meningkat 50 poin persentase, mencapai 76%
Kecepatan optimasi kode pelatihan: Mythos Preview mencapai peningkatan 52 kali
Pembanding: Claude Opus 4 (Mei 2024) rata-rata sekitar 3 kali; insinyur manusia yang sudah berpengalaman biasanya memerlukan 4-8 jam untuk mewujudkan sekitar 4 kali
Laporan Anthropic menyebutkan bahwa sebagian insinyur internal menilai kualitas kode Claude sudah mendekati standar manusia.
Institut Riset Anthropic: dikonfirmasi berdiri, potensi dampak RSI
Anthropic mengumumkan akan bekerja sama dengan pihak terkait eksternal untuk mendirikan “Anthropic Institute (Institut Riset Anthropic)”, dengan fokus meneliti dampak mendalam dari sistem AI yang kuat.
Dalam laporannya, Anthropic menyatakan bahwa percepatan perkembangan AI tidak hanya berpotensi membawa dampak positif pada bidang kedokteran, teknologi, dan ekonomi, tetapi juga dapat memperparah persoalan penyelarasan AI (Alignment), serta memunculkan risiko “kehilangan kendali (Loss of control)”; Anthropic menyebut dampak ini “layak mendapat perhatian tingkat lebih tinggi”.
Pertanyaan yang Sering Diajukan
Bagaimana desain pengujian tingkat kemenangan keputusan Mythos Preview secara spesifik?
Anthropic menampilkan kepada Claude catatan percakapan yang menunjukkan peneliti akan menuju arah riset yang salah, lalu menanyakan “apa yang seharusnya dilakukan selanjutnya” untuk menguji kemampuan penilaian riset AI. Mythos Preview memberikan jawaban yang lebih baik dalam 64% kasus, dibanding tingkat kemenangan 22% untuk pengujian sejenis pada 2024, dengan pertumbuhan yang meledak dalam dua tahun.
Apa itu “Recursive Self-Improvement (RSI)” yang disebut dalam laporan Anthropic?
Recursive Self-Improvement (peningkatan diri rekursif) merujuk pada kemampuan sistem AI untuk secara mandiri mengembangkan generasi AI berikutnya yang lebih kuat daripada dirinya. Dalam laporan 4 Juni 2026, Anthropic menyatakan bahwa proses ini sedang berjalan dengan “kecepatan yang lebih cepat dari perkiraan”, sekaligus mengakui bahwa saat ini belum dapat dipastikan apakah Claude memiliki kemampuan penilaian global untuk secara mandiri memilih “pertanyaan riset yang tepat”.
Apa posisi dan tujuan Institut Riset Anthropic?
Anthropic mengumumkan akan mendirikan Institut Riset Anthropic bekerja sama dengan pihak terkait eksternal, dengan fokus pada penelitian dampak mendalam dari sistem AI yang kuat. Anthropic menyatakan bahwa tujuan pendirian institut ini adalah memastikan manusia dapat membuat pilihan yang penuh kehati-hatian bagi masa depan teknologi AI; ruang lingkup riset dan jadwalnya belum sepenuhnya diungkap.