Anthropic pada 29 April menerbitkan pengumuman riset resmi BioMysteryBench—seperangkat tolok ukur baru untuk kemampuan analisis bioinformatika berbasis AI, yang terdiri dari pertanyaan terbuka dalam skenario riset nyata. Data yang paling patut dicermati adalah: pada soal yang bahkan setelah dicoba oleh tim ahli manusia masih tidak dapat dipecahkan, model andalan Anthropic Mythos mampu menjawab 29,6%, sedangkan Opus 4,7 menjawab 27,0%.
Desain penilaian: dua jalur—soal yang bisa dipecahkan dan soal yang tidak bisa dipecahkan oleh pakar
BioMysteryBench terdiri dari dua jenis soal. Kategori pertama adalah “soal yang bisa dipecahkan”—tugas analisis yang dirancang oleh peneliti bioinformatika, dengan jawaban standar sebagai pembanding. Kategori kedua adalah “soal yang tidak bisa dipecahkan oleh pakar”—soal yang setelah dicoba oleh kelompok ahli manusia tetap tidak dapat menemukan jawaban yang kredibel, untuk menguji apakah model mampu menembus batas pengetahuan bidang yang ada saat ini.
Pada bagian soal yang bisa dipecahkan, model Anthropic di berbagai generasi menunjukkan gradasi kemampuan yang jelas: Claude Haiku 4,5 menjawab 36,8%, Claude Sonnet 4.6 mencapai 71,8%, dan Claude Mythos versi andalan terbaru mencapai 82,6%. Gradasi ini secara umum selaras dengan perbedaan kemampuan model yang diklaim Anthropic untuk keperluan publik—Haiku adalah tipe ringan, Sonnet adalah model andalan, dan Mythos adalah model riset level tertinggi.
Yang benar-benar menarik perhatian ada pada bagian soal yang tidak bisa dipecahkan oleh pakar. Soal jenis ini dinilai oleh kelompok ahli di bidang bioinformatika lalu diberi label “tidak dapat dipecahkan atau tidak ada kesepakatan”. Mythos menjawab 29,6% di antaranya, sedangkan Opus 4,7 menjawab 27,0%. Hasil ini bukan bukti tunggal bahwa “model lebih kuat daripada manusia”—lebih tepatnya: pada soal yang tidak dapat ditangani para ahli karena keterbatasan jalur, waktu, atau sumber daya, AI mampu mengusulkan jalur solusi yang dapat diverifikasi, belum tentu menjadi jawaban akhir, namun memiliki karakteristik “sudut pandang yang belum pernah dicoba oleh manusia”.
Didorong paralel dengan Claude for Life Sciences
BioMysteryBench searah dengan program “Claude for Life Sciences” yang didorong Anthropic sejak paruh kedua 2025. Yang terakhir menargetkan skenario aplikasi konkret seperti pengembangan obat, genomik, dan desain uji klinis; sementara yang pertama menggunakan pendekatan penilaian untuk mengukur kemajuan kemampuan “level riset” AI di bidang ilmu hayat. Kombinasi keduanya memberi sinyal bahwa Anthropic menempatkan biomedis sebagai salah satu medan aplikasi jangka panjang utama Claude, sebagai kompetisi dengan jalur DeepMind AlphaFold yang menawarkan pintu masuk berbeda.
Angka Mythos yang memecahkan hampir 30% soal yang tidak bisa dipecahkan oleh pakar, jika dapat direplikasi dalam verifikasi oleh pihak ketiga independen, akan menjadi bukti awal nilai konkret model AI dalam skenario riset ilmiah. Poin pengamatan berikutnya meliputi: apakah BioMysteryBench akan diadopsi oleh lembaga riset lain sebagai standar penilaian, prosedur verifikasi yang dilakukan oleh para ahli manusia yang berhasil memecahkan soal, serta apakah Mythos dapat mereplikasi hasil pengujian dalam rencana riset dunia nyata.
Artikel ini BioMysteryBench:Mythos 解專家無解題 29.6% pertama kali muncul di 鏈新聞 ABMedia.
Related News
Anthropic sedang membahas pendanaan dengan valuasi lebih dari 90 miliar dolar AS, dewan direksi bisa memutuskan paling cepat Mei
Pascasarjana Internet Universitas Oxford: Pelatihan yang ramah membuat tingkat kesalahan AI naik sebesar 7,43 poin persentase
Anthropic mempertimbangkan pendanaan baru, valuasi melampaui OpenAI menjadi perusahaan rintisan AI dengan valuasi tertinggi
Laporan Riset a16z Crypto: Tingkat Eksploitasi Kerentanan DeFi untuk Agen AI mencapai 70%
Media AS: Draf perintah eksekutif Gedung Putih mengizinkan model Anthropic Mythos masuk ke pemerintahan