BioMysteryBench: Mythos memecahkan masalah yang tak terpecahkan, 29,6%

2026-04-30 06:05:17

Anthropic pada 29 April menerbitkan pengumuman riset resmi BioMysteryBench—seperangkat tolok ukur baru untuk kemampuan analisis bioinformatika berbasis AI, yang terdiri dari pertanyaan terbuka dalam skenario riset nyata. Data yang paling patut dicermati adalah: pada soal yang bahkan setelah dicoba oleh tim ahli manusia masih tidak dapat dipecahkan, model andalan Anthropic Mythos mampu menjawab 29,6%, sedangkan Opus 4,7 menjawab 27,0%.

Desain penilaian: dua jalur—soal yang bisa dipecahkan dan soal yang tidak bisa dipecahkan oleh pakar

BioMysteryBench terdiri dari dua jenis soal. Kategori pertama adalah “soal yang bisa dipecahkan”—tugas analisis yang dirancang oleh peneliti bioinformatika, dengan jawaban standar sebagai pembanding. Kategori kedua adalah “soal yang tidak bisa dipecahkan oleh pakar”—soal yang setelah dicoba oleh kelompok ahli manusia tetap tidak dapat menemukan jawaban yang kredibel, untuk menguji apakah model mampu menembus batas pengetahuan bidang yang ada saat ini.

Pada bagian soal yang bisa dipecahkan, model Anthropic di berbagai generasi menunjukkan gradasi kemampuan yang jelas: Claude Haiku 4,5 menjawab 36,8%, Claude Sonnet 4.6 mencapai 71,8%, dan Claude Mythos versi andalan terbaru mencapai 82,6%. Gradasi ini secara umum selaras dengan perbedaan kemampuan model yang diklaim Anthropic untuk keperluan publik—Haiku adalah tipe ringan, Sonnet adalah model andalan, dan Mythos adalah model riset level tertinggi.

Yang benar-benar menarik perhatian ada pada bagian soal yang tidak bisa dipecahkan oleh pakar. Soal jenis ini dinilai oleh kelompok ahli di bidang bioinformatika lalu diberi label “tidak dapat dipecahkan atau tidak ada kesepakatan”. Mythos menjawab 29,6% di antaranya, sedangkan Opus 4,7 menjawab 27,0%. Hasil ini bukan bukti tunggal bahwa “model lebih kuat daripada manusia”—lebih tepatnya: pada soal yang tidak dapat ditangani para ahli karena keterbatasan jalur, waktu, atau sumber daya, AI mampu mengusulkan jalur solusi yang dapat diverifikasi, belum tentu menjadi jawaban akhir, namun memiliki karakteristik “sudut pandang yang belum pernah dicoba oleh manusia”.

Didorong paralel dengan Claude for Life Sciences

BioMysteryBench searah dengan program “Claude for Life Sciences” yang didorong Anthropic sejak paruh kedua 2025. Yang terakhir menargetkan skenario aplikasi konkret seperti pengembangan obat, genomik, dan desain uji klinis; sementara yang pertama menggunakan pendekatan penilaian untuk mengukur kemajuan kemampuan “level riset” AI di bidang ilmu hayat. Kombinasi keduanya memberi sinyal bahwa Anthropic menempatkan biomedis sebagai salah satu medan aplikasi jangka panjang utama Claude, sebagai kompetisi dengan jalur DeepMind AlphaFold yang menawarkan pintu masuk berbeda.

Angka Mythos yang memecahkan hampir 30% soal yang tidak bisa dipecahkan oleh pakar, jika dapat direplikasi dalam verifikasi oleh pihak ketiga independen, akan menjadi bukti awal nilai konkret model AI dalam skenario riset ilmiah. Poin pengamatan berikutnya meliputi: apakah BioMysteryBench akan diadopsi oleh lembaga riset lain sebagai standar penilaian, prosedur verifikasi yang dilakukan oleh para ahli manusia yang berhasil memecahkan soal, serta apakah Mythos dapat mereplikasi hasil pengujian dalam rencana riset dunia nyata.

Artikel ini BioMysteryBench：Mythos 解專家無解題 29.6% pertama kali muncul di 鏈新聞 ABMedia.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

04-30 02:31

Gedung Putih Menentang Rencana Anthropic untuk Memperluas Akses Mythos AI ke 70 Perusahaan Tambahan

04-30 00:06

Anthropic Mencari Pendanaan dengan Penilaian Melebihi $900B, Berpotensi Melampaui OpenAI

04-29 10:31

Gedung Putih Mengabaikan Penilaian Risiko Pentagon untuk Menerapkan Model Mythos Anthropic pada 29 April