BioMysteryBench: Mythos memecahkan masalah yang tak terpecahkan, 29,6%

ChainNewsAbmedia

Anthropic pada 29 April menerbitkan pengumuman riset resmi BioMysteryBench—seperangkat tolok ukur baru untuk kemampuan analisis bioinformatika berbasis AI, yang terdiri dari pertanyaan terbuka dalam skenario riset nyata. Data yang paling patut dicermati adalah: pada soal yang bahkan setelah dicoba oleh tim ahli manusia masih tidak dapat dipecahkan, model andalan Anthropic Mythos mampu menjawab 29,6%, sedangkan Opus 4,7 menjawab 27,0%.

Desain penilaian: dua jalur—soal yang bisa dipecahkan dan soal yang tidak bisa dipecahkan oleh pakar

BioMysteryBench terdiri dari dua jenis soal. Kategori pertama adalah “soal yang bisa dipecahkan”—tugas analisis yang dirancang oleh peneliti bioinformatika, dengan jawaban standar sebagai pembanding. Kategori kedua adalah “soal yang tidak bisa dipecahkan oleh pakar”—soal yang setelah dicoba oleh kelompok ahli manusia tetap tidak dapat menemukan jawaban yang kredibel, untuk menguji apakah model mampu menembus batas pengetahuan bidang yang ada saat ini.

Pada bagian soal yang bisa dipecahkan, model Anthropic di berbagai generasi menunjukkan gradasi kemampuan yang jelas: Claude Haiku 4,5 menjawab 36,8%, Claude Sonnet 4.6 mencapai 71,8%, dan Claude Mythos versi andalan terbaru mencapai 82,6%. Gradasi ini secara umum selaras dengan perbedaan kemampuan model yang diklaim Anthropic untuk keperluan publik—Haiku adalah tipe ringan, Sonnet adalah model andalan, dan Mythos adalah model riset level tertinggi.

Yang benar-benar menarik perhatian ada pada bagian soal yang tidak bisa dipecahkan oleh pakar. Soal jenis ini dinilai oleh kelompok ahli di bidang bioinformatika lalu diberi label “tidak dapat dipecahkan atau tidak ada kesepakatan”. Mythos menjawab 29,6% di antaranya, sedangkan Opus 4,7 menjawab 27,0%. Hasil ini bukan bukti tunggal bahwa “model lebih kuat daripada manusia”—lebih tepatnya: pada soal yang tidak dapat ditangani para ahli karena keterbatasan jalur, waktu, atau sumber daya, AI mampu mengusulkan jalur solusi yang dapat diverifikasi, belum tentu menjadi jawaban akhir, namun memiliki karakteristik “sudut pandang yang belum pernah dicoba oleh manusia”.

Didorong paralel dengan Claude for Life Sciences

BioMysteryBench searah dengan program “Claude for Life Sciences” yang didorong Anthropic sejak paruh kedua 2025. Yang terakhir menargetkan skenario aplikasi konkret seperti pengembangan obat, genomik, dan desain uji klinis; sementara yang pertama menggunakan pendekatan penilaian untuk mengukur kemajuan kemampuan “level riset” AI di bidang ilmu hayat. Kombinasi keduanya memberi sinyal bahwa Anthropic menempatkan biomedis sebagai salah satu medan aplikasi jangka panjang utama Claude, sebagai kompetisi dengan jalur DeepMind AlphaFold yang menawarkan pintu masuk berbeda.

Angka Mythos yang memecahkan hampir 30% soal yang tidak bisa dipecahkan oleh pakar, jika dapat direplikasi dalam verifikasi oleh pihak ketiga independen, akan menjadi bukti awal nilai konkret model AI dalam skenario riset ilmiah. Poin pengamatan berikutnya meliputi: apakah BioMysteryBench akan diadopsi oleh lembaga riset lain sebagai standar penilaian, prosedur verifikasi yang dilakukan oleh para ahli manusia yang berhasil memecahkan soal, serta apakah Mythos dapat mereplikasi hasil pengujian dalam rencana riset dunia nyata.

Artikel ini BioMysteryBench:Mythos 解專家無解題 29.6% pertama kali muncul di 鏈新聞 ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar