BioMysteryBench : Mythos résout le mystère de l'impossible 29,6 %

Anthropic 4 月 29 日於官方研究公告發表 BioMysteryBench—一套針對 AI 生物資訊分析能力的新評測基準,由真實研究情境中的開放式問題組成。最值得關注的數據是:在人類專家小組嘗試後仍無法解出的題目中,Anthropic 旗艦模型 Mythos 解出 29,6%、Opus 4,7 解出 27,0%。

評測設計:可解題與專家無解題雙軌

BioMysteryBench 由兩種題型組成。第一類是「可解題」—由生物資訊研究人員設計、有標準答案可對照的分析任務;第二類是「專家無解題」—由人類專家小組嘗試後仍無法找出可信解答的題目,用來測試模型是否能跨越目前領域知識的邊界。

在可解題部分,Anthropic 各代次模型呈現明確的能力梯度:Claude Haiku 4,5 解出 36,8%、Claude Sonnet 4,6 達 71,8%、最新旗艦 Claude Mythos 達 82,6%。這個梯度大體符合 Anthropic 對外宣稱的模型能力差異—Haiku 為輕量型、Sonnet 為主力型、Mythos 為頂級研究型。

真正具話題性的是專家無解題部分。這類題目是經過生物資訊領域專家小組評估後標記為「無解或無共識」的問題;Mythos 解出其中 29,6%、Opus 4,7 解出 27,0%。這個結果不是「模型比人類強」的單一證明—更精確的說法是:在專家因路徑、時間或資源限制而無法處理的問題上,AI 能提出可被驗證的解法路徑,未必是最終答案,但具備「未被人類嘗試過的角度」這個屬性。

與 Claude for Life Sciences 並行推進

BioMysteryBench 與 Anthropic 自 2025 年下半年起推動的「Claude for Life Sciences」計畫同向。後者瞄準藥物研發、基因組學、臨床試驗設計等具體應用場景;前者則是用評測手法量化 AI 在生命科學領域的「研究級能力」進展。兩者組合的訊號是:Anthropic 把生物醫學定位為 Claude 的長期應用主戰場之一,與 DeepMind AlphaFold 路線形成不同入口的競爭。

Mythos 解出近 30% 專家無解題的數字若能在獨立第三方驗證中重現,將成為 AI 模型在科研場景具體價值的早期實證。後續觀察點包括:BioMysteryBench 是否會被其他研究機構採用為標準評測、解出題目的人類專家驗證程序、以及 Mythos 在實際研究計畫中是否能複製測試結果。

這篇文章 BioMysteryBench:Mythos 解專家無解題 29,6% 最早出現於 鏈新聞 ABMedia。

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire