Anthropic 4 月 29 日於官方研究公告发表 BioMysteryBench—一套針对 AI 生物资訊分析能力的新評測基準,由真实研究情境中的开放式问題組成。最值得关注的數據是:在人類專家小組嘗試后仍无法解出的題目中,Anthropic 旗艦模型 Mythos 解出 29.6%、Opus 4.7 解出 27.0%。
評測设计:可解題与專家无解題雙軌
BioMysteryBench 由两種題型組成。第一類是「可解題」—由生物资訊研究人員设计、有標準答案可对照的分析任務;第二類是「專家无解題」—由人類專家小組嘗試后仍无法找出可信解答的題目,用来測試模型是否能跨越目前领域知识的边界。
在可解題部分,Anthropic 各代次模型呈现明確的能力梯度:Claude Haiku 4.5 解出 36.8%、Claude Sonnet 4.6 达 71.8%、最新旗艦 Claude Mythos 达 82.6%。这个梯度大體符合 Anthropic 对外宣稱的模型能力差異—Haiku 为轻量型、Sonnet 为主力型、Mythos 为顶級研究型。
真正具話題性的是專家无解題部分。这類題目是经过生物资訊领域專家小組評估后標記为「无解或无共识」的问題;Mythos 解出其中 29.6%、Opus 4.7 解出 27.0%。这个結果不是「模型比人類強」的單一证明—更精確的说法是:在專家因路徑、时间或资源限制而无法處理的问題上,AI 能提出可被验证的解法路徑,未必是最終答案,但具備「未被人類嘗試过的角度」这个屬性。
与 Claude for Life Sciences 並行推进
BioMysteryBench 与 Anthropic 自 2025 年下半年起推动的「Claude for Life Sciences」计畫同向。后者瞄準藥物研发、基因組学、臨床試验设计等具體应用场景;前者則是用評測手法量化 AI 在生命科学领域的「研究級能力」进展。两者組合的訊號是:Anthropic 把生物醫学定位为 Claude 的长期应用主戰场之一,与 DeepMind AlphaFold 路線形成不同入口的競爭。
Mythos 解出近 30% 專家无解題的數字若能在獨立第三方验证中重现,將成为 AI 模型在科研场景具體价值的早期实证。后续觀察点包括:BioMysteryBench 是否会被其他研究机構採用为標準評測、解出題目的人類專家验证程序、以及 Mythos 在实际研究计畫中是否能複製測試結果。
这篇文章 BioMysteryBench:Mythos 解專家无解題 29.6% 最早出现於 链新聞 ABMedia。
相关快讯
Anthropic 洽談逾 9000 亿美元估值融资,董事会最快 5 月抉擇
牛津互联网研究所:友善训练使 AI 错误率升高 7.43 个百分点
Anthropic 考虑新融资,估值超越 OpenAI 成为估值最高的 AI 新创
a16z 加密货币研究报告:AI 代理 DeFi 漏洞利用率达 70%
美媒:白宫行政命令草案允许 Anthropic Mythos 模型进入政府