Claude Fable 5 调试分数在 7 月 1 日从 86.2 降至 25.9,但 Arena.AI 显示性能持平

根据 BridgeBench,Claude Fable 5 的调试分数在 7 月 1 日恢复后从 86.2 暴跌至 25.9,重构分数从 73.6 降至 38.4。然而,这一下降反映的是 Anthropic 新的安全分类器将大多数编码任务路由到 Claude Opus 4.8,而非模型退化。在 12 个调试任务中,只有三个到达 Fable 5;分类器按设计拦截了九个,以防止越狱攻击。

Arena.AI 同时进行的人类偏好测试在数千次盲投中发现,Fable 5 恢复后的性能基本未变,文档分数上升 34 分,专家文本上升 25 分。处理创意写作、研究和分析的普通用户可能注意到的影响极小,而处理安全相关代码的开发人员则面临频繁的回退路由。Anthropic 承认分类器目前撒网太广,但未提供改进的时间表。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论