Claude Fable 5 在 7 月 1 日恢復後顯示矛盾的基準測試結果

2026-07-03 21:13:24

Claude Fable 5 於 7 月 1 日恢復服務，引發兩個 AI 基準測試平台對其表現的衝突評估。BridgeBench 報告除錯評分從 86.2 暴跌至 25.9，而 Arena.AI 透過數千次盲測人類偏好投票發現表現大致不變。根據 7 月 2 日發布的分析，此差異源於 Anthropic 新的安全分類器將大多數程式設計任務路由至 Claude Opus 4.8，而非模型實際能力下降。該分類器是在 Amazon 研究人員於 6 月展示越獄技術後，作為恢復服務的條件部署，促使美國政府基於國家安全理由介入。

BridgeBench 記錄各程式設計類別分數嚴重下跌

BridgeMind 在 Fable 5 回歸當天（7 月 1 日）對其重新執行完整的程式設計測試套件。BridgeBench 測試涵蓋除錯、重構及抗幻覺等類別的實際程式設計任務，評分範圍 0–100，反映模型在每個類別的完成品質。除錯從 86.2 降至 25.9，重構從 73.6 降至 38.4，抗幻覺從 75.9 降至 61.7。

在 12 項 TypeScript 除錯任務中，僅有 3 項實際由 Fable 5 處理。其餘 9 項被 Anthropic 新的安全分類器攔截，並重新導向至 Claude Opus 4.8。BridgeBench 將所有回退任務評為零分，因為回答問題的模型並非受評估的對象。該分類器經過訓練，旨在阻擋 Amazon 通報的越獄技術——該技術曾讓 Fable 5 識別並展示軟體漏洞。對分類器而言，TypeScript 除錯看起來與安全工作足夠相似，導致回退機制頻繁觸發。

Arena.AI 人類投票顯示大部分類別表現穩定

Arena.AI 透過不同視角對同一個問題進行評估。該平台收集數千次跨多個類別（文字、視覺、文件、程式碼及代理）的盲測人類偏好投票，並使用 Elo 評分對模型進行排名。當兩個模型匿名對戰、人類選擇贏家時，分數反映的是實際感知品質，而非基礎設施路由。

前後對比顯示 Fable 5 大致維持原有水準。前端程式碼 Elo 從 1650 下降至 1623——Arena 指出此差異在信賴區間內，且數據仍在持續累積。文件表現提升 34 分。專家文字上升 25 分。創意寫作微幅增加 9 分。下降的類別——程式設計下降 18 分、困難提示下降 3 分——正是分類器最可能在 Fable 回答前攔截提示的類別。

使用者影響因任務類別而異

從事創意寫作、文件分析、研究及專家級文字查詢的一般使用者，可能幾乎感覺不到差異。這些正是 Arena.AI 顯示表現持平或提升的類別。作家、研究人員及分析師將獲得他們預期的 Fable 5。

任何涉足安全相關領域的人——涉及記憶體管理的程式設計、任何觸及 vulnerability、exploit、hook 甚至 fix 等字眼的任務——都將頻繁觸發回退。BridgeBench 的分數崩跌與 Arena 的穩定差異，在於任務類型。BridgeBench 的測試套件充滿了正好會觸發新分類器的程式碼修復與除錯提示。而 Arena 的人類投票者提出的問題種類廣泛許多，大多數對安全層來說並不像利用程式碼。

Anthropic 承認誤判，但未提供改進時間表

Anthropic 表示分類器將隨著時間改善，並承認目前捕獲範圍過大。最初禁令源於 Amazon 研究人員找到一種方法，讓 Fable 識別並展示軟體漏洞——美國政府視此為國家安全威脅。解決方案是讓分類器足夠保守，以捕捉該漏洞及其周圍的所有情況，之後再進行調整。Anthropic 尚未給出達成此目標的具體日期。

常見問題

為什麼 Claude Fable 5 在 BridgeBench 上的除錯分數從 86.2 降至 25.9？
安全分類器將 12 項 TypeScript 除錯任務中的 9 項路由至 Claude Opus 4.8，而非 Fable 5。BridgeBench 將所有回退任務評為零分，因為受評估模型未處理該任務，儘管 Fable 5 的實際能力沒有改變，仍導致分數嚴重下降。

Arena.AI 對 Fable 5 在 7 月 1 日恢復後的表現有何發現？
Arena.AI 收集了數千次盲測人類偏好投票，發現 Fable 5 的表現與 6 月版本大致持平。文件表現提升 34 分，專家文字提升 25 分，而前端程式碼 Elo 從 1650 下降至 1623——此差異在信賴區間內。

View Source

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。