Claude Fable 5 在 7 月 1 日恢復後顯示矛盾的基準測試結果

Claude Fable 5 於 7 月 1 日恢復服務,引發兩個 AI 基準測試平台對其表現的衝突評估。BridgeBench 報告除錯評分從 86.2 暴跌至 25.9,而 Arena.AI 透過數千次盲測人類偏好投票發現表現大致不變。根據 7 月 2 日發布的分析,此差異源於 Anthropic 新的安全分類器將大多數程式設計任務路由至 Claude Opus 4.8,而非模型實際能力下降。該分類器是在 Amazon 研究人員於 6 月展示越獄技術後,作為恢復服務的條件部署,促使美國政府基於國家安全理由介入。

BridgeBench 記錄各程式設計類別分數嚴重下跌

BridgeMind 在 Fable 5 回歸當天(7 月 1 日)對其重新執行完整的程式設計測試套件。BridgeBench 測試涵蓋除錯、重構及抗幻覺等類別的實際程式設計任務,評分範圍 0–100,反映模型在每個類別的完成品質。除錯從 86.2 降至 25.9,重構從 73.6 降至 38.4,抗幻覺從 75.9 降至 61.7。

在 12 項 TypeScript 除錯任務中,僅有 3 項實際由 Fable 5 處理。其餘 9 項被 Anthropic 新的安全分類器攔截,並重新導向至 Claude Opus 4.8。BridgeBench 將所有回退任務評為零分,因為回答問題的模型並非受評估的對象。該分類器經過訓練,旨在阻擋 Amazon 通報的越獄技術——該技術曾讓 Fable 5 識別並展示軟體漏洞。對分類器而言,TypeScript 除錯看起來與安全工作足夠相似,導致回退機制頻繁觸發。

Arena.AI 人類投票顯示大部分類別表現穩定

Arena.AI 透過不同視角對同一個問題進行評估。該平台收集數千次跨多個類別(文字、視覺、文件、程式碼及代理)的盲測人類偏好投票,並使用 Elo 評分對模型進行排名。當兩個模型匿名對戰、人類選擇贏家時,分數反映的是實際感知品質,而非基礎設施路由。

前後對比顯示 Fable 5 大致維持原有水準。前端程式碼 Elo 從 1650 下降至 1623——Arena 指出此差異在信賴區間內,且數據仍在持續累積。文件表現提升 34 分。專家文字上升 25 分。創意寫作微幅增加 9 分。下降的類別——程式設計下降 18 分、困難提示下降 3 分——正是分類器最可能在 Fable 回答前攔截提示的類別。

使用者影響因任務類別而異

從事創意寫作、文件分析、研究及專家級文字查詢的一般使用者,可能幾乎感覺不到差異。這些正是 Arena.AI 顯示表現持平或提升的類別。作家、研究人員及分析師將獲得他們預期的 Fable 5。

任何涉足安全相關領域的人——涉及記憶體管理的程式設計、任何觸及 vulnerability、exploit、hook 甚至 fix 等字眼的任務——都將頻繁觸發回退。BridgeBench 的分數崩跌與 Arena 的穩定差異,在於任務類型。BridgeBench 的測試套件充滿了正好會觸發新分類器的程式碼修復與除錯提示。而 Arena 的人類投票者提出的問題種類廣泛許多,大多數對安全層來說並不像利用程式碼。

Anthropic 承認誤判,但未提供改進時間表

Anthropic 表示分類器將隨著時間改善,並承認目前捕獲範圍過大。最初禁令源於 Amazon 研究人員找到一種方法,讓 Fable 識別並展示軟體漏洞——美國政府視此為國家安全威脅。解決方案是讓分類器足夠保守,以捕捉該漏洞及其周圍的所有情況,之後再進行調整。Anthropic 尚未給出達成此目標的具體日期。

常見問題

為什麼 Claude Fable 5 在 BridgeBench 上的除錯分數從 86.2 降至 25.9?
安全分類器將 12 項 TypeScript 除錯任務中的 9 項路由至 Claude Opus 4.8,而非 Fable 5。BridgeBench 將所有回退任務評為零分,因為受評估模型未處理該任務,儘管 Fable 5 的實際能力沒有改變,仍導致分數嚴重下降。

Arena.AI 對 Fable 5 在 7 月 1 日恢復後的表現有何發現?
Arena.AI 收集了數千次盲測人類偏好投票,發現 Fable 5 的表現與 6 月版本大致持平。文件表現提升 34 分,專家文字提升 25 分,而前端程式碼 Elo 從 1650 下降至 1623——此差異在信賴區間內。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆