Anthropic 報告：AI 決策勝率升至 64%，代碼優化 52 倍

2026-06-05 02:20:35

Anthropic 於 6 月 4 日發布報告，揭示其 Mythos Preview 模型在輔助 AI 研究決策的測試中，在 64% 的情況下做出了優於人類研究員的決策，而同類測試在 2024 年的勝率僅為 22%。在優化小型 AI 模型訓練程式碼的標準測試中，Mythos Preview 達到 52 倍速度提升。

研究決策測試的方法與數據

Anthropic 公開的測試設計：團隊向 Claude 展示人類研究員即將做出錯誤研究方向判斷的對話紀錄，並詢問 AI「接下來應如何做」。Mythos Preview 在 64% 的情況下給出了優於人類研究員的回答，2024 年時同類測試的勝率為 22%。

Anthropic 在報告中說明，這一結果「暗示著 AI 已開始具備指導高階研究的能力」，但同時表示目前尚無法確定 Claude 是否具備自主選擇「正確研究問題」的全局判斷力。

Anthropic 報告中的代碼效率數據

Anthropic 的代碼效率相關指標：

內部工程師季度代碼交付量：為 2021-2025 年平均水準的 8 倍

開放性代碼問題成功率：在 6 個月內提升 50 個百分點，達到 76%

訓練代碼優化速度：Mythos Preview 達到 52 倍提升

比較基準：Claude Opus 4（2024 年 5 月）平均約 3 倍；熟練人類工程師通常需 4-8 小時實現約 4 倍

Anthropic 報告指出，部分內部工程師認為 Claude 的程式碼品質已逼近人類水準。

Anthropic 研究所：確認成立，研究 RSI 潛在影響

Anthropic 宣布將與外部利害關係人合作成立「Anthropic 研究所（Anthropic Institute）」，致力於研究強大 AI 系統的深遠影響。

Anthropic 在報告中表示，AI 加速發展既有望為醫學、科技與經濟領域帶來正面影響，也可能加劇 AI 對齊（Alignment）難題，並導致「失去控制（Loss of control）」的風險，Anthropic 稱這一影響「值得更高度的重視」。

常見問題

Mythos Preview 決策勝率測試的具體設計是什麼？

Anthropic 向 Claude 展示研究員即將走入錯誤研究方向的對話紀錄，並詢問「接下來應如何做」，測試 AI 的研究判斷力。Mythos Preview 在 64% 的情況下給出了優於人類研究員的回答，相比 2024 年同類測試 22% 的勝率，在兩年內實現了爆發性增長。

Anthropic 報告中提到的「遞迴自我提升（RSI）」是什麼？

遞迴自我提升（Recursive Self-Improvement）是指 AI 系統自主開發出比自身更強大的下一代 AI 的能力。Anthropic 在 2026 年 6 月 4 日的報告中表示，這一進程正以「超乎預期的速度」推進，並同時坦言目前尚無法確定 Claude 是否具備自主選擇「正確研究問題」的全局判斷力。

Anthropic 研究所的定位和目標是什麼？

Anthropic 宣布將與外部利害關係人合作成立 Anthropic 研究所，專門研究強大 AI 系統的深遠影響。Anthropic 表示成立目的是確保人類能為 AI 技術的未來做出審慎選擇，具體研究範疇和時程尚未完整披露。

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。