Anthropic 報告:AI 決策勝率升至 64%,代碼優化 52 倍

Mythos Preview模型優化

Anthropic 於 6 月 4 日發布報告,揭示其 Mythos Preview 模型在輔助 AI 研究決策的測試中,在 64% 的情況下做出了優於人類研究員的決策,而同類測試在 2024 年的勝率僅為 22%。在優化小型 AI 模型訓練程式碼的標準測試中,Mythos Preview 達到 52 倍速度提升。

研究決策測試的方法與數據

Anthropic 公開的測試設計:團隊向 Claude 展示人類研究員即將做出錯誤研究方向判斷的對話紀錄,並詢問 AI「接下來應如何做」。Mythos Preview 在 64% 的情況下給出了優於人類研究員的回答,2024 年時同類測試的勝率為 22%。

Anthropic 在報告中說明,這一結果「暗示著 AI 已開始具備指導高階研究的能力」,但同時表示目前尚無法確定 Claude 是否具備自主選擇「正確研究問題」的全局判斷力。

Anthropic 報告中的代碼效率數據

Anthropic 的代碼效率相關指標:

內部工程師季度代碼交付量:為 2021-2025 年平均水準的 8 倍

開放性代碼問題成功率:在 6 個月內提升 50 個百分點,達到 76%

訓練代碼優化速度:Mythos Preview 達到 52 倍提升

比較基準:Claude Opus 4(2024 年 5 月)平均約 3 倍;熟練人類工程師通常需 4-8 小時實現約 4 倍

Anthropic 報告指出,部分內部工程師認為 Claude 的程式碼品質已逼近人類水準。

Anthropic 研究所:確認成立,研究 RSI 潛在影響

Anthropic 宣布將與外部利害關係人合作成立「Anthropic 研究所(Anthropic Institute)」,致力於研究強大 AI 系統的深遠影響。

Anthropic 在報告中表示,AI 加速發展既有望為醫學、科技與經濟領域帶來正面影響,也可能加劇 AI 對齊(Alignment)難題,並導致「失去控制(Loss of control)」的風險,Anthropic 稱這一影響「值得更高度的重視」。

常見問題

Mythos Preview 決策勝率測試的具體設計是什麼?

Anthropic 向 Claude 展示研究員即將走入錯誤研究方向的對話紀錄,並詢問「接下來應如何做」,測試 AI 的研究判斷力。Mythos Preview 在 64% 的情況下給出了優於人類研究員的回答,相比 2024 年同類測試 22% 的勝率,在兩年內實現了爆發性增長。

Anthropic 報告中提到的「遞迴自我提升(RSI)」是什麼?

遞迴自我提升(Recursive Self-Improvement)是指 AI 系統自主開發出比自身更強大的下一代 AI 的能力。Anthropic 在 2026 年 6 月 4 日的報告中表示,這一進程正以「超乎預期的速度」推進,並同時坦言目前尚無法確定 Claude 是否具備自主選擇「正確研究問題」的全局判斷力。

Anthropic 研究所的定位和目標是什麼?

Anthropic 宣布將與外部利害關係人合作成立 Anthropic 研究所,專門研究強大 AI 系統的深遠影響。Anthropic 表示成立目的是確保人類能為 AI 技術的未來做出審慎選擇,具體研究範疇和時程尚未完整披露。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆