Fable 5 在 UC Berkeley ALE 考試中所有最難任務全數失敗,比競品多花 4-12 倍費用

根據加州大學柏克萊分校 RDI,本週發布的「Agents' Last Exam (ALE)」最新評估結果顯示,在所有受測的 AI 代理中,針對最難、需要持續推理與深度專業知識的任務,其成功率為 0%,其中也包含剛發布的 Fable 5。在逐項任務的 API 成本方面,Fable 5 收取 15.70 美元——是 GPT-5.5 的 4 倍(3.80 美元),也比 Composer 2.5 高 12 倍(1.33 美元)。此次評估涵蓋 55 個專業領域、超過 1,500 個由專家驗證的任務,並發現代理最常見的失敗原因是過早宣布成功,卻未驗證結果。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆