根據 Beating,AI 評估公司 Vals AI 於 5 月 14 日發布其第二代 Finance Agent v2 基準測試,透過 927 道經專家審閱的問題,測試金融分析工作流程。GPT-5.5 在排行榜中以 51.76% 的正確率奪冠,其後緊追的是 Claude Opus 4.7(51.51%)以及 Claude Sonnet 4.6(51.03%)。該測試要求模型能在數百頁的 10-K 與 10-Q 財務報表中,獨立找到相關段落,並以精確的中間數值完成多步驟計算。
在要求完全正確答案的嚴格評分標準下,所有領先模型的正確率都降至 40% 以下;最困難的類別——金融建模與先例分析——至多僅達到 23%。在其他模型中,Kimi K2.6 以 44.87% 排名第五,其後是 GLM 5.1(44.79%)與 DeepSeek V4(44.08%)。相較於先前版本中 Opus 4.7 的 64.4%,顯著下滑凸顯出:即使 AI 能處理簡單的檢索,它仍遠未能取代金融領域中需要嚴格數值精度的資深分析師。
Related News