人工分析(Artificial Analysis)今天發布一份新的「程式代理(Coding Agent)指標」,用以評估當 AI 模型與代理框架結合時在多項關鍵基準測試上的表現,包括 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 與 SWE-Atlas-QnA。在此次評估中,智譜 GLM-5.1 在開源模型中排名第一,展現出在真實世界的程式代理場景中的領先效能。
Related News
OpenAI 推出資安計畫 Daybreak,GPT-5.5 三層式架構對決 Anthropic Mythos
Gemini 完整指南 2026:Google AI 全產品線、訂閱方案、隱私政策一次看
Stanford 推 Agent Island:AI 模型在 Survivor 風格遊戲中策略背叛、互投淘汰