Artificial Analysis 今天发布了新的 Coding Agent Index,用于评估当 AI 模型与智能体框架结合时在关键基准测试中的表现,包括 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA。在此次评估中,智谱 GLM-5.1 在开源模型中排名第一,展现了在真实场景下的代码智能体案例中领先的性能。
相关快讯
OpenAI 推出资安计划 Daybreak,GPT-5.5 三层式架构对决 Anthropic Mythos
Gemini 完整指南 2026:Google AI 全產品線、訂閱方案、隱私政策一次看
斯坦福推出 Agent Island:AI 模型在《生存者》(Survivor)风格游戏中进行策略背叛、互投淘汰