OpenAI 推 GPT-5.5：12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準

2026-04-23 19:45:18

OpenAI 于 4/23 正式发布 GPT-5.5，定位为面向代理式（agentic）工作与企业知识处理的主力模型，同步登上 ChatGPT 与 Codex。官方宣传定调为“我们最聪明、最直觉易用的模型”，AA Intelligence Index 以 60 分登顶，领先 Claude Opus 4.7 与 Gemini 3.1 Pro Preview 各 3 分。

关键数据一览

指标 GPT-5.5 对照（GPT-5.4 或同级竞品） AA Intelligence Index 60 Claude Opus 4.7：57；Gemini 3.1 Pro Preview：57 Terminal-Bench 2.0（命令行工作流） 82.7% GPT-5.4：75.1% Expert-SWE（OpenAI 内部程式评估） 73.1% GPT-5.4：68.5% 脉络视窗 1,200 万 tokens 大幅提升，可处理整个企业程式库或数小时影片价格（每百万 token）输入 5 美元、输出 30 美元 GPT-5.4 的 2 倍单价；但输出 token 使用量降约 40%，净成本上升约 20%

定位：为“Agent 时代”设计

OpenAI 将 GPT-5.5 描述为代理式运算的基础模型，能理解复杂目标、使用工具、自我检查工作成果，并能把多步任务跑到完成而无需人类在每一步介入。根据 TechCrunch 采访，总裁 Greg Brockman 形容此版本是“迈向未来运算的一大步，但只是一步”，并强调它“相较 5.4 是更快、更锐利的推理者，使用的 token 更少”。

首席科学家 Jakub Pachocki 指出，“我们在短期内看到非常显著的提升”；研究长 Mark Chen 则强调本次版本在“科学与技术研究工作流上带来有意义的突破”。

供应用范围与版本分层

GPT-5.5：Plus、Pro、Business、Enterprise 用户在 ChatGPT 与 Codex 中可使用

GPT-5.5 Pro：Pro、Business、Enterprise 用户在 ChatGPT 中可使用的更高阶推理版本

Codex 整合：同步可用于 OpenAI 的程式代理工具，强化多文件编辑、命令行与测试迴圈

资安与国防论述同步升高

技术团队成员 Mia Glaese 在接受 TechCrunch 访问时表示，GPT-5.5 的资安能力将对 OpenAI“部署模型投入数位防御的方式产生重大影响”。这个论述与 Anthropic 近期围绕 Claude Mythos 武器级资安模型的争议形成直接对照——Altman 先前才于《Core Memory》节目批评 Anthropic 的“恐惧行销”策略。OpenAI 在 GPT-5.5 上更强调“攻守兼备、可部署”的论述，意在与 Anthropic 限制存取的立场拉开差异。

价格策略变化

GPT-5.5 的每百万 token 价格翻倍至输入 5 美元、输出 30 美元，这是 GPT-5 系列首次出现单价显著上升的世代。OpenAI 的解释是：模型在推理效率上可减少 40% 左右的输出 token 使用，因此典型任务的实际账单约比 GPT-5.4 高 20%，而非单纯 2 倍。对企业来说，决策因此从“单价是否划算”转向“在同一 prompt 下，GPT-5.5 能否在 Token 总量更少的情况下完成更复杂任务”。

对产业的讯号

GPT-5.5 把 OpenAI 在 Terminal-Bench 与内部 SWE 评估的差距拉大，这两个基准分别测试命令行代理执行与实际软件工程任务——对 Codex 与 Claude Code 的正面对抗而言，是更直接的分数战场。加上同步开放 1,200 万 tokens 脉络视窗，OpenAI 对“企业知识库全量处理”与“长任务代理”两条赛道同时加压。对 Anthropic 而言，Claude Opus 4.7 在 AA 指数以 57 分落后 3 分，对 Claude Code 用户而言也多一个理由观察下一世代（Opus 4.8 或新一代 Claude）的进度。

这篇文章 OpenAI 推 GPT-5.5：12M 脉络、AA 指数登顶、Terminal-Bench 82.7% 改写代理基准最早出现在链新闻 ABMedia。

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。