OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準

鏈新聞abmedia

OpenAI 于 4/23 正式发布 GPT-5.5,定位为面向代理式(agentic)工作与企业知识处理的主力模型,同步登上 ChatGPT 与 Codex。官方宣传定调为“我们最聪明、最直觉易用的模型”,AA Intelligence Index 以 60 分登顶,领先 Claude Opus 4.7 与 Gemini 3.1 Pro Preview 各 3 分。

关键数据一览

指标 GPT-5.5 对照(GPT-5.4 或同级竞品) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0(命令行工作流) 82.7% GPT-5.4:75.1% Expert-SWE(OpenAI 内部程式评估) 73.1% GPT-5.4:68.5% 脉络视窗 1,200 万 tokens 大幅提升,可处理整个企业程式库或数小时影片 价格(每百万 token) 输入 5 美元、输出 30 美元 GPT-5.4 的 2 倍单价;但输出 token 使用量降约 40%,净成本上升约 20%

定位:为“Agent 时代”设计

OpenAI 将 GPT-5.5 描述为代理式运算的基础模型,能理解复杂目标、使用工具、自我检查工作成果,并能把多步任务跑到完成而无需人类在每一步介入。根据 TechCrunch 采访,总裁 Greg Brockman 形容此版本是“迈向未来运算的一大步,但只是一步”,并强调它“相较 5.4 是更快、更锐利的推理者,使用的 token 更少”。

首席科学家 Jakub Pachocki 指出,“我们在短期内看到非常显著的提升”;研究长 Mark Chen 则强调本次版本在“科学与技术研究工作流上带来有意义的突破”。

供应用范围与版本分层

GPT-5.5:Plus、Pro、Business、Enterprise 用户在 ChatGPT 与 Codex 中可使用

GPT-5.5 Pro:Pro、Business、Enterprise 用户在 ChatGPT 中可使用的更高阶推理版本

Codex 整合:同步可用于 OpenAI 的程式代理工具,强化多文件编辑、命令行与测试迴圈

资安与国防论述同步升高

技术团队成员 Mia Glaese 在接受 TechCrunch 访问时表示,GPT-5.5 的资安能力将对 OpenAI“部署模型投入数位防御的方式产生重大影响”。这个论述与 Anthropic 近期围绕 Claude Mythos 武器级资安模型的争议形成直接对照——Altman 先前才于《Core Memory》节目批评 Anthropic 的“恐惧行销”策略。OpenAI 在 GPT-5.5 上更强调“攻守兼备、可部署”的论述,意在与 Anthropic 限制存取的立场拉开差异。

价格策略变化

GPT-5.5 的每百万 token 价格翻倍至输入 5 美元、输出 30 美元,这是 GPT-5 系列首次出现单价显著上升的世代。OpenAI 的解释是:模型在推理效率上可减少 40% 左右的输出 token 使用,因此典型任务的实际账单约比 GPT-5.4 高 20%,而非单纯 2 倍。对企业来说,决策因此从“单价是否划算”转向“在同一 prompt 下,GPT-5.5 能否在 Token 总量更少的情况下完成更复杂任务”。

对产业的讯号

GPT-5.5 把 OpenAI 在 Terminal-Bench 与内部 SWE 评估的差距拉大,这两个基准分别测试命令行代理执行与实际软件工程任务——对 Codex 与 Claude Code 的正面对抗而言,是更直接的分数战场。加上同步开放 1,200 万 tokens 脉络视窗,OpenAI 对“企业知识库全量处理”与“长任务代理”两条赛道同时加压。对 Anthropic 而言,Claude Opus 4.7 在 AA 指数以 57 分落后 3 分,对 Claude Code 用户而言也多一个理由观察下一世代(Opus 4.8 或新一代 Claude)的进度。

这篇文章 OpenAI 推 GPT-5.5:12M 脉络、AA 指数登顶、Terminal-Bench 82.7% 改写代理基准 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Prophet 今日推出 AI 驱动的预测市场,并开设 10,000 美元的实时交易分档

据 MetaversePost 报道,Prophet 于今日(5 月 6 日)推出了一个由 AI 驱动的预测市场,分配了 10,000 美元的 USDC 用于实时交易。用户可以直接与一个生成基于概率定价的 AI 对手方进行交易;每个市场中有些合约将在 24 小时内结算。

GateNews40 分钟前

Tessera Labs 完成由 a16z 领投的 A 轮融资;6 人 AI 团队取代 60 名 SAP 顾问

据 Beating 称,Tessera Labs,这家 AI 系统集成公司,已完成由 a16z 领投的 A 轮融资。该初创公司成立于 2024 年,使用多智能体平台来自动化 SAP ECC 到 S/4HANA 的迁移,传统上这需要 3-5 年以及 1 亿美元到 5 亿美元每年。

GateNews47 分钟前

台指站稳四万点、美股再创新高,但 AI 产业才刚进入早期阶段?

高盛指出,AI 需求将因消费型 agent 工作负载大幅提升代币消耗,到 2030 年增长或将超过 12 倍,每月代币运算可达 60 兆;非 agent 与 consumer agent 的差别在于长时间自动化任务,若成真 AI 将进入 agentic 工作流程。Larry Fink 表示算力供给严重短缺,未来或将出现算力期货,两者共同支撑 AI 基础建设的多头论;文章认为 AI 仍处于早期阶段。

鏈新聞abmedia1小时前

WLFI 生態 AI 專案 WorldClaw 推出代理作业系统,未揭露品牌还能卖一万美元?

川普家族加密专案 World Liberty Financial(WLFI)再出新招,携手 WorldClaw 推出 AI 模型统一入口 WorldRouter,主打整合 300 款 AI 模型的代理人平台,最高付费方案要价近万美金,但附赠的却是一台「未披露品牌与作业系统」的硬件装置,引发外界疑虑。 @WorldClawAI 正在扩大 AI 的访问权限,$WLFI 在生态系统中扮演关键角色。用户可以通过 WorldRouter 访问 300+ 个模型,而代理人可以

鏈新聞abmedia4小时前

Meta 开发 AI 助理 Hatch 对标 OpenClaw,6 月底前完成内测

据《金融时报》于 5 月 5 日报道,Meta 正在开发一款面向普通消费者的 AI 助理(Hatch),灵感来自 OpenAI 旗下的 OpenClaw,目标是在 6 月底前完成内部测试;Meta 同时计划在今年第四季度前,将独立的代理型购物工具整合至旗下 Instagram 服务。

Market Whisper5小时前

Cloudflare:非人类流量现已成为主导,x402 基金会地址推动 Web 经济学发展

Cloudflare 首席战略官表示,如今超过一半的互联网流量并非人类,凸显出由 AI 代理推动的网络使用模式转变。该公司指出,x402 Foundation 是一项关键举措,致力于建设基础设施,以支持可持续的数字内容经济

Crypto Frontier7小时前
评论
0/400
暂无评论