Inception Labs 的 Mercury 2 在 AIME 2026 得分 90,超过 Google 的 DiffusionGemma

Inception Labs 于周四推出 Mercury 2,并将其定位为世界上最快的推理语言模型,速度大约为每秒 1,000 个 tokens。该模型在 AIME 2026 基准测试中得分 90,超越了谷歌近期发布的 DiffusionGemma,后者在同一测试中取得了 69.1%,且生成速度相近。两种模型都采用基于扩散的并行生成,而不是按顺序处理 token,反映了整个行业正在向更快的推理方法进行架构转变。

Mercury 2 在数学基准上优于 DiffusionGemma

根据 Inception Labs 的公告,Mercury 2 的生成速度约为每秒 1,000 个 tokens——即 AI 模型读取和输出文本的“片段”——而 Anthropic 的 Claude Haiku 4.5 Reasoning 约为每秒 89 个 tokens,OpenAI 的 GPT-5 Mini 约为每秒 71 个。 在 AIME 2026 上(由真实的美国数学邀请赛题目构建,得分为正确解题的百分比),Mercury 2 达到了 90%。谷歌在同一组数据上测试了 DiffusionGemma,得分为 69.1%;而标准的、非扩散的 Gemma 4 在同一测试中得分为 88.3%。

在 GPQA(一个博士级科学基准)上,两者得分方式也几乎相同:Mercury 2 为 77%,而 DiffusionGemma 为 73.2%。谷歌的开发者指南建议在需要最高质量的应用中使用标准 Gemma 4,同时承认 DiffusionGemma 在各方面都落后。DiffusionGemma 在 Hugging Face 上提供免费且开权重版本。Mercury 2 是付费、闭权重的 API 模型。

扩散模型取代按顺序的 token 生成

两种模型都放弃了“打字机式”的写作方式。标准聊天机器人会写下一个词,检查刚写了什么,然后再写下下一个词,并循环直到答案写完。扩散模型则是用随机占位 tokens 填充一整块文本,并在少数几轮并行传递中擦除噪声——这与像 Stable Diffusion 这样的图像生成器把静态图像变成照片的做法相同——直到整块文本一次性锁定为完成的回复。

Augment Code 报告生产环境中实现 82% 延迟降低

Augment Code 是一家 AI 编程代理公司,它在自己的 context-compaction 子代理中将 Mercury 2 替换为 Anthropic 的 Claude Opus 4.7,并观察到延迟降低 82%,成本降低 90%,同时报告输出质量相同;这是根据一份联合案例研究得出的结论。

Inception Labs 完成 5,000 万美元融资轮

Inception Labs 融资 5,000 万美元,投资方包括 Nvidia 的风投部门以及个人投资者 Andrew Ng 和 Andrej Karpathy。该初创公司建立在其创始人 Stefano Ermon 的研究基础上——他是斯坦福教授,并共同撰写了一些支撑当下图像生成器的基于分数的扩散技术。

并行生成使多智能体系统架构成为可能

复杂的 AI 系统就像管弦乐队般的专业助手:一个负责深度推理,多个负责快速摘要、路由、工具查找、输出检查。顺序模型让这些工具调用变得昂贵且缓慢。并行扩散模型则让这些调用变得足够便宜和快速,从而能够更为广泛地使用。Mercury 2 目前是 API/云端形式,而完整生态——本地运行时、智能体框架——仍在追赶当中。

采用扩散思路的工作流受益于对速度敏感

用例包括实时编程(模型能跟上编辑)、多智能体编码或支持系统(会发生大量快速的子调用)、不会让人觉得有延迟的语音界面,以及任何对延迟敏感的自动补全或下一步行动预测。据 Inception Labs 称,在规模化时,依靠标准硬件实现更高吞吐带来的成本和能耗节省会迅速累积。

FAQ

Inception Labs 周四宣布了什么? Inception Labs 在周四推出了 Mercury 2,并称其为世界上最快的推理语言模型。它的生成速度约为每秒 1,000 个 tokens,并在 AIME 2026 基准测试中得分 90。

Mercury 2 与谷歌的 DiffusionGemma 在基准上如何对比? Mercury 2 在 AIME 2026 上得分为 90,而谷歌的 DiffusionGemma 在同一测试中得分为 69.1%。在 GPQA 这一博士级科学基准上,Mercury 2 的得分为 77%,而 DiffusionGemma 为 73.2%。

Augment Code 报告了哪些成本和延迟方面的改进? Augment Code 在其 context-compaction 子代理中将 Mercury 2 替换为 Anthropic 的 Claude Opus 4.7,结果延迟降低 82%,成本降低 90%,同时报告输出质量相同;这是根据一份联合案例研究得出的结论。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论