Inception Labs 的 Mercury 2 在 AIME 2026 得分 90，超过 Google 的 DiffusionGemma

2026-06-21 16:12:51

Inception Labs 于周四推出 Mercury 2，并将其定位为世界上最快的推理语言模型，速度大约为每秒 1,000 个 tokens。该模型在 AIME 2026 基准测试中得分 90，超越了谷歌近期发布的 DiffusionGemma，后者在同一测试中取得了 69.1%，且生成速度相近。两种模型都采用基于扩散的并行生成，而不是按顺序处理 token，反映了整个行业正在向更快的推理方法进行架构转变。

Mercury 2 在数学基准上优于 DiffusionGemma

根据 Inception Labs 的公告，Mercury 2 的生成速度约为每秒 1,000 个 tokens——即 AI 模型读取和输出文本的“片段”——而 Anthropic 的 Claude Haiku 4.5 Reasoning 约为每秒 89 个 tokens，OpenAI 的 GPT-5 Mini 约为每秒 71 个。在 AIME 2026 上（由真实的美国数学邀请赛题目构建，得分为正确解题的百分比），Mercury 2 达到了 90%。谷歌在同一组数据上测试了 DiffusionGemma，得分为 69.1%；而标准的、非扩散的 Gemma 4 在同一测试中得分为 88.3%。

在 GPQA（一个博士级科学基准）上，两者得分方式也几乎相同：Mercury 2 为 77%，而 DiffusionGemma 为 73.2%。谷歌的开发者指南建议在需要最高质量的应用中使用标准 Gemma 4，同时承认 DiffusionGemma 在各方面都落后。DiffusionGemma 在 Hugging Face 上提供免费且开权重版本。Mercury 2 是付费、闭权重的 API 模型。

扩散模型取代按顺序的 token 生成

两种模型都放弃了“打字机式”的写作方式。标准聊天机器人会写下一个词，检查刚写了什么，然后再写下下一个词，并循环直到答案写完。扩散模型则是用随机占位 tokens 填充一整块文本，并在少数几轮并行传递中擦除噪声——这与像 Stable Diffusion 这样的图像生成器把静态图像变成照片的做法相同——直到整块文本一次性锁定为完成的回复。

Augment Code 报告生产环境中实现 82% 延迟降低

Augment Code 是一家 AI 编程代理公司，它在自己的 context-compaction 子代理中将 Mercury 2 替换为 Anthropic 的 Claude Opus 4.7，并观察到延迟降低 82%，成本降低 90%，同时报告输出质量相同；这是根据一份联合案例研究得出的结论。

Inception Labs 完成 5,000 万美元融资轮

Inception Labs 融资 5,000 万美元，投资方包括 Nvidia 的风投部门以及个人投资者 Andrew Ng 和 Andrej Karpathy。该初创公司建立在其创始人 Stefano Ermon 的研究基础上——他是斯坦福教授，并共同撰写了一些支撑当下图像生成器的基于分数的扩散技术。

并行生成使多智能体系统架构成为可能

复杂的 AI 系统就像管弦乐队般的专业助手：一个负责深度推理，多个负责快速摘要、路由、工具查找、输出检查。顺序模型让这些工具调用变得昂贵且缓慢。并行扩散模型则让这些调用变得足够便宜和快速，从而能够更为广泛地使用。Mercury 2 目前是 API/云端形式，而完整生态——本地运行时、智能体框架——仍在追赶当中。

采用扩散思路的工作流受益于对速度敏感

用例包括实时编程（模型能跟上编辑）、多智能体编码或支持系统（会发生大量快速的子调用）、不会让人觉得有延迟的语音界面，以及任何对延迟敏感的自动补全或下一步行动预测。据 Inception Labs 称，在规模化时，依靠标准硬件实现更高吞吐带来的成本和能耗节省会迅速累积。

FAQ

Inception Labs 周四宣布了什么？ Inception Labs 在周四推出了 Mercury 2，并称其为世界上最快的推理语言模型。它的生成速度约为每秒 1,000 个 tokens，并在 AIME 2026 基准测试中得分 90。

Mercury 2 与谷歌的 DiffusionGemma 在基准上如何对比？ Mercury 2 在 AIME 2026 上得分为 90，而谷歌的 DiffusionGemma 在同一测试中得分为 69.1%。在 GPQA 这一博士级科学基准上，Mercury 2 的得分为 77%，而 DiffusionGemma 为 73.2%。

Augment Code 报告了哪些成本和延迟方面的改进？ Augment Code 在其 context-compaction 子代理中将 Mercury 2 替换为 Anthropic 的 Claude Opus 4.7，结果延迟降低 82%，成本降低 90%，同时报告输出质量相同；这是根据一份联合案例研究得出的结论。

View Source

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。