DeepSeek V4 在 Putnam-2025 上取得满分成绩,与 Axiom 在形式化数学推理中并列第一

Gate News 消息,4月24日——DeepSeek V4 已发布来自形式化数学推理评测的结果,在 Putnam-2025 上获得满分 120/120,与 Axiom 并列第一。

在使用 LeanExplore 和受约束采样的实际模式下,V4-Flash-Max 在 Putnam-200 Pass@8 基准测试中得分 81.00,显著优于 Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50) 和 Seed-1.5-Prover (26.50)。前沿模式的结果显示,V4 在 Seed-1.5-Prover (110/120) 与 Aristotle (100/120) 之前。

V4 采用混合的形式化-非形式化推理方法:非形式化推理生成候选自然语言解答,自我验证用于筛选结果,而形式化智能体在 Lean 中完成严格证明。前沿结果采用了大规模计算扩展,而实际模式分数更能反映标准部署能力。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

法院文件显示,Altman 于 2023 年 11 月提议收购 Microsoft 以保留 CEO 职位

根据 5 月 7 日发布的法院文件,在 Musk v. Altman 案中曝光的材料显示,Sam Altman 与当时的 CTO Mira Murati 之间在 2023 年 11 月 19 日的短信往来,当时 OpenAI 的董事会突然将 Altman 从 CEO 职位移除。在危机期间,Altman 提议微软收购 OpenAI,以

GateNews5 分钟前

主要 CEX 增加 SpaceX、OpenAI 和 Anthropic 的 IPO 前交易

据报道,一家领先的中心化交易所今天(5 月 7 日)推出了 SPACEX/USDT、OPENAI/USDT 和 ANTHROPIC/USDT 上市前交易对。该平台支持在这些标的上进行杠杆交易。

GateNews12 分钟前

Cloudflare 在 2026 年共识大会(Consensus 2026)每天触发 10 亿次 HTTP 402 响应,并与 Visa 和 Experian 一同推出代理信任框架

据 Foresight News 报道,Cloudflare 首席安全官 Stephanie Cohen 在 2026 年 Consensus 上宣布,该平台每天触发约 10 亿次 HTTP 402 响应,反映了 AI 代理对付费访问网页内容的需求。该公司与 Visa 和 Experian 一同发布了 Agent Trust

GateNews28 分钟前

新加坡议会承诺在 AI 时代不出现“零工增长”,在 7 小时辩论之后

据 CNA 报道,新加坡议会于 5 月 6 日一致通过一项动议,呼吁在 AI 转型期间实现包容性增长。该动议在历时超过七小时、由 24 名议员参与的辩论后获通过,其中包括来自工人党(Workers' Party)的七名议员。该动议由劳工负责人 Ng Chee Meng 以及另外三人提出

GateNews48 分钟前

Anthropic 瞄准消费市场,提升 Claude 聊天机器人速度

根据该公司实验室团队联合负责人 Mike Krieger 的说法,Anthropic 正在将其 Claude 聊天机器人战略从面向企业的客户转向面向消费者市场。这家 AI 初创公司正在利用近期消费者市场的进展来提升软件对普通用户的吸引力,内部

Crypto Frontier1小时前
评论
0/400
暂无评论