Gate News 消息,4月25日——DeepSeek 于 4月24日发布了 V4-Pro 和 V4-Flash 的预览版本;两者均为开源权重模型,拥有一百万 token 的上下文窗口。V4-Pro 具备 1.6 万亿的总参数,但在每次推理时仅激活 490亿,采用了 Mixture-of-Experts(混合专家)架构。V4-Flash 的总参数为 2840亿,激活参数为 130亿。
定价显著低于竞争对手:V4-Pro 的百万输入 token 成本为 $1.74,百万输出 token 成本为 $3.48——比 OpenAI 的 GPT-5.5 Pro 低约 98% ($30 input,$180 output),同时也大约是 Claude Opus 4.7 成本的 1/20。V4-Flash 的百万 token 输入定价为 $0.14,输出定价为 $0.28。两款模型均在 MIT 许可证下开源,可免费在本地运行。
DeepSeek 通过两种新的注意力机制实现了效率提升:Compressed Sparse Attention(压缩稀疏注意力)和 Heavily Compressed Attention(深度压缩注意力)。这使得计算成本分别降至 V4-Pro 前代版本的 27% (V3.2) 和 V4-Flash 的 10%。该公司部分使用华为 Ascend 芯片训练了 V4,从而规避了美国对先进 Nvidia 处理器的出口限制。DeepSeek 表示,等到 2026 年后续上线 950 个新的超级节点后,定价还将进一步下调。
在性能基准测试中,V4-Pro-Max 在 Codeforces 竞赛编程 (3,206 分排名第一,位于人类参赛者约第 23 名),并在 Apex Shortlist 数学题上取得 90.2% 的成绩,而 Claude Opus 4.6 为 85.9%。不过,它在多任务基准上落后:MMLU-Pro (87.5% 对比 Gemini-3.1-Pro 的 91.0%),以及 Humanity’s Last Exam (37.7% 对比 44.4%)。在长上下文任务上,V4-Pro 在开源模型中领先,但在 MRCR 检索测试中仍落后于 Claude Opus 4.6。
V4-Pro 引入了“交错式思考(interleaved thinking)”,使代理工作流能够在多次工具调用之间保留推理上下文,而无需在步骤之间清空。两款模型都支持与 Claude Code 以及 OpenCode 的编程集成。根据 DeepSeek 对 85 名用户的开发者调查,52% 的受访者表示 V4-Pro 已准备好作为其默认编程代理,另有 39% 倾向于采用。旧版 deepseek-chat 和 deepseek-reasoner 端点将于 2026 年 7月24日下线。
相关文章