DeepSeek发布V4开源模型系列,参数达1.6T并采用MIT许可证

Gate News消息,4月24日——DeepSeek已在MIT许可证下发布V4系列开源模型,权重现已在Hugging Face和ModelScope提供。该系列包含两个混合专家 (MoE) 模型:V4-Pro 总参数达1.6万亿,且每token激活49亿,以及V4-Flash 总参数达2840亿,且每token激活130亿。两者都支持100万token的上下文窗口。

该架构带来三项关键升级:一种混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro在1M上下文下的推理FLOPs仅为V3.2的27%,用于在推理过程中存储历史信息的KV缓存 (VRAM) 也仅为V3.2的10%;用流形约束的超连接 (mHC) 替代传统的残差连接,以增强跨层信号传播的稳定性;并采用Muon优化器以实现更快的训练收敛。预训练使用了超过32万亿tokens的数据。

后训练采用两阶段方案:首先通过监督微调 (SFT) 和GRPO强化学习训练领域特定专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称在顶级代码基准上拥有最强的开源模型实力,并且在推理和智能体任务上与闭源前沿模型之间的差距显著缩小。V4-Flash-Max在足够的计算预算下实现Pro级推理性能,但在纯知识和复杂智能体任务上受限于参数规模。权重以混合FP4+FP8精度存储。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

霍斯金森在 The Breakdown 上讨论了 Midnight 在 Cardano 生态系统中的作用

Cardano 创始人、以太坊联合创始人 Charles Hoskinson 作为嘉宾出现在 David Gokhshtein 主持的播客《The Breakdown》第 701 集中,讨论 Midnight 项目、加密货币中的用户体验挑战以及他对区块链未来的愿景。在采访期间,Hoskinson

Crypto Frontier7小时前

伯克希尔能源业务因 AI 驱动的电力需求而看到增长机会

据 Beating 称,在伯克希尔的股东大会上,CEO Abel 强调,由 AI 驱动的电力需求正在为公司能源业务创造新的增长机会,其一半的能源公用事业单位已在处理与 AI 相关的电力需求。 在爱荷华,数据中心现在占据

GateNews9小时前

Musk 与 Altman 诉讼首周证词:自承 XAI 蒸馏 OpenAI,警告 AI 像终结者

马斯克在奥克兰联邦法院首周诉讼证词中指控奥特曼与 Brockman 骗取早期非营利资金,警告 AI 末日风险,并自承 xAI 部分蒸馏自 OpenAI 模型;他自述投入 3,800 万美元,见证 OpenAI 从非营利转为估值 8 千亿 美元。Microsoft 2022 投资被视为信任崩坏的转折点。OpenAI 辩称马斯克企图挖角、并以竞争对手动机抗辩。随后在第二周证人包括 Russell 与 Brockman。

鏈新聞abmedia11小时前

与特朗普有关的 AI 金融收购 Block Street,金额 4300 万美元

据《财富》,AI Financial,这家与特朗普家族有关的加密货币公司此前名为 Alt5 Sigma,上周以 4300 万美元收购了 Block Street,一家加密基础设施公司。AI Financial 的顾问兼 Block Street 的首席执行官 Matthew Morgan 表示,该收购并非一项

GateNews12小时前

Riot 的股价在扩大 AMD 数据中心合作后上涨 8%

比特币矿企 Riot 的股价在其与 AMD 的数据中心协议扩展后上涨 8%。扩展后的合作包括改善的融资条款,凸显 Riot 正在从比特币挖矿转向人工智能数据中心运营的战略转变。此举表明信心日益增强

GateNews14小时前

明尼苏达州禁止 AI 非自愿色情影像工具,并处以最高 $500K 罚金

据 Decrypt 称,明尼苏达州议会于 5 月 2 日通过了一项法案,禁止网站和应用程序提供可生成未经同意的亲密图像的 AI 工具,且这些图像涉及可识别的个人。该法律禁止平台允许用户访问或使用此类“深度伪造”工具,并禁止

GateNews16小时前
评论
0/400
暂无评论