DeepSeek V4 训练数据翻倍至 33T,导致不稳定性并延迟了发布

Gate News 消息,4月24日——DeepSeek 的 V4 技术报告显示,V4-Flash 和 V4-Pro 分别在 32T 和 33T token 上进行了预训练,相较于 V3 使用的约 15T token 翻了一倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”,损失尖峰反复出现,是由于 Mixture-of-Experts (MoE) 层中的异常;路由机制本身会加剧这些异常,而简单的回滚也无法解决问题。

DeepSeek 目前已落地到实际训练中的两项解决方案:预判式路由(Anticipatory Routing),它将路由索引计算与骨干网络更新解耦,并仅在检测到损失尖峰时自动触发 (增加约 20% 的开销),以及 SwiGLU 夹持(SwiGLU Clamping),通过直接将激活值夹持到固定范围来抑制异常。报告称这两种方案都有效,但承认“底层原理仍未被充分理解”。

Susan Zhang(谷歌 DeepMind 研究员,曾在 Meta AI 和 OpenAI 工作)评论称,由于训练数据翻倍所触发的不稳定性“解释了延迟”。她将这两种解决方案描述为“补丁(band-aids)”,同时也承认了 DeepSeek 的技术透明度。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Alphabet 寻求 105 亿美元以债券形式用于 AI 数据中心

据彭博报道,5 月 6 日,Alphabet 至少发行了 105 亿美元的欧元和加元债券,用于资助 AI 数据中心支出。欧元发行的订单在六个分批中累计超过 295 亿美元,而加元发行则包含四部分,期限从 5 到 30

GateNews3 分钟前

ElevenLabs 在 2026 年前四个月内位居 $500M ARR 之首

据《经济时报》报道,总部位于纽约和伦敦的语音 AI 初创公司 ElevenLabs 表示,其年度经常性收入在 2026 年前四个月首次突破 5 亿美元。该公司为其正在进行的 Series 追加了未披露的融资……

GateNews3 分钟前

Accel 领投 $60M 以色列电商 AI 初创公司 ZyG 的 $500M A 轮融资,估值为

据 Calcalist 报道,以色列电商 AI 初创公司 ZyG 在由 Accel 牵头的 A 轮融资中募得 6,000 万美元,估值为 5 亿美元。本轮融资使 ZyG 迄今累计募资达到 1.18 亿美元,参与方包括 Lightspeed、Viola、Bessemer、Access Industries 以及 Wiz 的 CEO Assaf

GateNews13 分钟前

Chrome 静默安装 4GB Gemini Nano 模型:研究员揭未经同意、可能违反欧盟隐私法

Chrome 在 2026/4/20–29 未经用戶同意,靜默在裝置安裝约 4GB Gemini Nano 模型(weights.bin,OptGuideOnDeviceModel),无 opt-in/opt-out,刪除后更新会自动再下載,影響超过 10 亿用戶。Gemini Nano 为裝置端 LLM,AI Mode 实为雲端入口,非本地模型,易造成隐私誤解。此舉可能違反 EU ePrivacy 5(3),恐罰款与碳排放成本。可透过 Enterprise 管理工具阻止。

鏈新聞abmedia28 分钟前

AMD 预计第二季度营收为 112 亿美元,因 AI 需求超出预期

根据路透社,Advanced Micro Devices 预计第二季度营收约为 112 亿美元,正负 3 亿美元,高于华尔街此前预估的 105.2 亿美元,原因是对 AI 基础设施需求强劲。该芯片制造商的股价在公告公布后上涨 12%。第一季度

GateNews33 分钟前

AI 推动半導體需求,三星大漲 12%,市值突破 1 兆美元

在 AI 基礎设施需求推动下,三星市值突破 1 兆美元,股价近一年漲幅大;記憶體需求強勁、NAND/DRAM 价格上升,预计 2027 年供需將更緊。傳蘋果考慮在美代工核心晶片,若成,將拓展供应链多元性。面臨手机与顯示成本壓力与勞资风险,Forward P/E 约 5.3 倍;分析師预估 12 个月上行空间约 30%。

鏈新聞abmedia40 分钟前
评论
0/400
暂无评论