Gate 新聞訊息,4 月 24 日——DeepSeek 的 V4 技術報告顯示,V4-Flash 與 V4-Pro 分別在 32T 與 33T tokens 上進行預訓練,比用於 V3 的約 15T tokens 翻了一倍。報告承認在訓練過程中遇到「重大不穩定性挑戰」,損失尖峰反覆發生,原因是 Mixture-of-Experts (MoE) 層中的異常;而路由機制本身也會加劇這些異常,單純的回滾也無法解決問題。
DeepSeek 現已在實際訓練中採用了兩項解決方案:預判式路由(Anticipatory Routing),用於將路由索引計算與主幹網路更新解耦,僅在偵測到損失尖峰時自動觸發,並 (增加約 20% 的開銷);以及 SwiGLU 限幅(SwiGLU Clamping),透過將啟動值直接夾限到固定範圍來直接抑制異常。報告表示這兩種方法都有效,但也承認「底層原理仍未被充分理解」。
Susan Zhang 是一位 Google DeepMind 研究員,曾在 Meta AI 與 OpenAI 工作。她表示,因訓練數據翻倍所觸發的不穩定性「解釋了延遲」。她將這兩項解決方案稱為「補丁(band-aids)」,同時也承認 DeepSeek 的技術透明度。
Related News