Gate 新聞訊息,4 月 24 日——DeepSeek 的 V4 技術報告顯示,V4-Flash 與 V4-Pro 分別在 32T 與 33T tokens 上進行預訓練,比用於 V3 的約 15T tokens 翻了一倍。報告承認在訓練過程中遇到「重大不穩定性挑戰」,損失尖峰反覆發生,原因是 Mixture-of-Experts (MoE) 層中的異常;而路由機制本身也會加劇這些異常,單純的回滾也無法解決問題。
DeepSeek 現已在實際訓練中採用了兩項解決方案:預判式路由(Anticipatory Routing),用於將路由索引計算與主幹網路更新解耦,僅在偵測到損失尖峰時自動觸發,並 (增加約 20% 的開銷);以及 SwiGLU 限幅(SwiGLU Clamping),透過將啟動值直接夾限到固定範圍來直接抑制異常。報告表示這兩種方法都有效,但也承認「底層原理仍未被充分理解」。
Susan Zhang 是一位 Google DeepMind 研究員,曾在 Meta AI 與 OpenAI 工作。她表示,因訓練數據翻倍所觸發的不穩定性「解釋了延遲」。她將這兩項解決方案稱為「補丁(band-aids)」,同時也承認 DeepSeek 的技術透明度。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
華為、燧原科技在國內晶片上整合 DeepSeek V4;規劃於 2026 年部署 750,000 台 Ascend 950PR 單元
根據《南華早報》,華為與寒武紀已在 2026 年開始將 DeepSeek V4 與國內晶片平台整合。華為表示 V4 現已在其 Ascend 950PR 以及其他 Ascend 處理器上運行,並計劃在今年於量產後生產約 75 萬顆 950PR 晶片,後續將在量產 st
GateNews19分鐘前
微軟可能推遲 2030 零碳電力目標,因 AI 資料中心擴建帶動能源需求
根據彭博社報導,微軟可能會延後或取消其 2030 年目標,讓每一小時的所有用電都能與零碳電力相匹配。由於 AI 資料中心擴張推高能源需求與成本,公司在 2021 年宣布的 100/100/0 目標比該公司的年度再生能源配對目標更嚴格 targe
GateNews19分鐘前
Google DeepMind 將訓練 AI 於《EVE Online》,並在 Fenris Creations 持有少數股權
根據彭博社,5 月 6 日,Google DeepMind 宣布將在《Eve Online》上訓練 AI 系統,並將入股 Fenris Creations 的少數股權;該公司正是多人太空遊戲的背後推手。這項投資金額達數百萬美元。DeepMind 高階主管 Adrian Bolton 表示《Eve Online》測試 AI
GateNews19分鐘前
Apple 將研發投入提升至 30 年來新高,推動 AI 投資
根據 CNBC 報導,Apple 在其 3 月季度將 10.3% 的營收用於研究與開發(R&D),這也是該公司至少 30 年來研發占比最高的水準,因為公司加速推進 AI 開發。該公司表示,在年增的基礎上,研發支出成長了將近 34%,而營收增加了 17%。該公司
Crypto Frontier28分鐘前
Anthropic 簽署 SpaceX 的 Colossus 1 作為 AI 運算用途
安培公司(Anthropic)週三宣布,它將使用 SpaceX 位於 Colossus 1 資料中心的全部運算能力,這標誌著 Claude 製造商在 AI 基礎建設擴張方面的最新合作。
此安排凸顯安培公司(Anthropic)的策略:在其擴展 AI 規模的同時,確保專用運算資源
Crypto Frontier47分鐘前
中信:AI 計算推動美國電力重組,自供市場開放
CITIC 證券研究指出,人工智慧算力正在推動美國電力供應的根本性重組,該國主要的 AI 公司現已進入一個由自身主導發電的新時代。2026 年 3 月,七家主要的美國 AI 公司簽署了
Crypto Frontier49分鐘前