小米揭露 MiMo-V2-Pro 訓練細節:1T 模型參數,部署數千台 GPU

Gate 新聞訊息,4 月 24 日——小米大型語言模型團隊負責人 羅福立 在一場深入採訪中披露,MiMo-V2-Pro 模型總計擁有 1 兆(trillion)參數,訓練過程需要數千台 GPU。她指出,1T 規模代表達成性能接近 Claude Opus 4.6 等級所需的最低門檻,並取得下一階段 AI 代理的競爭性入場票。

技術層面,Pro 版本採用極致稀疏注意力機制,將全域注意力與滑動視窗注意力的比例設為 7:1,以控制長上下文處理的推論成本。模型也保留了 MTP (Multi-Token Prediction) 架構,利用剩餘算力以實現更快的推論。

在管理方面,100 人規模的 MiMo 團隊中,只有 30-40 人直接參與核心迭代。團隊運作不設正式階層,也沒有明確的分組或交付截止期限。當遇到不穩定的數值問題,例如訓練損失激增時,團隊會優先考慮暫停訓練以便調查,即使這意味著停止運作一到兩週,並因此產生數百萬美元的算力成本。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

POLITICO 民調:45% 的美國人 認為 加密貨幣 投資風險太高,50% 更信任 銀行

根據 POLITICO 的一項民調,45% 的美國人認為加密貨幣投資不值得冒險,而約 50% 的受訪者表示他們更信任傳統銀行來保護他們的資金。該民調也發現,44% 的受訪者認為人工智慧發展得太快,

GateNews8小時前

Amazon 與 OpenAI 擴大合作:模型上架 Bedrock、微軟獨家結束

OpenAI 5 月 3 日宣布與亞馬遜雲端服務(AWS)擴大合作、OpenAI 模型與 Codex 編碼代理將透過 Amazon Bedrock 提供給 AWS 客戶使用。根據 CNBC 報導,本次擴大是在 4 月底 OpenAI 與微軟(Microsoft)終止雲端獨家合約後的關鍵下一步—OpenAI 從「微軟雲端唯一」轉向多雲端部署。AWS 同期已完成 OpenAI 產品在 Bedrock 平台的初步整合。 背景:OpenAI-微軟獨家合約結束、IP 授權延至 2032 年 4 月底 OpenAI 與微軟達成新協議:原本的「微軟對 OpenAI 產品與 IP 獨家存取」結構結束、Op

鏈新聞abmedia9小時前

研究人員部署 DPN-LE 技術以編輯 AI 性格特徵,僅編輯 0.5% 的神經元

根據 BlockBeats 的說法,5 月 3 日,AI 研究員 Brian Roemmele 透露,他的 Zero-Human 公司已部署 DPN-LE(雙重人格神經元定位與編輯)技術,以精準調整

GateNews10小時前

Claude 取得時間工具存取權後,每 15 分鐘檢查一次時鐘

根據開發者 Om Patel,Claude AI 在 5 月 3 日取得一個時間工具的存取權後,開始頻繁查看時鐘,且模型每 15 分鐘檢查一次。這項觀察指出,大型語言模型過去先前缺乏原生的時間感知能力,並且不知曉當前時間或

GateNews11小時前

Founders Fund 在 5 月 3 日關閉 60 億美元旗艦基金,為自成立以來規模最大

根據彭博(Bloomberg),Founders Fund 於 5 月 3 日以 60 億美元完成其最新旗艦基金的募資,顯著超過其先前約 34 億美元的基金。該基金由億萬富翁 Peter Thiel 共同創立,將聚焦於包含人工在內的高成長產業

GateNews11小時前

最新 POLITICO 民調:45% 的美國人表示加密貨幣投資風險太高,44% 擔憂 AI 進展過快

根據 POLITICO 的民調,儘管 AI 與加密貨幣產業向 2026 年美國中期選舉注入了大量政治資金,美國民眾仍大多對這兩個產業抱持懷疑態度。調查發現,45% 的美國人認為投資加密貨幣不值得

GateNews12小時前
留言
0/400
暫無留言