小米透過分層快取將 MiMo API 成本降低 80%,等同於 10 層 GQA 模型

DEEPSEEK-0.76%

根據 Beating,Xiaomi 在配合 DeepSeek 的近期降價之後,揭露了其 MiMo-V2.5 API 的核心最佳化技術。該公司的高負載推理引擎透過混合式注意力架構以及分層 KV 快取最佳化來維持獲利能力。

Xiaomi 的推理框架透過對滑動視窗注意力(SWA)導入分層最佳化,使快取成本降低 80%,並將 token 容量提升 5 倍。採用全域注意力(GA)層與 SWA 層之間 1:7 稀疏比例的 70 層 MiMo-V2.5-Pro 模型,其 prefill 計算效能相當於傳統 10 層全域 GQA 模型,能顯著降低推理成本。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆