小米通过分层缓存将 MiMo API 成本削减 80%,等同于 10 层 GQA 模型

DEEPSEEK-0.76%

据 Beating 称,小米在跟随与 DeepSeek 一致的近期降价之后,披露了其 MiMo-V2.5 API 的核心优化技术。该公司高负载推理引擎通过混合注意力架构以及分层 KV cache 优化来维持盈利能力。

小米的推理框架通过为滑动窗口注意力(SWA)实施分层优化,将缓存成本降低了 80%,并将令牌容量提升了 5 倍。70 层的 MiMo-V2.5-Pro 模型在全局注意力(GA)层与 SWA 层之间采用 1:7 的稀疏比例,执行的预填计算相当于传统 10 层全局 GQA 模型,从而显著降低推理成本。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论