Google 在 Pixel 9 和 10 上部署多 Token 预测,使 Gemini Nano 推理速度提升超过 50%

据 Beatings 报道,Google 在 Pixel 9 和 Pixel 10 设备上部署了多 Token 预测(MTP)架构,显著加速了设备端 Gemini Nano v3 模型。新架构将推理速度提升了 50% 以上,同时保持了模型的安全对齐和输出质量。

零拷贝机制使预测头能够通过交叉注意力直接复用主模型的缓存特征,消除了传统草稿模型单独的键值缓存开销。该设计节省了约 130MB 内存,同时降低了启动延迟。在通知摘要和智能回复等实际应用中,MTP 实现了 55% 的 Token 接受率提升,减少了处理器唤醒频率,降低了系统功耗。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论