据 Beatings 报道,Google 在 Pixel 9 和 Pixel 10 设备上部署了多 Token 预测(MTP)架构,显著加速了设备端 Gemini Nano v3 模型。新架构将推理速度提升了 50% 以上,同时保持了模型的安全对齐和输出质量。
零拷贝机制使预测头能够通过交叉注意力直接复用主模型的缓存特征,消除了传统草稿模型单独的键值缓存开销。该设计节省了约 130MB 内存,同时降低了启动延迟。在通知摘要和智能回复等实际应用中,MTP 实现了 55% 的 Token 接受率提升,减少了处理器唤醒频率,降低了系统功耗。