По данным Beating, Google развернул архитектуру Multi-Token Prediction (MTP) на устройствах Pixel 9 и Pixel 10, значительно ускорив работу модели Gemini Nano v3 на устройстве. Новая архитектура увеличила скорость вывода более чем на 50%, сохранив при этом выравнивание безопасности модели и качество вывода.
Механизм zero-copy позволяет головке предсказания напрямую повторно использовать кэшированные признаки основной модели через перекрестное внимание, устраняя накладные расходы на отдельный кэш ключ-значений традиционных черновых моделей. Такая конструкция сэкономила примерно 130 МБ памяти, а также снизила задержку запуска. В реальных приложениях, таких как суммаризация уведомлений и умные ответы, MTP достиг увеличения частоты принятия токенов на 55%, уменьшив частоту пробуждения процессора и снизив энергопотребление системы.