
Google DeepMind 10 июня официально опубликовала и открыла исходный код DiffusionGemma — как нового участника открытого семейства Gemma 4. DiffusionGemma использует диффузионную архитектуру для текстовой генерации, сочетая дизайн с Mixture of Experts (MoE). Во всех уже опубликованных публичных тестах показатели DiffusionGemma ниже, чем у стандартной Gemma 4.
Официальные данные по скоростным тестам и спецификации оборудования
Согласно опубликованным Google официальным подтверждённым цифрам:
Скоростной тест (официально от Google, без верификации третьими лицами)
Nvidia RTX 5090 (уровня потребительских устройств): около 700 токенов/сек
Nvidia H100 (уровня дата-центров): более 1 000 токенов/сек
Самооценочный множитель: примерно в 4 раза относительно автрорегрессионной модели того же размера
Архитектура и параметры
Общее число параметров: 26 миллиардов (26B)
Число активных параметров при инференсе: 3,8 миллиарда (3.8B)
Требования к VRAM: можно запускать на 18GB VRAM на продвинутых видеокартах (особенно в случае квантованной версии)
Максимальная параллельная обработка: за раз максимум 256 токенов одновременно
Лицензия: Apache 2.0
Механизм генерации: ключевые различия между диффузией и автрорегрессией
Стандартные автрорегрессионные модели генерируют последовательно — по одному токену за раз. Каждый токен зависит от вычислений предыдущего, а узкое место находится в пропускной способности памяти: при выводе каждого токена требуется один раз читать веса модели из памяти.
У DiffusionGemma процесс другой: сначала поверх всей области вывода раскладываются позиционные токены-заглушки, затем выполняются несколько раундов денойза — каждый раунд позволяет всем позициям одновременно обновляться с взаимными исправлениями, пока содержимое целиком не сойдётся к финальному выводу. Такой вычислительно-интенсивный параллельный подход переносит узкое место с пропускной способности памяти на GPU-вычисления, что позволяет полнее задействовать параллельные возможности современных GPU.
Google в официальной документации приводит пример: DiffusionGemma демонстрирует структурное преимущество в нелинейных задачах логики, например в задачах типа судоку. Это связано с тем, что в подобных задачах корректный ответ часто включает сложные зависимости между позициями, а линейный способ генерации в автрорегрессии изначально ограничен.
Результаты бенчмарков: все опубликованные тестовые оценки ниже Gemma 4
Google в материалах релиза подтверждает, что во всех уже опубликованных публичных бенчмарках оценка DiffusionGemma ниже, чем у стандартной Gemma 4. Это означает, что четырёхкратное ускорение сопровождается систематическим снижением качества генерации. В статье BlockTempo указано, что такие компромиссы имеют разный смысл для различных сценариев применения: для сценариев, где критичны задержки или требуется генерация большими партиями, преимущество по скорости является практическим; для задач с более высокими требованиями к качеству стандартная Gemma 4 пока остаётся более надёжной.
Google официально перечисляет подходящие сценарии для DiffusionGemma, включая: inline editing (встроенное редактирование), генерацию молекулярных последовательностей, математическое построение изображений, а также нелинейные задачи с нелинейными логическими зависимостями.
Частые вопросы
Чем DiffusionGemma и стандартные автрорегрессионные языковые модели принципиально отличаются по механизму генерации?
Стандартные автрорегрессионные модели генерируют последовательно по одному токену; каждый токен зависит от результата предыдущего. DiffusionGemma сначала заполняет всю область вывода позиционными токенами-заглушками, выполняет несколько раундов денойза, в каждом раунде обновляет все позиции одновременно, а затем в один финальный проход выводит всю заготовку целиком — логика генерации ближе к тому, как Stable Diffusion генерирует изображения.
На каком железе DiffusionGemma можно запускать локально?
Согласно объяснению Google, DiffusionGemma можно запускать на видеокартах высокого класса с 18GB VRAM, а квантованные версии — особенно. По тестам Google, потребительская Nvidia RTX 5090 достигает примерно 700 токенов в секунду, но приведённые цифры являются самооценкой Google и не подтверждены независимой проверкой третьими лицами.
Проверены ли цифры скорости DiffusionGemma независимой третьей стороной?
Пока нет. BlockTempo в явном виде пишет, что все цифры скорости взяты из тестов, проведённых самим Google, без независимой верификации третьими лицами; в реальных условиях — при разных сценариях и разной длине генерации — фактический множитель может отличаться от официальных цифр.