D’après Beating monitoring, Google a publié un modèle open-source de génération de texte appelé DiffusionGemma, qui utilise un mécanisme de diffusion pour générer du texte en blocs parallèles plutôt que de manière séquentielle, token par token. Le modèle de 26B paramètres n’active que 3,8B paramètres par passe d’inférence grâce à une architecture mixture-of-experts, atteignant une amélioration de 4x de la vitesse en inférence locale sur GPU.
Sur un seul GPU NVIDIA H100, DiffusionGemma atteint plus de 1000 jetons par seconde, tandis que la RTX 5090 grand public dépasse 700 jetons par seconde. Après quantification en virgule flottante 4 bits, le modèle nécessite moins de 18GB de VRAM. Les poids de DiffusionGemma sont désormais open-sourcés sur Hugging Face et pris en charge par MLX, vLLM, Unsloth et NVIDIA NeMo.