По словам Beating, Nvidia выпустила свой флагманский крупный языковой модельный Nemotron 3 Ultra 4 июня, оснастив его 550 миллиардами суммарных параметров и 55 миллиардами активных параметров. Модель набирает 48 баллов в интеллект-индексе Artificial Analysis, что делает её самым сильным по производительности открытым исходным U.S.-модельным, уступающим только Kimi K2.6 (54 балла).
Модель использует гибридную архитектуру Mamba-Transformer MoE, которая чередует слои Mamba-2 state space с слоями Transformer attention, поддерживая контекстное окно на 1 миллион токенов и при этом избегая квадратичного роста KV cache. По сравнению с плотными моделями сопоставимого масштаба, гибридная архитектура обеспечивает в 5 раз более высокую пропускную способность и на 30% более низкие затраты на инференс при агентных задачах. Nemotron 3 Ultra доступна на Hugging Face, NVIDIA NIM и OpenRouter.