Согласно объявлению NVIDIA в официальном блоге от 28 апреля (автор Kari Briski), NVIDIA представила Nemotron 3 Nano Omni — открытый многомодальный модель, объединяющую визуальные, голосовые и языковые возможности в одном моделe. Цель — обеспечить для систем AI agent более низкую задержку и более низкую стоимость «уровня восприятия».
Ключевые характеристики: 30B-A3B MoE, контекст 256K, 9-кратная пропускная способность, заняла 6 первых мест в рейтингах
Ключевая архитектура:
30B-A3B hybrid mixture-of-experts (общее число параметров 30B, активируемые 3B)
Интеграция Conv3D и EVS кодирования
Длина контекста 256K
Вход: текст, изображение, аудио, видео, документы, диаграммы, GUI-экраны
Выход: текст
Сигналы по производительности: по сравнению с другими открытыми omni-моделями при сопоставимой интерактивности — 9-кратная пропускная способность; во всех трех категориях бенчмарков (smart documents, video understanding, audio understanding) суммарно в шести бенчмарках заняла первое место (в объявлении NVIDIA не приведены конкретные баллы; читателей направляют на разработческий блог, чтобы ознакомиться с детальными данными).
NVIDIA позиционирует Nemotron 3 Nano Omni как «глаза и уши» для агентных систем: она работает в связке с моделями того же семейства — Nemotron 3 Super (высокочастотное выполнение), Nemotron 3 Ultra (сложное планирование) — а также может быть совместима с облачными моделями сторонних разработчиков. Три типичных сценария применения agent:
Агент для управления компьютером (Computer Use Agent): нативное визуальное рассуждение с разрешением 1920×1080
Smart documents: рассуждение по входным данным из разных типов — графики, таблицы, скриншоты и смешанные медиа
Понимание аудио/видео: объединение речи, изображения и записей в единую цепочку вывода
Состав внедряющих: в списке — Foxconn (Hon Hai), Palantir, а также именное заявление CEO H Company
В объявлении NVIDIA четко различает «производственное внедрение» и «на стадии оценки»:
Уже внедрено в производство: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler
На стадии оценки: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr и т.д.
CEO H Company Gautier Cloix в объявлении сделал именное заявление: «To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.» Перевод: «Чтобы создавать полезные agent’ы, нельзя ждать секунды, пока модель интерпретирует экран. Опираясь на Nemotron 3 Nano Omni, наши агенты могут быстро интерпретировать записи полноэкранного HD — то, что раньше было непрактично».
Стратегия открытого кода и развертывание: веса / датасеты / методы обучения — полностью раскрыты
Во время релиза NVIDIA также опубликовала:
веса модели
обучающий датасет
технологии / методологию обучения
Конвейер развертывания охватывает три слоя:
Локальная рабочая станция: NVIDIA DGX Spark, DGX Station
NIM микросервисы: build.nvidia.com
Платформы третьих сторон: Hugging Face, OpenRouter, а также через 25+ NVIDIA Cloud Partners, провайдеров inference-платформ и облачных сервисов
Индивидуальные инструменты — с помощью NVIDIA NeMo. Семейство Nemotron 3 (Nano/Super/Ultra) за последний год на Hugging Face накопило более 50 000 000 загрузок; в этот раз Omni расширяет возможности этого семейства на многомодальность и агентную область.
Эта статья NVIDIA представила Nemotron 3 Nano Omni с открытым исходным кодом: самый ранний материал появился в Linked News ABMedia.
Связанные статьи
Virtuals Protocol запускает открытый градиентный Titan Airdrop от OpenGradient и сегодня распределяет 500 тыс. OPG
NeoSoul и AllScale объявляют о стратегическом партнёрстве по агентскому кредиту и расчётам в стейблкоинах сегодня
FIS и Anthropic разрабатывают AI-агентов для борьбы с отмыванием денег, запуская их в BMO и Amalgamated Bank во II полугодии 2026 года
Prime Intellect Lab запускает всеобщую доступность 7 мая, завершив в бета-версии 10 000+ обучающих прогонов
Cloudflare запускает агентскую доверительную систему Agent Trust Framework с Visa и Experian и ежедневно генерирует 1 миллиард HTTP-ответов 402 на Consensus 2026
Рид Хоффман: ИИ-агентам потребуются крипто-системы доверия