De acordo com o anúncio de 28 de abril no blog oficial da NVIDIA (autor: Kari Briski), a NVIDIA lançou o Nemotron 3 Nano Omni — um modelo multimodal de código aberto que integra capacidades visuais, de voz e de linguagem em um único modelo, com o objetivo de oferecer aos sistemas de agentes de IA uma camada de “percepção” com menor latência e menor custo.
Principais especificações: 30B-A3B MoE, contexto de 256K, 9 vezes mais throughput, e ficou em 1º lugar em 6 rankings
Arquitetura-chave:
30B-A3B hybrid mixture-of-experts (total de parâmetros 30B, 3B ativados)
Integração de Conv3D e codificação EVS
Comprimento de contexto de 256K
Entrada: texto, imagens, áudio, vídeos, documentos, tabelas, telas de GUI
Saída: texto
Sinais de desempenho: 9 vezes mais throughput em interações de igual nível do que outros modelos omni de código aberto; ficou em 1º lugar em 6 rankings de três grandes categorias — inteligência de documentos, compreensão de vídeos e compreensão de áudio (o anúncio da NVIDIA não lista pontuações específicas, direcionando os leitores para o blog dos desenvolvedores para ver os detalhes).
A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” no ecossistema de agentes. Ele pode atuar em conjunto com modelos da mesma família como o Nemotron 3 Super (execução em alta frequência) e o Nemotron 3 Ultra (planejamento complexo), além de também poder interoperar com modelos de nuvem de terceiros. Três cenários típicos de aplicação de agentes:
Agente de uso de computador (Computer Use Agent): raciocínio visual nativo com resolução 1920×1080
Inteligência documental: inferência a partir de entradas multimodais misturadas, incluindo figuras, tabelas, capturas de tela
Compreensão de áudio/vídeo: integrar fala, imagens e gravações em uma única sequência de inferência
Time de adoção: Foxconn, Palantir entra, e CEO da H Company manifesta apoio com nome próprio
No anúncio, a NVIDIA diferencia claramente “adoção em produção” de “em avaliação”:
Já em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler
Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr etc.
O CEO da H Company, Gautier Cloix, no anúncio, manifestou-se com nome próprio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Para construir agentes úteis, você não pode esperar segundos para que um modelo interprete uma tela. Construindo sobre o Nemotron 3 Nano Omni, nossos agentes podem interpretar rapidamente gravações de tela em full HD — algo que antes não era prático.”
Estratégia de código aberto e implantação: weights / datasets / métodos de treinamento totalmente abertos
No momento do lançamento, a NVIDIA disponibilizou também:
Pesos do modelo
Conjuntos de dados de treinamento
Tecnologias/técnicas de treinamento / metodologia
O pipeline de implantação cobre três camadas:
Workstations locais: NVIDIA DGX Spark, DGX Station
Microserviços NIM: build.nvidia.com
Plataformas de terceiros: Hugging Face, OpenRouter, e — por meio de mais de 25 NVIDIA Cloud Partners, provedores de plataformas de inferência e provedores de serviços em nuvem
Ferramentas personalizadas usam NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou mais de 50 milhões de downloads no Hugging Face ao longo do último ano; desta vez, o Omni estende as capacidades dessa família para os domínios multimodais e agentic.
Este artigo em que a NVIDIA publica o Nemotron 3 Nano Omni multimodal de código aberto apareceu primeiro em 鏈新聞 ABMedia.