De acordo com o anúncio de 28 de abril no blogue oficial da NVIDIA (autor Kari Briski), a NVIDIA lançou o Nemotron 3 Nano Omni — um modelo multimodal aberto, que integra capacidades visuais, de voz e de linguagem num único modelo, com o objectivo de fornecer aos sistemas de agentes de IA uma camada de “percepção” com menor latência e menor custo.
Especificações principais: 30B-A3B MoE, context de 256K, 9x de throughput, e 6 primeiros lugares em rankings
Arquitectura-chave:
30B-A3B mixture-of-experts híbrido (parâmetros totais 30B, activados 3B)
Integração de codificação Conv3D e EVS
Tamanho de context 256K
Entrada: texto, imagem, áudio, vídeo, documento, diagrama, ecrã GUI
Saída: texto
Sinais de desempenho: 9x de throughput em interacções equivalentes, em comparação com outros modelos omni de código aberto; 1.º lugar em 6 rankings de referência nas três grandes categorias de compreensão de documentos inteligentes, compreensão de vídeo e compreensão de áudio (o anúncio da NVIDIA não inclui pontuações específicas, orientando os leitores a consultar o blogue dos programadores para ver detalhes).
A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” em sistemas de agentes, podendo dividir tarefas com modelos da mesma família como o Nemotron 3 Super (execução de alta frequência) e o Nemotron 3 Ultra (planeamento complexo), além de poder interoperar com modelos de nuvem de terceiros. Três cenários típicos de aplicação de agentes:
Agente de utilização do computador (Computer Use Agent): raciocínio visual com resolução nativa de 1920×1080
Inteligência para documentos: inferência com entradas multimodais misturadas, incluindo mapa, tabelas, capturas de ecrã
Compreensão de áudio/vídeo: integrar fala, imagens e registos numa única cadeia de inferência
Elenco de adopção: Foxconn, Palantir entra em cena, e o CEO da H Company manifesta-se publicamente
A NVIDIA distingue claramente no anúncio entre “adopção em produção” e “em avaliação”:
Já em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler
Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.
O CEO da H Company, Gautier Cloix, manifesta-se nominalmente no anúncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Ao criar agentes úteis, não pode esperar segundos para que um modelo interprete um ecrã. Ao construir sobre o Nemotron 3 Nano Omni, os nossos agentes conseguem interpretar rapidamente gravações de ecrã em Full HD — algo que antes não era praticável.”
Estratégia e implementação de código aberto: weights / datasets / métodos de treino totalmente abertos
No momento do lançamento, a NVIDIA disponibiliza simultaneamente:
Pesos do modelo
Conjuntos de dados de treino
Técnicas/métodos de treino
O pipeline de implementação abrange três camadas:
Workstations locais: NVIDIA DGX Spark, DGX Station
Microserviços NIM: build.nvidia.com
Plataformas de terceiros: Hugging Face, OpenRouter, e fornecidos também através de mais de 25 NVIDIA Cloud Partners, plataformas de inferência e fornecedores de serviços cloud
As ferramentas personalizadas utilizam a NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou, no último ano, mais de 50 milhões de downloads no Hugging Face; desta vez, o Omni estende as capacidades dessa família para áreas multimodais e agentic.
Este artigo, publicado pela NVIDIA a apresentar o Nemotron 3 Nano Omni de código aberto multimodal, aparece pela primeira vez em 鏈新聞 ABMedia.