A NVIDIA lança o Nemotron 3 Nano Omni aberto e multimodal

De acordo com o anúncio de 28 de abril no blog oficial da NVIDIA (autor: Kari Briski), a NVIDIA lançou o Nemotron 3 Nano Omni — um modelo multimodal de código aberto que integra capacidades visuais, de voz e de linguagem em um único modelo, com o objetivo de oferecer aos sistemas de agentes de IA uma camada de “percepção” com menor latência e menor custo.

Principais especificações: 30B-A3B MoE, contexto de 256K, 9 vezes mais throughput, e ficou em 1º lugar em 6 rankings

Arquitetura-chave:

30B-A3B hybrid mixture-of-experts (total de parâmetros 30B, 3B ativados)

Integração de Conv3D e codificação EVS

Comprimento de contexto de 256K

Entrada: texto, imagens, áudio, vídeos, documentos, tabelas, telas de GUI

Saída: texto

Sinais de desempenho: 9 vezes mais throughput em interações de igual nível do que outros modelos omni de código aberto; ficou em 1º lugar em 6 rankings de três grandes categorias — inteligência de documentos, compreensão de vídeos e compreensão de áudio (o anúncio da NVIDIA não lista pontuações específicas, direcionando os leitores para o blog dos desenvolvedores para ver os detalhes).

A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” no ecossistema de agentes. Ele pode atuar em conjunto com modelos da mesma família como o Nemotron 3 Super (execução em alta frequência) e o Nemotron 3 Ultra (planejamento complexo), além de também poder interoperar com modelos de nuvem de terceiros. Três cenários típicos de aplicação de agentes:

Agente de uso de computador (Computer Use Agent): raciocínio visual nativo com resolução 1920×1080

Inteligência documental: inferência a partir de entradas multimodais misturadas, incluindo figuras, tabelas, capturas de tela

Compreensão de áudio/vídeo: integrar fala, imagens e gravações em uma única sequência de inferência

Time de adoção: Foxconn, Palantir entra, e CEO da H Company manifesta apoio com nome próprio

No anúncio, a NVIDIA diferencia claramente “adoção em produção” de “em avaliação”:

Já em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler

Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr etc.

O CEO da H Company, Gautier Cloix, no anúncio, manifestou-se com nome próprio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Para construir agentes úteis, você não pode esperar segundos para que um modelo interprete uma tela. Construindo sobre o Nemotron 3 Nano Omni, nossos agentes podem interpretar rapidamente gravações de tela em full HD — algo que antes não era prático.”

Estratégia de código aberto e implantação: weights / datasets / métodos de treinamento totalmente abertos

No momento do lançamento, a NVIDIA disponibilizou também:

Pesos do modelo

Conjuntos de dados de treinamento

Tecnologias/técnicas de treinamento / metodologia

O pipeline de implantação cobre três camadas:

Workstations locais: NVIDIA DGX Spark, DGX Station

Microserviços NIM: build.nvidia.com

Plataformas de terceiros: Hugging Face, OpenRouter, e — por meio de mais de 25 NVIDIA Cloud Partners, provedores de plataformas de inferência e provedores de serviços em nuvem

Ferramentas personalizadas usam NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou mais de 50 milhões de downloads no Hugging Face ao longo do último ano; desta vez, o Omni estende as capacidades dessa família para os domínios multimodais e agentic.

Este artigo em que a NVIDIA publica o Nemotron 3 Nano Omni multimodal de código aberto apareceu primeiro em 鏈新聞 ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários