A NVIDIA lança Nemotron 3 Nano Omni open source multimodal

Agente de IA Notícias da indústria de IA

2026-04-28 18:15:18

De acordo com o anúncio de 28 de abril no blogue oficial da NVIDIA (autor Kari Briski), a NVIDIA lançou o Nemotron 3 Nano Omni — um modelo multimodal aberto, que integra capacidades visuais, de voz e de linguagem num único modelo, com o objectivo de fornecer aos sistemas de agentes de IA uma camada de “percepção” com menor latência e menor custo.

Especificações principais: 30B-A3B MoE, context de 256K, 9x de throughput, e 6 primeiros lugares em rankings

Arquitectura-chave:

30B-A3B mixture-of-experts híbrido (parâmetros totais 30B, activados 3B)

Integração de codificação Conv3D e EVS

Tamanho de context 256K

Entrada: texto, imagem, áudio, vídeo, documento, diagrama, ecrã GUI

Saída: texto

Sinais de desempenho: 9x de throughput em interacções equivalentes, em comparação com outros modelos omni de código aberto; 1.º lugar em 6 rankings de referência nas três grandes categorias de compreensão de documentos inteligentes, compreensão de vídeo e compreensão de áudio (o anúncio da NVIDIA não inclui pontuações específicas, orientando os leitores a consultar o blogue dos programadores para ver detalhes).

A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” em sistemas de agentes, podendo dividir tarefas com modelos da mesma família como o Nemotron 3 Super (execução de alta frequência) e o Nemotron 3 Ultra (planeamento complexo), além de poder interoperar com modelos de nuvem de terceiros. Três cenários típicos de aplicação de agentes:

Agente de utilização do computador (Computer Use Agent): raciocínio visual com resolução nativa de 1920×1080

Inteligência para documentos: inferência com entradas multimodais misturadas, incluindo mapa, tabelas, capturas de ecrã

Compreensão de áudio/vídeo: integrar fala, imagens e registos numa única cadeia de inferência

Elenco de adopção: Foxconn, Palantir entra em cena, e o CEO da H Company manifesta-se publicamente

A NVIDIA distingue claramente no anúncio entre “adopção em produção” e “em avaliação”:

Já em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler

Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.

O CEO da H Company, Gautier Cloix, manifesta-se nominalmente no anúncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Ao criar agentes úteis, não pode esperar segundos para que um modelo interprete um ecrã. Ao construir sobre o Nemotron 3 Nano Omni, os nossos agentes conseguem interpretar rapidamente gravações de ecrã em Full HD — algo que antes não era praticável.”

Estratégia e implementação de código aberto: weights / datasets / métodos de treino totalmente abertos

No momento do lançamento, a NVIDIA disponibiliza simultaneamente:

Pesos do modelo

Conjuntos de dados de treino

Técnicas/métodos de treino

O pipeline de implementação abrange três camadas:

Workstations locais: NVIDIA DGX Spark, DGX Station

Microserviços NIM: build.nvidia.com

Plataformas de terceiros: Hugging Face, OpenRouter, e fornecidos também através de mais de 25 NVIDIA Cloud Partners, plataformas de inferência e fornecedores de serviços cloud

As ferramentas personalizadas utilizam a NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou, no último ano, mais de 50 milhões de downloads no Hugging Face; desta vez, o Omni estende as capacidades dessa família para áreas multimodais e agentic.

Este artigo, publicado pela NVIDIA a apresentar o Nemotron 3 Nano Omni de código aberto multimodal, aparece pela primeira vez em 鏈新聞 ABMedia.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

04-28 16:30

A NVIDIA lança o modelo multimodal Nemotron 3 Nano Omni com uma melhoria de desempenho 9x

04-28 11:13

A Meituan Lança em Silêncio o Modelo de IA LongCat-2.0-Preview Com Triliões de Parâmetros, Sem Anúncio Oficial

04-28 10:21

Nanya vai fornecer memória LPDDR5X para a plataforma de IA Vera Rubin da Nvidia

A Intel aumentou os preços duas vezes, atrasou entregas, a MediaTek e a Supermicro aproveitaram a oportunidade e ganharam quota de mercado no setor das CPUs

ChainNewsAbmedia04-28 06:33

Microsoft e OpenAI renovam acordo: cancelam a exclusividade, removem cláusulas de AGI

ChainNewsAbmedia04-28 05:05

Guo Ming-chi: A OpenAI colabora com a MediaTek, a Qualcomm e a Luxshare Precision no desenvolvimento de telemóveis, com previsão de produção em massa em 2028

Market Whisper04-28 03:16

A Cerebras assegura um acordo de 20 mil milhões de dólares com a OpenAI, com uma valorização-alvo de 35 mil milhões para o IPO

Market Whisper04-28 02:49

Mac Studio executa testes de modelos em grande escala: M3 Ultra, soluções de cluster e expectativas para o M5 Ultra

ChainNewsAbmedia04-27 11:14

Comentar

0/400

Nenhum comentário