A NVIDIA lança Nemotron 3 Nano Omni open source multimodal

De acordo com o anúncio de 28 de abril no blogue oficial da NVIDIA (autor Kari Briski), a NVIDIA lançou o Nemotron 3 Nano Omni — um modelo multimodal aberto, que integra capacidades visuais, de voz e de linguagem num único modelo, com o objectivo de fornecer aos sistemas de agentes de IA uma camada de “percepção” com menor latência e menor custo.

Especificações principais: 30B-A3B MoE, context de 256K, 9x de throughput, e 6 primeiros lugares em rankings

Arquitectura-chave:

30B-A3B mixture-of-experts híbrido (parâmetros totais 30B, activados 3B)

Integração de codificação Conv3D e EVS

Tamanho de context 256K

Entrada: texto, imagem, áudio, vídeo, documento, diagrama, ecrã GUI

Saída: texto

Sinais de desempenho: 9x de throughput em interacções equivalentes, em comparação com outros modelos omni de código aberto; 1.º lugar em 6 rankings de referência nas três grandes categorias de compreensão de documentos inteligentes, compreensão de vídeo e compreensão de áudio (o anúncio da NVIDIA não inclui pontuações específicas, orientando os leitores a consultar o blogue dos programadores para ver detalhes).

A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” em sistemas de agentes, podendo dividir tarefas com modelos da mesma família como o Nemotron 3 Super (execução de alta frequência) e o Nemotron 3 Ultra (planeamento complexo), além de poder interoperar com modelos de nuvem de terceiros. Três cenários típicos de aplicação de agentes:

Agente de utilização do computador (Computer Use Agent): raciocínio visual com resolução nativa de 1920×1080

Inteligência para documentos: inferência com entradas multimodais misturadas, incluindo mapa, tabelas, capturas de ecrã

Compreensão de áudio/vídeo: integrar fala, imagens e registos numa única cadeia de inferência

Elenco de adopção: Foxconn, Palantir entra em cena, e o CEO da H Company manifesta-se publicamente

A NVIDIA distingue claramente no anúncio entre “adopção em produção” e “em avaliação”:

Já em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler

Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.

O CEO da H Company, Gautier Cloix, manifesta-se nominalmente no anúncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Ao criar agentes úteis, não pode esperar segundos para que um modelo interprete um ecrã. Ao construir sobre o Nemotron 3 Nano Omni, os nossos agentes conseguem interpretar rapidamente gravações de ecrã em Full HD — algo que antes não era praticável.”

Estratégia e implementação de código aberto: weights / datasets / métodos de treino totalmente abertos

No momento do lançamento, a NVIDIA disponibiliza simultaneamente:

Pesos do modelo

Conjuntos de dados de treino

Técnicas/métodos de treino

O pipeline de implementação abrange três camadas:

Workstations locais: NVIDIA DGX Spark, DGX Station

Microserviços NIM: build.nvidia.com

Plataformas de terceiros: Hugging Face, OpenRouter, e fornecidos também através de mais de 25 NVIDIA Cloud Partners, plataformas de inferência e fornecedores de serviços cloud

As ferramentas personalizadas utilizam a NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou, no último ano, mais de 50 milhões de downloads no Hugging Face; desta vez, o Omni estende as capacidades dessa família para áreas multimodais e agentic.

Este artigo, publicado pela NVIDIA a apresentar o Nemotron 3 Nano Omni de código aberto multimodal, aparece pela primeira vez em 鏈新聞 ABMedia.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário