A NVIDIA lançou o Nemotron 3 Nano Omni, uma solução de multimodalidade de código aberto

De acordo com o anúncio no blogue oficial da NVIDIA de 28 de abril (autor Kari Briski), a NVIDIA apresentou o Nemotron 3 Nano Omni — um modelo multimodal open source que integra capacidades de visão, voz e linguagem num único modelo, com o objetivo de fornecer aos sistemas de AI agents uma camada de perceção com menor latência e custos mais baixos.

Especificações principais: 30B-A3B MoE, contexto 256K, 9 vezes mais throughput, 1.º lugar em 6 rankings

Arquitetura-chave:

30B-A3B hybrid mixture-of-experts (parâmetros totais 30B, ativados 3B)

Integração de Conv3D e EVS encoding

Comprimento de contexto 256K

Entrada: texto, imagens, áudio, vídeo, ficheiros, diagramas, ecrãs GUI

Saída: texto

Sinais de desempenho: 9 vezes mais throughput em interações equivalentes do que outros modelos open source omni; e 1.º lugar em 6 rankings de três categorias principais — inteligência de documentos, compreensão de vídeo e compreensão de áudio (o anúncio da NVIDIA não indica pontuações específicas, orientando os leitores para o blogue de developers para ver os detalhes).

A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” em sistemas de agent, podendo dividir funções com outros modelos da mesma família, como o Nemotron 3 Super (execução de alta frequência) e o Nemotron 3 Ultra (planeamento complexo), além de poder interoperar com modelos em nuvem de terceiros. Três cenários típicos de aplicação de agent:

Agente de utilização do computador (Computer Use Agent): raciocínio visual nativo com resolução 1920×1080

Inteligência de documentos: inferência a partir de entradas multimodais, incluindo mapas, tabelas, screenshots e media mistos

Compreensão de áudio/vídeo: integrar fala, imagens e gravações num único encadeamento de inferência

Conjunto de entidades adotantes: entra a Foxconn; Palantir também entra; o CEO da H Company faz uma declaração nominal

No anúncio da NVIDIA, é feita uma distinção clara entre “adoção em produção” e “em avaliação”:

Adoção em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler

Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, entre outras

O CEO da H Company, Gautier Cloix, faz uma declaração nominal no anúncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Para criar agents úteis, não pode esperar segundos para que o modelo interprete um ecrã. Ao construir em cima do Nemotron 3 Nano Omni, os nossos agents conseguem interpretar rapidamente gravações de ecrã em Full HD — algo que antes não era praticável.”

Estratégia open source e deployment: pesos / datasets / métodos de treino totalmente divulgados

No lançamento, a NVIDIA publica simultaneamente:

Pesos do modelo

Conjuntos de dados de treino

Técnicas/métodos de treino

O pipeline de deployment abrange três camadas:

Workstations locais: NVIDIA DGX Spark, DGX Station

NIM micro-serviços: build.nvidia.com

Plataformas de terceiros: Hugging Face, OpenRouter, e através de mais de 25 NVIDIA Cloud Partners, incluindo plataformas de inferência e fornecedores de serviços em nuvem

As ferramentas de customização utilizam a NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou mais de 50 milhões de downloads no Hugging Face ao longo do último ano; desta vez, o Omni estende as capacidades dessa família para os domínios multimodal e agentic.

Este artigo da NVIDIA sobre o open source do Nemotron 3 Nano Omni apareceu pela primeira vez em 鏈新聞 ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

O Virtuals Protocol lança o OpenGradient Titan Airdrop, distribuindo 500 mil OPG hoje

De acordo com o anúncio oficial do Virtuals Protocol, o airdrop do OpenGradient Titan Launch já está ativo a partir de 7 de maio. Os utilizadores elegíveis podem reclamar tokens OPG diretamente a partir das suas contas no Virtuals. No total, estão a ser distribuídos hoje 500 mil tokens OPG para recompensar os contribuidores do Virtuals

GateNews2h atrás

A NeoSoul e a AllScale Anunciam uma Parceria Estratégica em Crédito de Agentes e Liquidação de Stablecoins Hoje

De acordo com a ChainCatcher, o projecto NeoSoul da AI Agent Economy anunciou hoje (7 de maio) uma parceria estratégica com a AllScale para explorar mecanismos de criação de crédito e de liquidação em stablecoin para a colaboração autónoma de agentes. A parceria irá centrar-se na automatização dos fluxos de pagamento entre os agentes—tal

GateNews3h atrás

A FIS e a Anthropic desenvolvem agentes de IA para combater a lavagem de dinheiro, com implementação no BMO e no Amalgamated Bank no 2.º semestre de 2026

A FIS e a Anthropic estão a desenvolver agentes de IA concebidos para automatizar investigações de crimes financeiros, começando pelas operações de combate à lavagem de dinheiro. O Agente de IA para Crimes Financeiros irá recolher dados de sistemas bancários, avaliar transacções face a tipologias conhecidas e ajudar os investigadores na análise de al

GateNews4h atrás

A Prime Intellect Lab lança a disponibilidade geral a 7 de Maio, concluindo mais de 10.000 execuções de treino na fase beta

De acordo com a Prime Intellect, a plataforma Lab da empresa saiu da fase beta a 7 de maio de 2026, passando para disponibilidade geral como um ambiente de treino ponta a ponta para agentes de IA autoaperfeiçoados. O pipeline unificado consolida fluxos de trabalho de melhoria de modelos, permitindo aos utilizadores definir tarefas, configurar

GateNews5h atrás

A Cloudflare despoleta 1 mil milhões de respostas HTTP 402 diárias no Consensus 2026 e lança o Agent Trust Framework com a Visa e a Experian

De acordo com a Foresight News, a gestora executiva de tecnologia (CSO) da Cloudflare, Stephanie Cohen, anunciou no Consensus 2026 que a plataforma desencadeia aproximadamente mil milhões de respostas HTTP 402 por dia, reflectindo a procura dos agentes de IA por acesso pago ao conteúdo web. A empresa, juntamente com a Visa e a Experian, apresentou o Agent Trust

GateNews7h atrás

Reid Hoffman: Os agentes de IA vão precisar de sistemas de confiança em cripto

Reid Hoffman, parceiro da Greylock e cofundador do LinkedIn, afirmou que os agentes autónomos vão precisar de sistemas de confiança baseados em cripto para transaccionar através da internet aberta, sugerindo que este desenvolvimento poderá permitir um regresso dos NFTs. A declaração de Hoffman liga o surgimento de agentes autónomos ao

CryptoFrontier9h atrás
Comentar
0/400
Nenhum comentário