NVIDIA lance Nemotron 3 Nano Omni open source, un modèle multimodal

Selon l’annonce du blog officiel de NVIDIA du 28 avril (auteur Kari Briski), NVIDIA a dévoilé Nemotron 3 Nano Omni — un modèle multimodal open source qui intègre des capacités de vision, de voix et de langage dans un seul modèle, avec pour objectif de fournir aux systèmes d’AI agent une « couche de perception » à plus faible latence et moins coûteuse.

Spécifications clés : 30B-A3B MoE, contexte 256K, débit 9 fois plus élevé, tête de 6 classements

Architecture clé :

30B-A3B hybrid mixture-of-experts (30B de paramètres au total, 3B activés)

Intègre le codage Conv3D et EVS

Longueur de contexte 256K

Entrées : texte, images, audio, vidéos, documents, tableaux, captures d’écran GUI

Sorties : texte

Signaux de performance : 9 fois plus de débit que les autres modèles open source omni à interaction équivalente ; en tête des 6 classements de référence dans trois catégories : intelligence documentaire, compréhension vidéo, compréhension audio (l’annonce NVIDIA ne donne pas les scores précis, invitant les lecteurs à se rendre sur le blog développeur pour les détails).

NVIDIA positionne Nemotron 3 Nano Omni comme « les yeux et les oreilles » au sein des systèmes d’agent, avec une répartition du travail possible au sein de la même famille de modèles : Nemotron 3 Super (exécution à haute fréquence), Nemotron 3 Ultra (planification complexe), etc., et une interopérabilité aussi avec des modèles cloud de tiers. Trois scénarios d’usage typiques d’agent :

Agent d’utilisation informatique (Computer Use Agent) : raisonnement visuel en résolution native 1920×1080

Intelligence documentaire : inférence via des entrées multimédias mixtes, à travers figures, tableaux et captures

Compréhension audio/vidéo : fusion de la parole, des images et des enregistrements en une seule chaîne d’inférence

Adoption : Foxconn, Palantir rejoint, et prise de position nominative du PDG de H Company

Dans l’annonce, NVIDIA distingue clairement « adoption en production » et « évaluation en cours » :

Déjà en production : Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鸿海), H Company, Palantir, Pyler

En cours d’évaluation : Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.

Le PDG de H Company, Gautier Cloix, a pris position nominativement dans l’annonce : « To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before. » Traduction : « Pour construire des agents utiles, vous ne pouvez pas attendre des secondes pour que le modèle interprète un écran. En nous appuyant sur Nemotron 3 Nano Omni, nos agents peuvent interpréter rapidement des enregistrements d’écran en Full HD — une chose qui n’était pas praticable auparavant. »

Stratégie open source et déploiement : weights / datasets / méthodes d’entraînement entièrement publiés

Au moment du lancement, NVIDIA publie simultanément :

Les poids du modèle

Les ensembles de données d’entraînement

Les techniques/méthodologies d’entraînement

Le pipeline de déploiement couvre trois niveaux :

Poste de travail local : NVIDIA DGX Spark, DGX Station

Microservices NIM : build.nvidia.com

Plateformes tierces : Hugging Face, OpenRouter, et fourniture via plus de 25 partenaires cloud NVIDIA, des plateformes d’inférence et des fournisseurs de services cloud

Les outils sur mesure utilisent NVIDIA NeMo. La famille Nemotron 3 (Nano/Super/Ultra) a accumulé, au cours de la dernière année, plus de 50 000 000 de téléchargements sur Hugging Face ; cette fois, Omni étend les capacités de cette famille aux domaines multimodaux et agentic.

Cet article annonçant l’ouverture du code de Nemotron 3 Nano Omni de NVIDIA : « open source multimodal » apparaît pour la première fois sur 鏈新聞 ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Virtuals Protocol lance l’airdrop OpenGradient Titan, distribue 500 000 OPG aujourd’hui

D’après l’annonce officielle de Virtuals Protocol, l’airdrop OpenGradient Titan Launch est désormais en ligne depuis le 7 mai. Les utilisateurs éligibles peuvent réclamer des jetons OPG directement depuis leurs comptes Virtuals. Au total, 500 000 jetons OPG sont distribués aujourd’hui pour récompenser les contributeurs à Virtuals

GateNewsIl y a 2h

NeoSoul et AllScale annoncent un partenariat stratégique sur le crédit d’agents et le règlement en stablecoins aujourd’hui

D'après ChainCatcher, le projet NeoSoul de l’AI Agent Economy a annoncé aujourd’hui (7 mai) un partenariat stratégique avec AllScale afin d’explorer la formation de crédit et les mécanismes de règlement en stablecoins pour la collaboration autonome entre agents. Le partenariat portera sur l’automatisation des flux de paiement entre les agents—tel

GateNewsIl y a 3h

FIS et Anthropic développent des agents d’IA pour lutter contre le blanchiment d’argent, avec un déploiement prévu pour BMO et Amalgamated Bank au second semestre 2026

FIS et Anthropic développent des agents d’IA conçus pour automatiser les enquêtes sur la criminalité financière, en commençant par les opérations de lutte contre le blanchiment d’argent. L’agent d’IA pour les crimes financiers extraira des données des systèmes bancaires, évaluera les transactions par rapport à des typologies connues et aidera les enquêteurs à examiner al

GateNewsIl y a 4h

Prime Intellect Lab lance la disponibilité générale le 7 mai et termine plus de 10 000 sessions d’entraînement en version bêta

Selon Prime Intellect, la plateforme Lab de l’entreprise est sortie de la version bêta le 7 mai 2026, passant à la disponibilité générale en tant qu’environnement de formation de bout en bout pour des agents d’IA capables de s’améliorer. Le pipeline unifié consolide les flux de travail d’amélioration des modèles, permettant aux utilisateurs de définir des tâches, de configurer

GateNewsIl y a 5h

Cloudflare déclenche 1 milliard de réponses HTTP 402 par jour à Consensus 2026, et lance le cadre de confiance des agents avec Visa et Experian

Selon Foresight News, la directrice de la technologie chez Cloudflare, Stephanie Cohen, a annoncé lors de Consensus 2026 que la plateforme déclenche environ 1 milliard de réponses HTTP 402 par jour, reflétant la demande des agents IA pour un accès payant au contenu web. La société, aux côtés de Visa et d’Experian, a dévoilé la technologie Agent Trust

GateNewsIl y a 7h

Reid Hoffman : les agents d’IA auront besoin de systèmes de confiance crypto

Reid Hoffman, associé chez Greylock et cofondateur de LinkedIn, a déclaré que les agents autonomes auront besoin de systèmes de confiance basés sur la crypto pour effectuer des transactions à travers le réseau ouvert, suggérant que ce développement pourrait permettre un retour en force des NFT. La déclaration de Hoffman relie l’émergence des agents autonomes à la

CryptoFrontierIl y a 9h
Commentaire
0/400
Aucun commentaire