NVIDIA 发布 Nemotron 3 Nano Omni 开源多模态

2026-04-28 18:15:18

根據 NVIDIA 官方部落格 4 月 28 日公告（作者 Kari Briski），NVIDIA 發表 Nemotron 3 Nano Omni — 開源多模態模型，把視覺、語音與語言能力整合進單一模型，目標是為 AI agent 系統提供更低延遲、更省成本的「感知層」。

核心規格：30B-A3B MoE、256K context、9 倍吞吐量、登 6 個排行榜首位

關鍵架構：

30B-A3B hybrid mixture-of-experts（總參數 30B、活化 3B）

整合 Conv3D 與 EVS 編碼

256K context 長度

輸入：文字、影像、音訊、影片、文件、圖表、GUI 螢幕

輸出：文字

性能訊號：較其他開源 omni 模型在同等互動性下達 9 倍吞吐量；於文件智慧、影片理解、音訊理解三大類共 6 個基準排行榜取得首位（NVIDIA 公告未列出具體分數，引導讀者前往開發者部落格查看詳細資料）。

NVIDIA 把 Nemotron 3 Nano Omni 定位為 agent 系統中的「眼睛與耳朵」，可與 Nemotron 3 Super（高頻執行）、Nemotron 3 Ultra（複雜規劃）等同家族模型分工，亦可與第三方雲端模型互通。三個典型 agent 應用場景：

電腦操作代理（Computer Use Agent）：原生 1920×1080 解析度視覺推理

文件智慧：跨圖、表、截圖與混合媒體輸入推理

音訊／影片理解：把講話、畫面、紀錄整合為單一推理串

採用方陣容：鴻海、Palantir 入列、H Company CEO 具名表態

NVIDIA 公告中明確區分「生產採用」與「正在評估」：

已生產採用：Aible、Applied Scientific Intelligence（ASI）、Eka Care、鴻海（Foxconn）、H Company、Palantir、Pyler

正在評估：Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr 等

H Company 執行長 Gautier Cloix 在公告中具名表態：「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻譯：「打造實用代理時，你不能等模型秒級解讀螢幕。建立在 Nemotron 3 Nano Omni 之上，我們的代理可快速解讀完整 HD 螢幕錄影 — 這在之前並不實際可行。」

開源策略與布署：weights / datasets / 訓練方法全公開

NVIDIA 在發布同時公開：

模型權重

訓練資料集

訓練技術／方法論

布署管道涵蓋三層：

本地工作站：NVIDIA DGX Spark、DGX Station

NIM 微服務：build.nvidia.com

第三方平台：Hugging Face、OpenRouter，並透過 25 個以上 NVIDIA Cloud Partners、推理平台與雲端服務商提供

客製化工具則使用 NVIDIA NeMo。Nemotron 3 家族（Nano／Super／Ultra）過去一年在 Hugging Face 累積下載超過 5,000 萬次，本次 Omni 將該家族能力延伸至多模態與 agentic 領域。

這篇文章 NVIDIA 發表 Nemotron 3 Nano Omni 開源多模態最早出現於鏈新聞 ABMedia。

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。