NVIDIA meluncurkan Nemotron 3 Nano Omni sumber terbuka multimodal

2026-04-28 18:15:18

Berdasarkan pengumuman NVIDIA di blog resmi pada 28 April (penulis Kari Briski), NVIDIA merilis Nemotron 3 Nano Omni — model multimodal open-source, yang mengintegrasikan kemampuan visual, suara, dan bahasa ke dalam satu model, dengan target menyediakan “lapisan persepsi” yang memiliki latensi lebih rendah dan biaya lebih hemat untuk sistem AI agent.

Spesifikasi inti: 30B-A3B MoE, context 256K, throughput 9 kali, menduduki puncak di 6 papan peringkat

Arsitektur kunci:

30B-A3B hybrid mixture-of-experts (total parameter 30B, aktif 3B)

Mengintegrasikan encoding Conv3D dan EVS

Panjang context 256K

Input: teks, gambar, audio, video, dokumen, bagan, layar GUI

Output: teks

Sinyal kinerja: throughput 9 kali lebih tinggi daripada model omni open-source lainnya pada interaksi setara; meraih peringkat pertama di 6 papan peringkat benchmark dalam tiga kategori utama pemahaman dokumen, pemahaman video, dan pemahaman audio (pengumuman NVIDIA tidak mencantumkan skor spesifik, mengarahkan pembaca ke blog pengembang untuk melihat detail).

NVIDIA memposisikan Nemotron 3 Nano Omni sebagai “mata dan telinga” dalam sistem agent, yang dapat bekerja sama dengan model keluarga Nemotron 3 lainnya (Nemotron 3 Super untuk eksekusi frekuensi tinggi, Nemotron 3 Ultra untuk perencanaan yang kompleks), dan juga dapat berinteroperasi dengan model cloud dari pihak ketiga. Tiga skenario aplikasi agent yang khas:

Agen penggunaan komputer (Computer Use Agent): penalaran visual pada resolusi asli 1920×1080

Kecerdasan dokumen: penalaran input lintas gambar, tabel, tangkapan layar, dan media campuran

Pemahaman audio/video: menggabungkan ucapan, adegan, rekaman menjadi satu rangkaian penalaran terpadu

Barisan adopsi: Foxconn, Palantir masuk; CEO H Company menyatakan dukungan secara resmi

Dalam pengumuman NVIDIA, secara tegas dibedakan antara “adopsi produksi” dan “sedang dievaluasi”:

Sudah mengadopsi untuk produksi: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler

Sedang dievaluasi: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, dll.

CEO H Company Gautier Cloix dalam pengumuman menyatakan dukungan secara resmi: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Terjemahan: “Untuk membangun agent yang berguna, Anda tidak bisa menunggu model menafsirkan layar selama beberapa detik. Dengan membangun di atas Nemotron 3 Nano Omni, agent kami dapat menafsirkan rekaman layar full HD dengan cepat — sesuatu yang sebelumnya tidak praktis untuk dilakukan.”

Strategi open-source dan deployment: weights / datasets / metode pelatihan semuanya terbuka

Pada saat rilis, NVIDIA juga mempublikasikan:

Bobot model

Kumpulan data pelatihan

Teknik / metodologi pelatihan

Saluran deployment mencakup tiga lapisan:

Stasiun kerja lokal: NVIDIA DGX Spark, DGX Station

Layanan mikro NIM: build.nvidia.com

Platform pihak ketiga: Hugging Face, OpenRouter, serta menyediakan melalui 25+ NVIDIA Cloud Partners, platform inferensi, dan vendor layanan cloud

Alat kustom menggunakan NVIDIA NeMo. Keluarga Nemotron 3 (Nano/Super/Ultra) dalam setahun terakhir di Hugging Face telah mengumpulkan lebih dari 50 juta unduhan; kali ini, Omni memperluas kapabilitas keluarga tersebut ke area multimodal dan agentik.

Artikel ini tentang NVIDIA yang merilis Nemotron 3 Nano Omni open-source multimodal pertama kali muncul di 鏈新聞 ABMedia.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

04-28 16:30

NVIDIA Meluncurkan Model Multimodal Nemotron 3 Nano Omni dengan Peningkatan Throughput 9x

04-28 11:13

Meituan Diam-diam Meluncurkan Model AI LongCat-2.0-Preview Dengan Triliunan Parameter, Tanpa Pengumuman Resmi

04-28 10:21

Nanya Akan Memasok Memori LPDDR5X untuk Platform AI Vera Rubin milik Nvidia