Berdasarkan pengumuman NVIDIA di blog resmi pada 28 April (penulis Kari Briski), NVIDIA merilis Nemotron 3 Nano Omni — model multimodal open-source, yang mengintegrasikan kemampuan visual, suara, dan bahasa ke dalam satu model, dengan target menyediakan “lapisan persepsi” yang memiliki latensi lebih rendah dan biaya lebih hemat untuk sistem AI agent.
Spesifikasi inti: 30B-A3B MoE, context 256K, throughput 9 kali, menduduki puncak di 6 papan peringkat
Arsitektur kunci:
30B-A3B hybrid mixture-of-experts (total parameter 30B, aktif 3B)
Mengintegrasikan encoding Conv3D dan EVS
Panjang context 256K
Input: teks, gambar, audio, video, dokumen, bagan, layar GUI
Output: teks
Sinyal kinerja: throughput 9 kali lebih tinggi daripada model omni open-source lainnya pada interaksi setara; meraih peringkat pertama di 6 papan peringkat benchmark dalam tiga kategori utama pemahaman dokumen, pemahaman video, dan pemahaman audio (pengumuman NVIDIA tidak mencantumkan skor spesifik, mengarahkan pembaca ke blog pengembang untuk melihat detail).
NVIDIA memposisikan Nemotron 3 Nano Omni sebagai “mata dan telinga” dalam sistem agent, yang dapat bekerja sama dengan model keluarga Nemotron 3 lainnya (Nemotron 3 Super untuk eksekusi frekuensi tinggi, Nemotron 3 Ultra untuk perencanaan yang kompleks), dan juga dapat berinteroperasi dengan model cloud dari pihak ketiga. Tiga skenario aplikasi agent yang khas:
Agen penggunaan komputer (Computer Use Agent): penalaran visual pada resolusi asli 1920×1080
Kecerdasan dokumen: penalaran input lintas gambar, tabel, tangkapan layar, dan media campuran
Pemahaman audio/video: menggabungkan ucapan, adegan, rekaman menjadi satu rangkaian penalaran terpadu
Barisan adopsi: Foxconn, Palantir masuk; CEO H Company menyatakan dukungan secara resmi
Dalam pengumuman NVIDIA, secara tegas dibedakan antara “adopsi produksi” dan “sedang dievaluasi”:
Sudah mengadopsi untuk produksi: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler
Sedang dievaluasi: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, dll.
CEO H Company Gautier Cloix dalam pengumuman menyatakan dukungan secara resmi: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Terjemahan: “Untuk membangun agent yang berguna, Anda tidak bisa menunggu model menafsirkan layar selama beberapa detik. Dengan membangun di atas Nemotron 3 Nano Omni, agent kami dapat menafsirkan rekaman layar full HD dengan cepat — sesuatu yang sebelumnya tidak praktis untuk dilakukan.”
Strategi open-source dan deployment: weights / datasets / metode pelatihan semuanya terbuka
Pada saat rilis, NVIDIA juga mempublikasikan:
Bobot model
Kumpulan data pelatihan
Teknik / metodologi pelatihan
Saluran deployment mencakup tiga lapisan:
Stasiun kerja lokal: NVIDIA DGX Spark, DGX Station
Layanan mikro NIM: build.nvidia.com
Platform pihak ketiga: Hugging Face, OpenRouter, serta menyediakan melalui 25+ NVIDIA Cloud Partners, platform inferensi, dan vendor layanan cloud
Alat kustom menggunakan NVIDIA NeMo. Keluarga Nemotron 3 (Nano/Super/Ultra) dalam setahun terakhir di Hugging Face telah mengumpulkan lebih dari 50 juta unduhan; kali ini, Omni memperluas kapabilitas keluarga tersebut ke area multimodal dan agentik.
Artikel ini tentang NVIDIA yang merilis Nemotron 3 Nano Omni open-source multimodal pertama kali muncul di 鏈新聞 ABMedia.
Related News
Intel dua kali menaikkan harga, menunda pengiriman, MediaTek dan Supermicro memanfaatkan momen ini untuk merebut pangsa pasar CPU
Microsoft dan OpenAI memperbarui kontrak: menghapus klausul eksklusivitas, menghapus klausul AGI
Guo Ming-chi: OpenAI bekerja sama dengan MediaTek, Qualcomm, dan Luxshare Precision untuk mengembangkan ponsel, diperkirakan akan diproduksi massal pada 2028
Cerebras mendapatkan kesepakatan senilai $20 miliar dengan OpenAI, target valuasi IPO sebesar $35 miliar
Mac Studio menjalankan pengujian model besar: perkiraan M3 Ultra, solusi klaster, dan M5 Ultra