NVIDIA meluncurkan Nemotron 3 Nano Omni, multimodal sumber terbuka

Berdasarkan pengumuman 28 April dari blog resmi NVIDIA (penulis Kari Briski), NVIDIA meluncurkan Nemotron 3 Nano Omni — model multimodal open-source yang mengintegrasikan kemampuan visual, suara, dan bahasa ke dalam satu model, dengan target menyediakan “lapisan persepsi” bagi sistem AI agent yang lebih rendah latensi dan lebih hemat biaya.

Spesifikasi utama: 30B-A3B MoE, konteks 256K, throughput 9 kali lipat, meraih puncak di 6 papan peringkat

Arsitektur kunci:

30B-A3B hybrid mixture-of-experts (total parameter 30B, aktivasi 3B)

Mengintegrasikan Conv3D dan EVS encoding

Panjang konteks 256K

Input: teks, gambar, audio, video, dokumen, bagan, layar GUI

Output: teks

Sinyal performa: throughput 9 kali lipat dibanding model omni open-source lain pada interaktivitas setara; meraih peringkat pertama di 6 benchmark papan peringkat dalam tiga kategori besar: dokumen cerdas, pemahaman video, pemahaman audio (pengumuman NVIDIA tidak mencantumkan skor spesifik, mengarahkan pembaca ke blog pengembang untuk detail).

NVIDIA memposisikan Nemotron 3 Nano Omni sebagai “mata dan telinga” dalam sistem agent, dapat dibagi tugas dengan model keluarga Nemotron 3 Super (eksekusi frekuensi tinggi), Nemotron 3 Ultra (perencanaan kompleks), serta bisa berinteroperasi dengan model cloud dari pihak ketiga. Tiga skenario aplikasi agent yang umum:

Computer Use Agent: penalaran visual resolusi asli 1920×1080

Dokumen cerdas: penalaran dengan input lintas gambar, tabel, tangkapan layar, dan media campuran

Pemahaman audio/video: menggabungkan pembicaraan, gambar, dan rekaman menjadi satu rangkaian penalaran

Komposisi yang mengadopsi: Foxconn masuk, Palantir masuk, CEO H Company menandatangani pernyataan dukungan

Dalam pengumuman NVIDIA secara jelas membedakan “adopsi produksi” dan “sedang dievaluasi”:

Sudah produksi: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler

Sedang evaluasi: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, dll.

CEO H Company Gautier Cloix dalam pengumuman tersebut menyatakan dukungan secara bernama: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Terjemahan: “Untuk membangun agent yang bermanfaat, Anda tidak bisa menunggu detik bagi model untuk menginterpretasikan layar. Dengan membangun di atas Nemotron 3 Nano Omni, agent kami dapat dengan cepat menginterpretasikan rekaman layar full HD — sesuatu yang sebelumnya tidak praktis untuk dilakukan.”

Strategi open-source dan penerapan: weights / datasets / metode pelatihan semuanya dipublikasikan

Saat rilis, NVIDIA juga mempublikasikan:

Bobot model

Kumpulan data pelatihan

Teknik/ metodologi pelatihan

Pipeline penerapan mencakup tiga lapisan:

Workstation lokal: NVIDIA DGX Spark, DGX Station

NIM microservices: build.nvidia.com

Platform pihak ketiga: Hugging Face, OpenRouter, serta melalui 25+ NVIDIA Cloud Partners, platform inferensi, dan penyedia layanan cloud

Tool kustom menggunakan NVIDIA NeMo. Keluarga Nemotron 3 (Nano/Super/Ultra) selama setahun terakhir di Hugging Face telah mengumpulkan lebih dari 50 juta unduhan, dan kali ini Omni memperluas kemampuan keluarga tersebut ke bidang multimodal dan agentic.

Artikel ini tentang NVIDIA yang merilis Nemotron 3 Nano Omni sebagai open-source multimodal pertama kali muncul di 鏈新聞 ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Virtuals Protocol Meluncurkan OpenGradient Titan Airdrop, Membagikan 500 ribu OPG Hari Ini

Menurut pengumuman resmi Virtuals Protocol, airdrop OpenGradient Titan Launch kini sudah live per 7 Mei. Pengguna yang memenuhi syarat dapat mengklaim token OPG langsung dari akun Virtuals mereka. Sebanyak 500.000 token OPG didistribusikan hari ini untuk memberi penghargaan kepada para kontributor Virtuals

GateNews2jam yang lalu

NeoSoul dan AllScale Mengumumkan Kemitraan Strategis untuk Kredit Agen dan Penyelesaian Stablecoin Hari Ini

Menurut ChainCatcher, proyek AI Agent Economy NeoSoul mengumumkan kemitraan strategis dengan AllScale hari ini (7 Mei) untuk mengeksplorasi pembentukan kredit dan mekanisme penyelesaian stablecoin bagi kolaborasi otonom antar Agen. Kemitraan ini akan berfokus pada otomatisasi alur pembayaran antar Agen—seperti

GateNews3jam yang lalu

FIS dan Anthropic Mengembangkan Agen AI untuk Anti Pencucian Uang, Akan Diluncurkan ke BMO dan Amalgamated Bank pada H2 2026

FIS dan Anthropic sedang mengembangkan agen AI yang dirancang untuk mengotomatisasi investigasi kejahatan finansial, dimulai dari operasi anti pencucian uang. Agen Financial Crimes AI akan mengambil data dari sistem perbankan, mengevaluasi transaksi terhadap tipologi yang sudah dikenal, dan membantu penyelidik dalam meninjau al

GateNews4jam yang lalu

Prime Intellect Lab Meluncurkan General Availability pada 7 Mei, Menyelesaikan 10.000+ Sesi Pelatihan di Beta

Menurut Prime Intellect, platform Lab perusahaan keluar dari versi beta pada 7 Mei 2026, beralih ke ketersediaan umum sebagai lingkungan pelatihan end-to-end untuk agen AI yang dapat meningkatkan diri. Pipeline terpadu mengonsolidasikan alur kerja peningkatan model, memungkinkan pengguna untuk mendefinisikan tugas, mengonfigurasi

GateNews5jam yang lalu

Cloudflare Memicu 1 Miliar Respons HTTP 402 Harian pada Consensus 2026, Meluncurkan Kerangka Kepercayaan Agen dengan Visa dan Experian

Menurut Foresight News, Chief Strategy Officer (CSO) Cloudflare Stephanie Cohen mengumumkan pada Consensus 2026 bahwa platform tersebut memicu sekitar 1 miliar respons HTTP 402 setiap hari, yang mencerminkan permintaan agen AI akan akses berbayar ke konten web. Perusahaan tersebut, bersama Visa dan Experian, meluncurkan Agent Trust

GateNews7jam yang lalu

Reid Hoffman: Agen AI Akan Membutuhkan Sistem Kepercayaan Kripto

Reid Hoffman, partner di Greylock dan salah satu pendiri LinkedIn, menyatakan bahwa agen otonom akan membutuhkan sistem kepercayaan berbasis kripto untuk melakukan transaksi lintas internet terbuka, sehingga perkembangan ini berpotensi membuka jalan bagi kebangkitan kembali NFT. Pernyataan Hoffman menghubungkan kemunculan agen otonom dengan

CryptoFrontier9jam yang lalu
Komentar
0/400
Tidak ada komentar