Vision Banana milik Google: Model Visi Terpadu Mengungguli Model yang Spesifik Tugas dalam Segmentasi dan Geometri 3D

Pesan Berita Gate, 23 April — Peneliti Google, termasuk He Kaiming dan Xie Saining, menerbitkan sebuah makalah yang memperkenalkan Vision Banana, model pemahaman visi serbaguna yang dibuat melalui fine-tuning instruksi ringan dari model pembuatan gambar Nano Banana Pro (Gemini 3 Pro Image) milik perusahaan. Inovasi utamanya menyatukan output dari semua tugas visi sebagai gambar RGB, sehingga memungkinkan segmentasi, estimasi kedalaman, dan prediksi normal permukaan melalui pembuatan gambar tanpa arsitektur atau fungsi rugi yang spesifik tugas.

Dalam semantic segmentation, Vision Banana mengungguli model khusus SAM 3 sebesar 4,7 poin persentase pada Cityscapes; dalam referring expression segmentation, ia melampaui SAM 3 Agent. Namun, ia tertinggal di belakang SAM 3 untuk instance segmentation. Untuk tugas 3D, estimasi kedalaman metrik mencapai akurasi rata-rata 0,929 di empat kumpulan data standar, melampaui Depth Anything V3 sebesar 0,918, dengan hanya data sintetis tanpa informasi kedalaman nyata atau parameter kamera saat inferensi. Estimasi normal permukaan mencapai hasil state-of-the-art pada tiga benchmark indoor.

Fine-tuning melibatkan data tugas visi yang minimal dicampurkan ke pelatihan pembuatan gambar asli, sambil mempertahankan kemampuan generasi model—kinerjanya menyamai Nano Banana Pro yang asli dalam uji kualitas generasi. Makalah tersebut mengusulkan bahwa pretraining pembuatan gambar dalam visi sejajar dengan pretraining pembuatan teks dalam bahasa: model mempelajari representasi internal yang dibutuhkan untuk pemahaman gambar selama proses generasi, sementara fine-tuning instruksi hanya melepaskan kemampuan ini.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Mantan Eksekutif Qualcomm Alex Katouzian Bergabung dengan Intel sebagai EVP Client Computing dan Physical AI pada 4 Mei

Intel mengumumkan pada 4 Mei bahwa Alex Katouzian, eksekutif senior dari Qualcomm, telah bergabung dengan perusahaan sebagai executive vice president dan general manager dari Client Computing and Physical AI Group, melapor langsung kepada CEO Chen Lixu. Katouzian menghabiskan 25 tahun di Qualcomm, paling baru menjabat sebagai e

GateNews10menit yang lalu

Media K Wave yang Terdaftar di Nasdaq Membatalkan Cadangan Bitcoin, Mengalihkan $485M ke AI

K Wave Media yang terdaftar di Nasdaq telah membatalkan rencana perbendaharaan bitcoin-nya dan mengalihkan $485 juta untuk investasi kecerdasan buatan, kurang dari setahun setelah menggalang $500 juta untuk bitcoin awalnya

GateNews13menit yang lalu

Nova Intelligence Menyelesaikan Putaran Seri A senilai 31,5 juta dolar yang dipimpin Chemistry pada 5 Mei

Menurut Fortune, platform AI agent Nova Intelligence menyelesaikan putaran pendanaan Seri A senilai 31,5 juta dolar AS pada 5 Mei, dipimpin oleh Chemistry. Accel, Conviction, dan SAP.io juga ikut berpartisipasi dalam putaran tersebut. Platform Nova menganalisis, memodernisasi, dan menghasilkan kode khusus untuk penggajian, rantai pasok, dan

GateNews28menit yang lalu

Cipher Digital Mengamankan Fasilitas Kredit $200M untuk Memperluas Pusat Data AI dan HPC

Menurut Globenewswire, Cipher Digital, penambang bitcoin yang tercatat di Nasdaq, mengamankan fasilitas kredit bergulir senilai 200 juta dolar AS dari institusi keuangan global untuk meningkatkan likuiditas dan mempercepat ekspansi platform pusat data AI dan komputasi berkinerja tinggi (HPC). Perusahaan melaporkan Q1

GateNews1jam yang lalu

Quantum Leap Menyelesaikan IPO $200M , Berupaya Meraih Akuisisi Blockchain dan AI

Menurut Businesswire, pada 5 Mei, perusahaan special purpose acquisition Quantum Leap menyelesaikan penawaran umum perdana (initial public offering) senilai 200 juta dolar AS dan mulai diperdagangkan di Bursa Efek New York di bawah simbol ticker QLEPU. Perusahaan berencana menggunakan dana hasil penawaran untuk mengejar akuisisi dan transaksi merger i

GateNews1jam yang lalu

Google, Microsoft, dan xAI Sepakat Memberi Akses Pemerintah AS ke Model AI Sebelum Dirilis ke Publik

Menurut pernyataan dari Departemen Perdagangan AS pada Selasa, Google milik Alphabet, Microsoft, dan xAI telah setuju untuk mengizinkan akses awal pemerintah ke model AI mereka untuk tinjauan sebelum rilis dan penilaian keselamatan. Pusat Standar dan Inovasi AI dari Departemen Perdagangan akan melakukan

GateNews1jam yang lalu
Komentar
0/400
Tidak ada komentar