Meta AI merilis model dunia prediksi embedding gabungan untuk perencanaan fisik JEPA-WMs

Berita ME, pada 3 April (UTC+8), tim Meta AI Research merilis model dunia JEPA-WMs dan prediksi embedding gabungan yang digunakan untuk perencanaan fisik, serta penelitian terkait. Penelitian ini membahas faktor-faktor kunci yang menentukan keberhasilan model, dan menyediakan implementasi PyTorch lengkap, kumpulan data, serta model pra-latihan. Model yang dirilis mencakup JEPA-WM inti, serta model DINO-WM dan V-JEPA-2-AC(fixed) sebagai baseline, mencakup berbagai lingkungan operasi robot dan navigasi seperti DROID & RoboCasa, Metaworld, Push-T, PointMaze, dan Wall. Model menggunakan encoder visual seperti DINOv3 ViT-L/16, DINOv2 ViT-S/14, dan V-JEPA-2 ViT-G/16, dengan resolusi gambar input terutama 224×224 atau 256×256. Proyek ini juga menyediakan kepala decoder opsional VM2M untuk visualisasi dan dekode lintasan, tetapi menekankan bahwa decoder tersebut tidak diperlukan untuk melatih world model atau melakukan evaluasi perencanaan. Semua sumber daya telah dipublikasikan di GitHub, Hugging Face, dan arXiv. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan