Tim Qwen Alibaba mengungkap Qwen-Robot Suite pada Selasa, sebuah rangkaian tiga model fondasi yang dirancang untuk menggerakkan navigasi robot, manipulasi, dan simulasi dunia berbasis fisika melalui satu tumpukan perangkat lunak terpadu. Perusahaan mengumumkan paket tersebut melalui Twitter pada 16 Juni 2026, memposisikan teknologi itu sebagai apa yang mereka sebut “full stack untuk embodied intelligence”. Alibaba mengembangkan model untuk menjawab tantangan inti dalam robotika: sementara agen AI saat ini bergantung pada large language model untuk pengambilan keputusan, robot fisik membutuhkan sistem AI generatif yang mampu menangani failure mode berbasis fisika, bukan penalaran berbasis prompt. Rilis ini mewakili strategi integrasi vertikal Alibaba yang mencakup chip, infrastruktur cloud, model AI, dan aplikasi, dengan robotika sebagai ekspresi paling “fisik” dari pengembangan embodied AI di China.
Qwen-Robot Suite terdiri dari tiga model fondasi, masing-masing menangani aspek berbeda dari kecerdasan robot. Qwen-RobotNav menangani tugas mobilitas dan navigasi. Qwen-RobotManip menangani manipulasi dan interaksi fisik dengan objek. Qwen-RobotWorld mensimulasikan fisika yang memungkinkan navigasi dan manipulasi. Menurut Alibaba, setiap model beroperasi secara independen sambil membentuk tumpukan perangkat lunak yang kohesif saat digabungkan. Perusahaan menggambarkan arsitekturnya sebagai lapisan sistem operasi untuk robotika, bukan perangkat keras.
Qwen-RobotNav menyatukan lima tugas navigasi dalam satu model: instruction following, point-goal navigation, object search, target tracking, dan autonomous driving. Model ini menyediakan antarmuka parametrik dengan budget token yang dapat dikonfigurasi, temporal decay, dan bobot per-kamera yang bisa diubah ulang oleh planner selama operasi. Alibaba melatih model dengan 15,6 juta sampel dengan randomisasi di semua parameter.
Qwen-RobotManip mengatasi tantangan representasi aksi yang tidak kompatibel di berbagai platform robot. Lengan Franka beroperasi melalui sudut sendi, sementara robot ALOHA merepresentasikan aksi melalui posisi dan orientasi gripper. Robot humanoid menggunakan koordinat seluruh tubuh. Alibaba mensintesis sekitar 38.100 jam data pelatihan dari kumpulan data robot sumber terbuka dan video manusia untuk menjembatani ruang aksi yang tidak kompatibel tersebut.
Qwen-RobotWorld berfungsi sebagai model dunia video yang dikondisikan bahasa, menganggap bahasa alami sebagai antarmuka aksi universal. Model memproses perintah seperti “Pick up the red cup and pour water on the flower” di berbagai tipe robot, termasuk grippers, kendaraan otonom, dan agen navigasi bergerak. Kumpulan Embodied World Knowledge mencakup 8,6 juta pasangan video-teks yang totalnya 200 juta frame, mencakup skenario manipulasi, autonomous driving, indoor navigation, dan human-to-robot transfer.
Qwen-RobotNav meraih tingkat keberhasilan 76,5% pada VLN-CE RxR, sebuah benchmark untuk vision-and-language navigation di lingkungan dunia nyata. Model ini juga mencapai performa tracking 90% pada EVT-Bench, yang menguji kemampuan agen untuk konsisten mengikuti target yang bergerak.
Qwen-RobotManip menempati peringkat pertama di RoboChallenge Table30-v1, mengungguli pendekatan sebelumnya sebesar 20%. Performa model berasal dari pendekatan alignment-first untuk cross-embodiment training.
Qwen-RobotWorld menempati peringkat pertama di EWMBench dan DreamGen Bench, dua benchmark yang menilai apakah world model memprediksi dan menghasilkan lingkungan fisik yang realistis. Model ini mengalahkan semua model open-source di WorldModelBench dan PBench. Alibaba melaporkan bahwa model tersebut mendapat skor sempurna pada uji kepatuhan fisika yang mencakup hukum Newton, konservasi massa, dinamika fluida, dan gravitasi.
Alibaba melatih Qwen-RobotNav pada 15,6 juta sampel dengan randomisasi di parameter navigasi. Perusahaan tidak mengungkap kumpulan data sumber spesifik untuk pelatihan navigasi.
Untuk Qwen-RobotManip, Alibaba mensintesis sekitar 38.100 jam data pelatihan dari kumpulan data robot sumber terbuka dan video manusia. Perusahaan menyatakan bahwa mereka tidak mengandalkan pengumpulan data milik sendiri untuk pelatihan model manipulasi.
Kumpulan Embodied World Knowledge milik Qwen-RobotWorld berisi 8,6 juta pasangan video-teks yang mencakup 200 juta frame. Kumpulan data ini mencakup 5,9 juta sampel manipulasi yang mencakup 1.300+ keterampilan lintas 20+ morfologi robot. Data autonomous driving berasal dari kumpulan data Waymo, NVIDIA PhysicalAI-AD, dan Bench2Drive. Data indoor navigation berasal dari VLNVerse. Data human-to-robot transfer mencakup 14 lengan robot.
Alibaba menyatakan bahwa penempatan robot di dunia nyata masih akan memakan waktu bertahun-tahun. Perusahaan mengakui adanya kesenjangan antara lingkungan demonstrasi yang terkontrol dan operasi dunia nyata yang andal. RoboCasa365, LIBERO-Plus, dan RoboTwin-Clean2Rand adalah benchmark simulasi, bukan skenario penempatan di dunia nyata. Penempatan di dunia nyata menghadirkan noise sensor, drift aktuator, dan kasus tepi yang diakui Alibaba sebagai tantangan berkelanjutan.
Model-model tersebut adalah sistem perangkat lunak yang dirancang untuk dijalankan pada perangkat keras dari produsen termasuk AgileX, Franka, Universal Robots, dan Unitree. Alibaba belum mengungkap harga, jadwal penempatan spesifik, atau pelanggan mana yang akan menerima akses di luar program pilot.
Apa yang diumumkan Alibaba pada 16 Juni 2026?
Tim Qwen Alibaba mengumumkan Qwen-Robot Suite pada Selasa, 16 Juni 2026, yang terdiri dari tiga model fondasi: Qwen-RobotNav untuk navigasi, Qwen-RobotManip untuk manipulasi, dan Qwen-RobotWorld untuk simulasi dunia berbasis fisika. Perusahaan memposisikan paket tersebut sebagai tumpukan perangkat lunak terpadu untuk embodied intelligence dalam robotika.
Hasil benchmark apa yang diraih model Qwen-Robot?
Qwen-RobotNav meraih tingkat keberhasilan 76,5% pada VLN-CE RxR dan 90% pada EVT-Bench. Qwen-RobotManip menempati peringkat pertama di RoboChallenge Table30-v1, mengungguli pendekatan sebelumnya sebesar 20%. Qwen-RobotWorld menempati peringkat pertama di EWMBench, DreamGen Bench, WorldModelBench, dan PBench di antara model open-source, dengan skor sempurna pada uji kepatuhan fisika.
Kapan model Qwen-Robot akan ditempatkan di robot dunia nyata?
Alibaba menyatakan bahwa penempatan robot di dunia nyata masih akan memakan waktu bertahun-tahun. Perusahaan belum mengungkap jadwal penempatan spesifik, harga, atau pelanggan mana yang akan menerima akses di luar program pilot.
Berita Terkait
SpaceX Mengajukan Form 8-K yang Merinci Penggunaan Hasil IPO untuk AI dan Satelit
Cottonia Bermitra dengan Matrix untuk Mengintegrasikan Analitik AI di BNB Chain
CEO Qualcomm: Agen AI Akan Menggantikan Aplikasi saat 40+ Perangkat Baru Meluncur
VARA Mewajibkan Perusahaan Kripto Dubai untuk Melacak Daftar Hitam FATF dalam Panduan AML 2026
Model Rio 3,5 IplanRIO Terbukti sebagai Nex Weight Merge dalam Sengketa Atribusi