阿里巴巴的 Qwen 團隊於週二揭露了 Qwen-Robot Suite，這是一組三個基礎模型，透過統一的軟體堆疊，為機器人導航、機器人操作（manipulation）以及基於物理的世界模擬提供動力。公司在 2026 年 6 月 16 日透過 Twitter 公布該套件，並將這項技術定位為其所稱的「具身智能的全堆疊（full stack for embodied intelligence）」。阿里巴巴開發這些模型以解決機器人領域的一項核心挑戰：目前 AI 代理雖然依賴大型語言模型來進行決策，但實體機器人需要能夠處理基於物理的失效模式的生成式 AI 系統，而非僅靠提示式推理（prompt-based reasoning）。此次發布也代表阿里巴巴的垂直整合策略，涵蓋晶片、雲端基礎設施、AI 模型與應用；而機器人是中國具身 AI 發展中最具體的物理呈現。

Qwen-Robot Suite 整合三個專門用途模型

Qwen-Robot Suite 由三個基礎模型組成，每個模型負責機器人智能的不同面向。Qwen-RobotNav 處理移動與導航任務。Qwen-RobotManip 專注於操作與與物體進行物理互動。Qwen-RobotWorld 用於模擬支撐導航與操作的物理環境。根據阿里巴巴說法，每個模型在單獨運作時各自獨立，但當它們被組合後會形成一個連貫的軟體堆疊。公司將該架構描述為機器人的作業系統層，而非硬體。

Qwen-RobotNav 在單一模型中整合了五項導航任務：指令遵循、點目標導航、物體搜尋、目標追蹤與自主駕駛。該模型提供一個具參數化（parameterized）的介面，可配置 token 預算、時間衰減，以及每台相機的權重，讓規劃器（planner）能在運作期間重新設定。阿里巴巴以 15.6 百萬筆樣本訓練該模型，並對所有參數進行隨機化。

Qwen-RobotManip 解決不同機器人平台之間動作表示不相容的挑戰。Franka 機械手臂透過關節角度運作，而 ALOHA 機器人則以夾爪位置與方向來表示動作。人形機器人則使用全身座標。阿里巴巴透過開源機器人資料集與人類影片，合成了約 38,100 小時的訓練資料，來彌合這些不相容的動作空間。

Qwen-RobotWorld 的功能是作為一個語言條件式（language-conditioned）的影片世界模型，把自然語言視為通用的動作介面。該模型能處理諸如「拿起紅色杯子，並把水倒到花上」這類指令，並能跨不同機器人類型運作，包括夾爪、自主車輛與行動式導航代理。具身世界知識（Embodied World Knowledge）語料庫涵蓋 8.6 百萬個影片-文字配對，總計 2 億個幀，範圍涵蓋操作、自主駕駛、室內導航，以及人到機器人的轉移（human-to-robot transfer）情境。

模型在多個機器人基準測試中取得頂尖排名

Qwen-RobotNav 在 VLN-CE RxR 的成功率達到 76.5%，這是一項針對真實環境中的視覺與語言導航的基準。該模型在 EVT-Bench 上的追蹤表現也達到 90%，EVT-Bench 用來評估代理能否持續追蹤移動目標。

Qwen-RobotManip 在 RoboChallenge Table30-v1 上排名第一，並超越先前方法 20%。該模型的表現源自其以對齊（alignment）為先的跨具身（cross-embodiment）訓練策略。

Qwen-RobotWorld 在 EWMBench 與 DreamGen Bench 上排名第一，這兩項基準用來評估世界模型是否能預測並生成逼真的物理環境。該模型在 WorldModelBench 與 PBench 上擊敗所有開源模型。阿里巴巴指出，該模型在涵蓋牛頓定律、質量守恆、流體動力學與重力的物理相符性（physics adherence）測試中得分完全滿分。

訓練資料涵蓋數百萬筆，來自開源機器人資料集

阿里巴巴用 15.6 百萬筆樣本訓練 Qwen-RobotNav，並在導航參數上進行隨機化。公司未揭露用於導航訓練的特定來源資料集。

至於 Qwen-RobotManip，阿里巴巴從開源機器人資料集與人類影片合成了約 38,100 小時的訓練資料。公司表示，在操作（manipulation）模型訓練中並未依賴專有的資料蒐集。

Qwen-RobotWorld 的具身世界知識語料庫包含 8.6 百萬個影片-文字配對，涵蓋 2 億個幀。該語料庫包含 5.9 百萬筆操作樣本，涵蓋 20+ 種機器人形態（morphologies）中的 1,300+ 項技能。自主駕駛資料來自 Waymo、NVIDIA PhysicalAI-AD 與 Bench2Drive 資料集。室內導航資料來自 VLNVerse。人到機器人的轉移資料涵蓋 14 支機器人手臂。

真實世界機器人部署仍需數年

阿里巴巴表示，真實世界機器人部署仍需數年。公司承認，受控展示環境與可靠的真實世界運作之間存在落差。RoboCasa365、LIBERO-Plus 與 RoboTwin-Clean2Rand 是模擬基準，而非真實世界部署情境。真實世界部署會引入感測器雜訊、致動器漂移與邊界案例（edge cases），阿里巴巴認為這些是持續存在的挑戰。

這些模型是軟體系統，設計用於在包含 AgileX、Franka、Universal Robots 與 Unitree 在內的製造商所提供的硬體上運行。阿里巴巴尚未披露定價、特定的部署時程，或除試點（pilot programs）之外哪些客戶將獲得存取權。

FAQ

阿里巴巴在 2026 年 6 月 16 日宣布了什麼？

阿里巴巴的 Qwen 團隊於 2026 年 6 月 16 日週二宣布 Qwen-Robot Suite，該套件由三個基礎模型組成：Qwen-RobotNav 用於導航、Qwen-RobotManip 用於操作（manipulation），以及 Qwen-RobotWorld 用於基於物理的世界模擬。公司將該套件定位為機器人具身智能的統一軟體堆疊。

Qwen-Robot 模型取得了哪些基準測試結果？

Qwen-RobotNav 在 VLN-CE RxR 的成功率為 76.5%，在 EVT-Bench 的表現為 90%。Qwen-RobotManip 在 RoboChallenge Table30-v1 上排名第一，並較先前方法提升 20%。Qwen-RobotWorld 在 EWMBench、DreamGen Bench、WorldModelBench 與 PBench（開源模型之間）排名第一，且在物理相符性測試中獲得滿分。

Qwen-Robot 模型何時會部署到真實世界的機器人中？

阿里巴巴表示，真實世界機器人部署仍需數年。公司尚未披露特定部署時程、定價，或除試點計畫之外哪些客戶將取得存取權。

View Source

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。