阿里巴巴的 Qwen 團隊於週二揭露了 Qwen-Robot Suite,這是一組三個基礎模型,透過統一的軟體堆疊,為機器人導航、機器人操作(manipulation)以及基於物理的世界模擬提供動力。公司在 2026 年 6 月 16 日透過 Twitter 公布該套件,並將這項技術定位為其所稱的「具身智能的全堆疊(full stack for embodied intelligence)」。阿里巴巴開發這些模型以解決機器人領域的一項核心挑戰:目前 AI 代理雖然依賴大型語言模型來進行決策,但實體機器人需要能夠處理基於物理的失效模式的生成式 AI 系統,而非僅靠提示式推理(prompt-based reasoning)。此次發布也代表阿里巴巴的垂直整合策略,涵蓋晶片、雲端基礎設施、AI 模型與應用;而機器人是中國具身 AI 發展中最具體的物理呈現。
Qwen-Robot Suite 由三個基礎模型組成,每個模型負責機器人智能的不同面向。Qwen-RobotNav 處理移動與導航任務。Qwen-RobotManip 專注於操作與與物體進行物理互動。Qwen-RobotWorld 用於模擬支撐導航與操作的物理環境。根據阿里巴巴說法,每個模型在單獨運作時各自獨立,但當它們被組合後會形成一個連貫的軟體堆疊。公司將該架構描述為機器人的作業系統層,而非硬體。
Qwen-RobotNav 在單一模型中整合了五項導航任務:指令遵循、點目標導航、物體搜尋、目標追蹤與自主駕駛。該模型提供一個具參數化(parameterized)的介面,可配置 token 預算、時間衰減,以及每台相機的權重,讓規劃器(planner)能在運作期間重新設定。阿里巴巴以 15.6 百萬筆樣本訓練該模型,並對所有參數進行隨機化。
Qwen-RobotManip 解決不同機器人平台之間動作表示不相容的挑戰。Franka 機械手臂透過關節角度運作,而 ALOHA 機器人則以夾爪位置與方向來表示動作。人形機器人則使用全身座標。阿里巴巴透過開源機器人資料集與人類影片,合成了約 38,100 小時的訓練資料,來彌合這些不相容的動作空間。
Qwen-RobotWorld 的功能是作為一個語言條件式(language-conditioned)的影片世界模型,把自然語言視為通用的動作介面。該模型能處理諸如「拿起紅色杯子,並把水倒到花上」這類指令,並能跨不同機器人類型運作,包括夾爪、自主車輛與行動式導航代理。具身世界知識(Embodied World Knowledge)語料庫涵蓋 8.6 百萬個影片-文字配對,總計 2 億個幀,範圍涵蓋操作、自主駕駛、室內導航,以及人到機器人的轉移(human-to-robot transfer)情境。
Qwen-RobotNav 在 VLN-CE RxR 的成功率達到 76.5%,這是一項針對真實環境中的視覺與語言導航的基準。該模型在 EVT-Bench 上的追蹤表現也達到 90%,EVT-Bench 用來評估代理能否持續追蹤移動目標。
Qwen-RobotManip 在 RoboChallenge Table30-v1 上排名第一,並超越先前方法 20%。該模型的表現源自其以對齊(alignment)為先的跨具身(cross-embodiment)訓練策略。
Qwen-RobotWorld 在 EWMBench 與 DreamGen Bench 上排名第一,這兩項基準用來評估世界模型是否能預測並生成逼真的物理環境。該模型在 WorldModelBench 與 PBench 上擊敗所有開源模型。阿里巴巴指出,該模型在涵蓋牛頓定律、質量守恆、流體動力學與重力的物理相符性(physics adherence)測試中得分完全滿分。
阿里巴巴用 15.6 百萬筆樣本訓練 Qwen-RobotNav,並在導航參數上進行隨機化。公司未揭露用於導航訓練的特定來源資料集。
至於 Qwen-RobotManip,阿里巴巴從開源機器人資料集與人類影片合成了約 38,100 小時的訓練資料。公司表示,在操作(manipulation)模型訓練中並未依賴專有的資料蒐集。
Qwen-RobotWorld 的具身世界知識語料庫包含 8.6 百萬個影片-文字配對,涵蓋 2 億個幀。該語料庫包含 5.9 百萬筆操作樣本,涵蓋 20+ 種機器人形態(morphologies)中的 1,300+ 項技能。自主駕駛資料來自 Waymo、NVIDIA PhysicalAI-AD 與 Bench2Drive 資料集。室內導航資料來自 VLNVerse。人到機器人的轉移資料涵蓋 14 支機器人手臂。
阿里巴巴表示,真實世界機器人部署仍需數年。公司承認,受控展示環境與可靠的真實世界運作之間存在落差。RoboCasa365、LIBERO-Plus 與 RoboTwin-Clean2Rand 是模擬基準,而非真實世界部署情境。真實世界部署會引入感測器雜訊、致動器漂移與邊界案例(edge cases),阿里巴巴認為這些是持續存在的挑戰。
這些模型是軟體系統,設計用於在包含 AgileX、Franka、Universal Robots 與 Unitree 在內的製造商所提供的硬體上運行。阿里巴巴尚未披露定價、特定的部署時程,或除試點(pilot programs)之外哪些客戶將獲得存取權。
阿里巴巴在 2026 年 6 月 16 日宣布了什麼?
阿里巴巴的 Qwen 團隊於 2026 年 6 月 16 日週二宣布 Qwen-Robot Suite,該套件由三個基礎模型組成:Qwen-RobotNav 用於導航、Qwen-RobotManip 用於操作(manipulation),以及 Qwen-RobotWorld 用於基於物理的世界模擬。公司將該套件定位為機器人具身智能的統一軟體堆疊。
Qwen-Robot 模型取得了哪些基準測試結果?
Qwen-RobotNav 在 VLN-CE RxR 的成功率為 76.5%,在 EVT-Bench 的表現為 90%。Qwen-RobotManip 在 RoboChallenge Table30-v1 上排名第一,並較先前方法提升 20%。Qwen-RobotWorld 在 EWMBench、DreamGen Bench、WorldModelBench 與 PBench(開源模型之間)排名第一,且在物理相符性測試中獲得滿分。
Qwen-Robot 模型何時會部署到真實世界的機器人中?
阿里巴巴表示,真實世界機器人部署仍需數年。公司尚未披露特定部署時程、定價,或除試點計畫之外哪些客戶將取得存取權。
相關新聞