阿里巴巴推 Qwen-Robot Suite 三模型,多項機器人「全部開源」

Qwen-Robot Suite模型

阿里巴巴 Qwen 團隊於 6 月 17 日發布 Qwen-Robot Suite,一套由三個基礎模型組成的具身智慧全棧:Qwen-RobotNav(移動導航)、Qwen-RobotManip(機械操控)、Qwen-RobotWorld(物理世界模擬)。三個模型均已開源。

Qwen-RobotNav:五項任務統一、1,560 萬筆訓練資料

Qwen-RobotNav 整合了指令跟隨、目標點導航、物件搜尋、目標追蹤和自主駕駛五項任務,提供可參數化介面(token 預算、時間衰減、每鏡頭權重)。模型在 1,560 萬筆樣本上訓練,在 VLN-CE RxR 基準(真實環境視覺與語言導航)成功率達 76.5%,在 EVT-Bench(移動目標追蹤)達 90%。

Qwen-RobotManip:38,100 小時訓練資料,RoboChallenge Table30-v1 排名第一

不同機器人的動作表示方式截然不同(Franka 機械臂用關節角度、ALOHA 雙臂用夾爪位置和方向、人形機器人用全身座標)。阿里巴巴從開源機器人資料庫和人類影片中合成約 38,100 小時的訓練資料,沒有依賴私有資料收集。模型在 RoboChallenge Table30-v1 基準排名第一,超越先前方法 20%。

Qwen-RobotWorld:860 萬筆影片語料,EWMBench 和 DreamGen Bench 排名第一

Qwen-RobotWorld 是以語言為條件的影片世界模型,將自然語言作為通用動作介面:「拿起紅色杯子往花上倒水」這個指令對夾爪、自駕車或移動導航代理均通用。訓練語料庫涵蓋 860 萬筆影片文字配對、2 億幀,橫跨操控(590 萬筆樣本、1,300+ 技能、20+ 形態)、自主駕駛(Waymo、NVIDIA PhysicalAI-AD)、室內導航,以及跨 14 種機械臂的人機轉移。EWMBench 和 DreamGen Bench 兩項基準測試排名第一,物理一致性測試滿分。

Qwen 官方說明:軟體模型而非實體機器人,定價與時間表尚未公布

根據 Qwen 官方部落格的說明,Qwen-Robot Suite 是軟體模型而非實體機器人,實際部署在家用場景仍需數年時間。阿里巴巴目前尚未公布定價、時間表或試點計劃外的客戶名單。Google DeepMind、Nvidia、Figure 和 Physical Intelligence 等西方實驗室也在追求類似目標,但報道指出多數專注於導航或操控的單項能力,而非統一可組裝的套件。

常見問題

Qwen-Robot Suite 的三個模型分別針對什麼場景?

根據 Qwen 官方部落格,三模型的定位為:Qwen-RobotNav 負責移動導航(五種任務統一);Qwen-RobotManip 負責跨機器人的機械操控(兼容不同動作表示方式);Qwen-RobotWorld 負責物理世界模擬(語言為通用動作介面)。三模型各自獨立,合在一起構成具身智慧全棧。

「機器人 Android 時刻」的定位是 Qwen 自己說的嗎?

是的。「機器人領域的 Android 時刻」是阿里巴巴 Qwen 官方在發布時使用的定位描述,意指 Qwen-Robot Suite 是作業系統層的平台,而非硬體。這是 Qwen 的市場定位表述,非第三方評級。

Qwen-Robot Suite 是否對外開源?

根據 Qwen 官方部落格,三個模型全部開源發布。阿里巴巴的訓練資料來自開源機器人資料庫和人類影片,未依賴私有資料收集,開源策略是本次發布的核心訊息之一。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆