Команда Qwen от Alibaba во вторник представила набор Qwen-Robot Suite — комплект из трех базовых моделей, предназначенных для обеспечения навигации роботов, манипуляций и симуляции окружающего мира на основе физики через единую программную платформу. Компания объявила о наборе в Twitter 16 июня 2026 года, позиционируя технологию как «full stack for embodied intelligence» — «полный стек для телесного интеллекта». Alibaba разработала модели для решения ключевой задачи в робототехнике: хотя ИИ-агенты сегодня полагаются на большие языковые модели для принятия решений, физическим роботам нужны генеративные ИИ-системы, способные справляться с отказами, обусловленными физическими законами, а не ограничиваться рассуждениями по подсказкам. Выпуск отражает стратегию вертикальной интеграции Alibaba, охватывающую чипы, облачную инфраструктуру, ИИ-модели и приложения, при этом робототехника выступает самым «осязаемым» проявлением разработки телесного ИИ в Китае.
Qwen-Robot Suite состоит из трех базовых моделей: каждая отвечает за отдельный аспект роботизированного интеллекта. Qwen-RobotNav обрабатывает задачи мобильности и навигации. Qwen-RobotManip решает задачи манипуляций и физического взаимодействия с объектами. Qwen-RobotWorld симулирует физику, обеспечивающую и навигацию, и манипуляции. По данным Alibaba, каждая модель работает независимо, но при объединении образует согласованный программный стек. Компания описывает архитектуру как слой операционной системы для робототехники, а не как аппаратную часть.
Qwen-RobotNav объединяет пять навигационных задач в рамках одной модели: следование инструкциям, навигацию к точке, поиск объектов, отслеживание цели и автономное вождение. Модель предоставляет параметризованный интерфейс с настраиваемым бюджетом токенов, временным затуханием и весами для каждой камеры, которые планировщик может перенастраивать во время работы. Alibaba обучила модель на 15,6 миллиона примеров с рандомизацией по всем параметрам.
Qwen-RobotManip решает проблему несовместимых представлений действий на разных платформах роботов. Манипулятор Franka работает через углы в суставах, тогда как робот ALOHA представляет действия через положение и ориентацию захвата. У гуманоидов используются координаты всего тела. Alibaba синтезировала примерно 38 100 часов обучающих данных из открытых датасетов роботов и роликов с людьми, чтобы «сшить» эти несовместимые пространства действий.
Qwen-RobotWorld работает как видеомодель мира, обусловленная языком: естественный язык используется как универсальный интерфейс действий. Модель обрабатывает команды вроде «Подними красную чашку и налей воду на цветок» для разных типов роботов, включая захваты, автономные транспортные средства и мобильных навигационных агентов. Корпус Embodied World Knowledge охватывает 8,6 миллиона пар видео-текст на сумму 200 миллионов кадров в сценариях манипуляций, автономного вождения, внутренней навигации и передачи «человек-робот».
Qwen-RobotNav показала 76,5% успешности на VLN-CE RxR — бенчмарке для навигации «визуал-язык» в реальных средах. Модель также достигла 90% качества отслеживания на EVT-Bench, который оценивает способность агента стабильно следовать за движущимися целями.
Qwen-RobotManip занимает первое место на RoboChallenge Table30-v1, опережая предыдущие подходы на 20%. Эффект модели объясняется подходом, ориентированным на согласование в первую очередь в ходе кросс-телесного обучения.
Qwen-RobotWorld занимает первое место на EWMBench и DreamGen Bench — двух бенчмарках, оценивающих, предсказывают ли и генерируют ли модели мира реалистичные физические среды. Модель обходит все открытые модели на WorldModelBench и PBench. Alibaba сообщает, что модель идеально проходит тесты на соблюдение физики, включая законы Ньютона, сохранение массы, динамику жидкостей и гравитацию.
Alibaba обучила Qwen-RobotNav на 15,6 миллиона примеров с рандомизацией по навигационным параметрам. Компания не раскрыла конкретные исходные датасеты, использованные для обучения навигации.
Для Qwen-RobotManip Alibaba синтезировала примерно 38 100 часов обучающих данных из открытых датасетов роботов и видеороликов с людьми. Компания заявила, что не полагалась на проприетарный сбор данных для обучения модели манипуляций.
Корпус Embodied World Knowledge у Qwen-RobotWorld содержит 8,6 миллиона пар видео-текст и охватывает 200 миллионов кадров. Корпус включает 5,9 миллиона примеров манипуляций, покрывающих 1 300+ навыков на 20+ морфологиях роботов. Данные для автономного вождения поступают из датасетов Waymo, NVIDIA PhysicalAI-AD и Bench2Drive. Данные внутренней навигации берутся из VLNVerse. Данные для передачи «человек-робот» охватывают 14 роботизированных рук.
Alibaba заявила, что реальное развертывание роботов в действительности остается на годы вперед. Компания признала разрыв между контролируемыми демонстрационными средами и надежной работой в реальных условиях. RoboCasa365, LIBERO-Plus и RoboTwin-Clean2Rand — это симуляционные бенчмарки, а не сценарии реального развертывания. Реальное развертывание сталкивается с шумом сенсоров, дрейфом приводов и пограничными случаями, которые Alibaba рассматривает как продолжающиеся вызовы.
Модели представляют собой программные системы, предназначенные для работы на аппаратных платформах производителей, включая AgileX, Franka, Universal Robots и Unitree. Alibaba не раскрыла цены, конкретные сроки развертывания и то, каким именно клиентам будет доступ к системе за пределами пилотных программ.
Что Alibaba объявила на 16 июня 2026?
Команда Qwen от Alibaba объявила о Qwen-Robot Suite во вторник, 16 июня 2026 года. Набор состоит из трех базовых моделей: Qwen-RobotNav для навигации, Qwen-RobotManip для манипуляций и Qwen-RobotWorld для симуляции мира на основе физики. Компания позиционировала набор как единый программный стек для телесного интеллекта в робототехнике.
Какие результаты бенчмарков показали модели Qwen-Robot?
Qwen-RobotNav достигла 76,5% успешности на VLN-CE RxR и 90% на EVT-Bench. Qwen-RobotManip занимает первое место на RoboChallenge Table30-v1, опережая предыдущие подходы на 20%. Qwen-RobotWorld занимает первое место на EWMBench, DreamGen Bench, WorldModelBench и PBench среди открытых моделей, при этом на тестах на соблюдение физики результаты идеальные.
Когда модели Qwen-Robot будут развернуты в реальных роботах?
Alibaba заявила, что реальное развертывание роботов остается на годы вперед. Компания не раскрыла конкретные сроки развертывания, цены или то, каким клиентам будет доступ к системе за пределами пилотных программ.
Связанные новости
SpaceX подала форму 8-K с подробностями о том, как будут использоваться средства от IPO для ИИ и спутников
Cottonia сотрудничает с Matrix, чтобы интегрировать AI-аналитику в BNB Chain
Глава Qualcomm: ИИ-агенты заменят приложения, когда выйдут 40+ новых устройств
VARA требует от криптокомпаний в Дубае отслеживать черные списки FATF в руководстве по AML на 2026 год
Модель Rio 3,5 от IplanRIO доказала свою эффективность как Nex Weight Merge в споре об атрибуции