Команда Qwen от Alibaba во вторник представила набор Qwen-Robot Suite — комплект из трех базовых моделей, предназначенных для обеспечения навигации роботов, манипуляций и симуляции окружающего мира на основе физики через единую программную платформу. Компания объявила о наборе в Twitter 16 июня 2026 года, позиционируя технологию как «full stack for embodied intelligence» — «полный стек для телесного интеллекта». Alibaba разработала модели для решения ключевой задачи в робототехнике: хотя ИИ-агенты сегодня полагаются на большие языковые модели для принятия решений, физическим роботам нужны генеративные ИИ-системы, способные справляться с отказами, обусловленными физическими законами, а не ограничиваться рассуждениями по подсказкам. Выпуск отражает стратегию вертикальной интеграции Alibaba, охватывающую чипы, облачную инфраструктуру, ИИ-модели и приложения, при этом робототехника выступает самым «осязаемым» проявлением разработки телесного ИИ в Китае.

Qwen-Robot Suite объединяет три специализированные модели

Qwen-Robot Suite состоит из трех базовых моделей: каждая отвечает за отдельный аспект роботизированного интеллекта. Qwen-RobotNav обрабатывает задачи мобильности и навигации. Qwen-RobotManip решает задачи манипуляций и физического взаимодействия с объектами. Qwen-RobotWorld симулирует физику, обеспечивающую и навигацию, и манипуляции. По данным Alibaba, каждая модель работает независимо, но при объединении образует согласованный программный стек. Компания описывает архитектуру как слой операционной системы для робототехники, а не как аппаратную часть.

Qwen-RobotNav объединяет пять навигационных задач в рамках одной модели: следование инструкциям, навигацию к точке, поиск объектов, отслеживание цели и автономное вождение. Модель предоставляет параметризованный интерфейс с настраиваемым бюджетом токенов, временным затуханием и весами для каждой камеры, которые планировщик может перенастраивать во время работы. Alibaba обучила модель на 15,6 миллиона примеров с рандомизацией по всем параметрам.

Qwen-RobotManip решает проблему несовместимых представлений действий на разных платформах роботов. Манипулятор Franka работает через углы в суставах, тогда как робот ALOHA представляет действия через положение и ориентацию захвата. У гуманоидов используются координаты всего тела. Alibaba синтезировала примерно 38 100 часов обучающих данных из открытых датасетов роботов и роликов с людьми, чтобы «сшить» эти несовместимые пространства действий.

Qwen-RobotWorld работает как видеомодель мира, обусловленная языком: естественный язык используется как универсальный интерфейс действий. Модель обрабатывает команды вроде «Подними красную чашку и налей воду на цветок» для разных типов роботов, включая захваты, автономные транспортные средства и мобильных навигационных агентов. Корпус Embodied World Knowledge охватывает 8,6 миллиона пар видео-текст на сумму 200 миллионов кадров в сценариях манипуляций, автономного вождения, внутренней навигации и передачи «человек-робот».

Модели занимают лидирующие позиции на нескольких робототехнических бенчмарках

Qwen-RobotNav показала 76,5% успешности на VLN-CE RxR — бенчмарке для навигации «визуал-язык» в реальных средах. Модель также достигла 90% качества отслеживания на EVT-Bench, который оценивает способность агента стабильно следовать за движущимися целями.

Qwen-RobotManip занимает первое место на RoboChallenge Table30-v1, опережая предыдущие подходы на 20%. Эффект модели объясняется подходом, ориентированным на согласование в первую очередь в ходе кросс-телесного обучения.

Qwen-RobotWorld занимает первое место на EWMBench и DreamGen Bench — двух бенчмарках, оценивающих, предсказывают ли и генерируют ли модели мира реалистичные физические среды. Модель обходит все открытые модели на WorldModelBench и PBench. Alibaba сообщает, что модель идеально проходит тесты на соблюдение физики, включая законы Ньютона, сохранение массы, динамику жидкостей и гравитацию.

Обучающие данные охватывают миллионы примеров из открытых датасетов роботов

Alibaba обучила Qwen-RobotNav на 15,6 миллиона примеров с рандомизацией по навигационным параметрам. Компания не раскрыла конкретные исходные датасеты, использованные для обучения навигации.

Для Qwen-RobotManip Alibaba синтезировала примерно 38 100 часов обучающих данных из открытых датасетов роботов и видеороликов с людьми. Компания заявила, что не полагалась на проприетарный сбор данных для обучения модели манипуляций.

Корпус Embodied World Knowledge у Qwen-RobotWorld содержит 8,6 миллиона пар видео-текст и охватывает 200 миллионов кадров. Корпус включает 5,9 миллиона примеров манипуляций, покрывающих 1 300+ навыков на 20+ морфологиях роботов. Данные для автономного вождения поступают из датасетов Waymo, NVIDIA PhysicalAI-AD и Bench2Drive. Данные внутренней навигации берутся из VLNVerse. Данные для передачи «человек-робот» охватывают 14 роботизированных рук.

Реальное развертывание роботов остается на годы вперед

Alibaba заявила, что реальное развертывание роботов в действительности остается на годы вперед. Компания признала разрыв между контролируемыми демонстрационными средами и надежной работой в реальных условиях. RoboCasa365, LIBERO-Plus и RoboTwin-Clean2Rand — это симуляционные бенчмарки, а не сценарии реального развертывания. Реальное развертывание сталкивается с шумом сенсоров, дрейфом приводов и пограничными случаями, которые Alibaba рассматривает как продолжающиеся вызовы.

Модели представляют собой программные системы, предназначенные для работы на аппаратных платформах производителей, включая AgileX, Franka, Universal Robots и Unitree. Alibaba не раскрыла цены, конкретные сроки развертывания и то, каким именно клиентам будет доступ к системе за пределами пилотных программ.

FAQ

Что Alibaba объявила на 16 июня 2026?

Команда Qwen от Alibaba объявила о Qwen-Robot Suite во вторник, 16 июня 2026 года. Набор состоит из трех базовых моделей: Qwen-RobotNav для навигации, Qwen-RobotManip для манипуляций и Qwen-RobotWorld для симуляции мира на основе физики. Компания позиционировала набор как единый программный стек для телесного интеллекта в робототехнике.

Какие результаты бенчмарков показали модели Qwen-Robot?

Qwen-RobotNav достигла 76,5% успешности на VLN-CE RxR и 90% на EVT-Bench. Qwen-RobotManip занимает первое место на RoboChallenge Table30-v1, опережая предыдущие подходы на 20%. Qwen-RobotWorld занимает первое место на EWMBench, DreamGen Bench, WorldModelBench и PBench среди открытых моделей, при этом на тестах на соблюдение физики результаты идеальные.

Когда модели Qwen-Robot будут развернуты в реальных роботах?

Alibaba заявила, что реальное развертывание роботов остается на годы вперед. Компания не раскрыла конкретные сроки развертывания, цены или то, каким клиентам будет доступ к системе за пределами пилотных программ.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

1ч назад

Alibaba представила комплект Qwen-Robot Suite с тремя базовыми моделями для робототехники 16 июня

17ч назад

Alibaba выпускает серию Qwen-Robot с тремя моделями воплощённого ИИ для робототехники

19ч назад

Alibaba выпускает серию роботизированных моделей воплощённого ИИ Qwen-Robot

Связанные статьи

SpaceX подала форму 8-K с подробностями о том, как будут использоваться средства от IPO для ИИ и спутников

Lucas Bennett2ч назад

Cottonia сотрудничает с Matrix, чтобы интегрировать AI-аналитику в BNB Chain

Ethan Brooks10ч назад