A Alibaba Lança a Suíte Qwen-Robot: Três Modelos de IA para a Inteligência de Robôs

A equipe do Qwen, da Alibaba, revelou na terça-feira o Qwen-Robot Suite, um conjunto de três modelos de base projetados para viabilizar navegação robótica, manipulação e simulação de mundo com física por meio de uma pilha de software unificada. A empresa anunciou o pacote via Twitter em 16 de junho de 2026, posicionando a tecnologia como o que ela chama de “full stack para inteligência incorporada”. A Alibaba desenvolveu os modelos para enfrentar um desafio central em robótica: embora agentes de IA atualmente dependam de modelos de linguagem grandes para tomada de decisão, robôs físicos precisam de sistemas de IA generativa capazes de lidar com modos de falha baseados em física, em vez de raciocínio guiado por prompts. O lançamento representa a estratégia de integração vertical da Alibaba que abrange chips, infraestrutura de nuvem, modelos de IA e aplicações, com robótica sendo a expressão mais física do desenvolvimento de IA incorporada na China.

Qwen-Robot Suite Unifica Três Modelos Especializados

O Qwen-Robot Suite consiste em três modelos de base, cada um lidando com um aspecto distinto da inteligência robótica. Qwen-RobotNav lida com tarefas de mobilidade e navegação. Qwen-RobotManip trata de manipulação e interação física com objetos. Qwen-RobotWorld simula a física que habilita tanto a navegação quanto a manipulação. Segundo a Alibaba, cada modelo opera de forma independente, mas forma uma pilha de software coesa quando combinados. A empresa descreve a arquitetura como a camada de sistema operacional para robótica, e não como hardware.

Qwen-RobotNav unifica cinco tarefas de navegação dentro de um único modelo: seguir instruções, navegação ponto-objetivo, busca por objetos, rastreamento de alvos e direção autônoma. O modelo expõe uma interface parametrizada com orçamento de tokens configurável, decaimento temporal e pesos por câmera que um planejador pode reconfigurar durante a operação. A Alibaba treinou o modelo com 15,6 milhões de amostras com randomização em todos os parâmetros.

Qwen-RobotManip aborda o desafio de representações de ações incompatíveis entre diferentes plataformas robóticas. Um braço Franka opera por meio de ângulos de juntas, enquanto um robô ALOHA representa ações pela posição e orientação do gripper. Robôs humanoides usam coordenadas do corpo inteiro. A Alibaba sintetizou aproximadamente 38,1 mil horas de dados de treinamento a partir de conjuntos de dados robóticos de código aberto e vídeos humanos para fazer a ponte entre esses espaços de ações incompatíveis.

Qwen-RobotWorld funciona como um modelo de mundo em vídeo condicionado por linguagem, tratando linguagem natural como uma interface universal de ação. O modelo processa comandos como “Pegue o copo vermelho e despeje água na flor” em diferentes tipos de robôs, incluindo grippers, veículos autônomos e agentes de navegação móvel. O corpus Embodied World Knowledge abrange 8,6 milhões de pares vídeo-texto, totalizando 200 milhões de frames, em manipulação, direção autônoma, navegação indoor e cenários de transferência humano-para-robô.

Modelos Alcançam as Melhores Classificações em Múltiplos Benchmarks de Robótica

O Qwen-RobotNav obteve 76,5% de sucesso no VLN-CE RxR, um benchmark de navegação entre visão e linguagem em ambientes do mundo real. O modelo também atingiu desempenho de rastreamento de 90% no EVT-Bench, que avalia a capacidade do agente de seguir alvos em movimento de forma consistente.

Qwen-RobotManip fica em primeiro lugar no RoboChallenge Table30-v1, superando abordagens anteriores em 20%. O desempenho do modelo vem de sua estratégia de alinhamento primeiro para treinamento de cruzamento de corpos (cross-embodiment).

Qwen-RobotWorld fica em primeiro lugar no EWMBench e no DreamGen Bench, dois benchmarks que avaliam se modelos de mundo preveem e geram ambientes físicos realistas. O modelo supera todos os modelos de código aberto no WorldModelBench e no PBench. A Alibaba relata que o modelo obtém pontuação perfeita em testes de aderência à física cobrindo as leis de Newton, conservação de massa, dinâmica de fluidos e gravidade.

Dados de Treinamento Abrangem Milhões de Amostras de Conjuntos de Dados Robóticos de Código Aberto

A Alibaba treinou o Qwen-RobotNav em 15,6 milhões de amostras com randomização em parâmetros de navegação. A empresa não divulgou os conjuntos de dados específicos usados para o treinamento de navegação.

Para o Qwen-RobotManip, a Alibaba sintetizou aproximadamente 38,1 mil horas de dados de treinamento a partir de conjuntos de dados robóticos de código aberto e vídeos humanos. A empresa afirmou que não depende de coleta de dados proprietária para o treinamento do modelo de manipulação.

O corpus Embodied World Knowledge do Qwen-RobotWorld contém 8,6 milhões de pares vídeo-texto, abrangendo 200 milhões de frames. O corpus inclui 5,9 milhões de amostras de manipulação, cobrindo 1.300+ habilidades em 20+ morfologias robóticas. Os dados de direção autônoma vêm dos conjuntos de dados Waymo, NVIDIA PhysicalAI-AD e Bench2Drive. Os dados de navegação indoor derivam do VLNVerse. Os dados de transferência humano-para-robô cobrem 14 braços robóticos.

Implantação de Robôs no Mundo Real Continua Anos de Distância

A Alibaba afirmou que a implantação de robôs no mundo real ainda está a alguns anos. A empresa reconheceu a diferença entre ambientes de demonstração controlados e operação confiável no mundo real. RoboCasa365, LIBERO-Plus e RoboTwin-Clean2Rand são benchmarks de simulação, e não cenários de implantação no mundo real. A implantação no mundo real introduz ruído de sensores, deriva de atuadores e casos-limite que a Alibaba reconhece como desafios em andamento.

Os modelos são sistemas de software projetados para rodar em hardware de fabricantes como AgileX, Franka, Universal Robots e Unitree. A Alibaba não divulgou preços, cronogramas específicos de implantação nem quais clientes terão acesso além de programas piloto.

FAQ

O que a Alibaba anunciou em 16 de junho de 2026?

A equipe do Qwen, da Alibaba, anunciou o Qwen-Robot Suite na terça-feira, 16 de junho de 2026, composto por três modelos de base: Qwen-RobotNav para navegação, Qwen-RobotManip para manipulação e Qwen-RobotWorld para simulação de mundo com física. A empresa posicionou o pacote como uma pilha de software unificada para inteligência incorporada em robótica.

Quais resultados de benchmark os modelos Qwen-Robot alcançaram?

O Qwen-RobotNav obteve 76,5% de sucesso no VLN-CE RxR e 90% no EVT-Bench. O Qwen-RobotManip fica em primeiro lugar no RoboChallenge Table30-v1, superando abordagens anteriores em 20%. O Qwen-RobotWorld fica em primeiro lugar no EWMBench, DreamGen Bench, WorldModelBench e PBench entre modelos de código aberto, com pontuações perfeitas em testes de aderência à física.

Quando os modelos Qwen-Robot serão implantados em robôs do mundo real?

A Alibaba afirmou que a implantação de robôs no mundo real ainda está a alguns anos. A empresa não divulgou cronogramas específicos de implantação, preços nem quais clientes terão acesso além de programas piloto.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários