百億 startup Thinking Machines lança modelo de IA interativo em tempo real, com foco em “dizer, ouvir e executar enquanto conversa”

2026-05-12 07:44:18

由 ex-OpenAI 高層 Mira Murati 與 John Schulman 共同創辦、百 bilhão de dólares de valuation 的 startup de inteligência artificial Thinking Machines, na terça-feira lançou uma prévia do primeiro modelo de IA full duplex capaz de “falar e ouvir” ao mesmo tempo, com latência de até 0,4 segundo, desafiando os atuais modelos de interação em tempo real homem-máquina.

(Thinking Machines Lab recebe investimento da Nvidia para implantar o Vera Rubin e melhorar o desempenho de modelos de ponta)

Thinking Machines novo modelo: quebra o velho modo de revezar a fala

Em todos os modelos de IA convencionais, a forma de operar é “o usuário insere, o modelo espera e então responde”. Mira Murati, ex-CTO da OpenAI, e John Schulman, cofundador da OpenAI, afirmam que esse processo de respostas em turnos é como trocar mensagens, e não uma conversa de verdade. Agora, o Thinking Machines Lab, criado por ambos, apresentou oficialmente em 11 de maio uma nova “Interaction Models” (modelos de interação) em prévia de pesquisa, tentando mudar essa realidade de forma fundamental.

People talk, listen, watch, think, and collaborate at the same time, in real time. We’ve designed an AI that works with people the same way.

We share our approach, early results, and a quick look at our model in action. pic.twitter.com/uxl1InS6Ay

— Thinking Machines (@thinkymachines) May 11, 2026

A Thinking Machines aponta que os modelos de IA atuais enxergam a realidade em um único fluxo de execução: quando o usuário não terminou de falar, o modelo só pode esperar; quando o modelo não terminou de gerar, a percepção congela. Esse tipo de desenho vira um gargalo para a colaboração homem-máquina, impedindo que as pessoas interajam com a IA de maneira natural e fluida como fariam ao conversar com um ser humano.

Os dois acreditam que a solução não está em remendar uma arquitetura antiga com componentes externos, e sim em treinar desde o início um modelo nativo que suporte interação em tempo real.

Arquitetura full duplex: uma IA que consegue “fazer duas coisas ao mesmo tempo”

O modelo divulgado pela Thinking Machines se chama TML-Interaction-Small, um modelo de arquitetura de especialistas mistos (MoE) com 2,760 bilhões de parâmetros, e com execução prática inicializando apenas 12 bilhões de parâmetros. O sistema processa continuamente, em unidades de 200 milissegundos, entrada e geração de saída em um fluxo alternado, sem impor nenhum limite artificial de turnos, realizando de fato a chamada interação “full duplex” como em uma ligação telefônica, e não como troca de mensagens.

O sistema adota um desenho com dois modelos: o “modelo de interação” fica responsável pelo diálogo em tempo real, pelas interrupções e respostas; o “modelo de fundo” processa de forma assíncrona inferências complexas, busca na web e chamadas de ferramentas nos bastidores, e depois incorpora os resultados de maneira perfeita à conversa em andamento. Isso permite que a IA, enquanto fala ou escuta, conclua silenciosamente tarefas delegadas de busca ou geração de gráficos.

Testes de benchmark: superando de forma ampla a OpenAI e a Google

O anúncio indica que, no padrão de testes FD-bench para medir a qualidade da interação da IA, a latência de troca de turnos do TML-Interaction-Small é de 0,40 segundo, próxima da velocidade de resposta de uma conversa natural humana, muito superior aos 0,57 segundo do Google Gemini-3.1-flash-live e aos 1,18 segundo do GPT-realtime-2.0.

深色代表每列表現最佳者，淺色代表即時模型中表現最佳者

Além disso, em um teste interno criado especificamente pelo time para essa nova capacidade de interação, na tarefa “TimeSpeak”, a precisão do TML-Interaction-Small chegou a 64,7%, enquanto o GPT-realtime-2.0 ficou em apenas 4,3%; na tarefa de “voz acionada” (CueSpeak), o primeiro atingiu 81,7% e o segundo somente 2,9%; e na tarefa “contagem visual” (RepCount-A), o primeiro ficou em 35,4%, enquanto o segundo ficou quase em zero (1,3%).

A Thinking Machines destaca que nenhum modelo comercial atual consegue completar com significado essas tarefas, incluindo os modelos avançados de “thinking” da OpenAI e da Google.

Potencial para aplicações corporativas: de atendimento ao monitoramento de segurança

Além de melhorar a experiência de conversas do dia a dia de forma mais natural, o valor potencial da tecnologia em cenários corporativos também merece atenção.

Por exemplo, na indústria de manufatura ou em laboratórios, uma IA capaz de monitorar imagens em tempo real pode emitir alertas proativamente no instante em que detectar violações de segurança, sem precisar esperar que os funcionários perguntem. No atendimento ao cliente por voz, os sistemas atuais geralmente têm uma latência de 1 a 2 segundos, que costuma ser o principal ponto de dor para o usuário; com uma velocidade de resposta de 0,4 segundo, espera-se resolver esse problema de raiz.

Atualmente, tanto o TML-Interaction-Small quanto seu modelo de fundo correspondente estão disponíveis apenas para alguns parceiros realizarem prévias de pesquisa, e a versão pública deve ser lançada mais tarde ainda neste ano. A Thinking Machines também anunciou a abertura de um programa de subsídios de pesquisa, incentivando a comunidade acadêmica a desenvolver mais novos frameworks para avaliar a qualidade da interação.

De rotatividade de talentos para crescimento estável: próximos passos do Thinking Machines Lab

O Thinking Machines Lab, fundado em 2025, ganhou destaque recentemente este ano, após saídas de vários membros fundadores para a Meta e a contratação do fundador do PyTorch e engenheiro sênior da Meta, Soumith Chintala, como CTO. No momento, o quadro de funcionários já cresceu para cerca de 130 pessoas.

(Quem é Andrew Tulloch, que recusou o convite de US$ 1,5 bilhão da Meta por 6 anos e saiu dessa derrota? )

Em março deste ano, a empresa também anunciou parceria com a Nvidia para implantar pelo menos um gigawatt do novo sistema Vera Rubin, além de ampliar a colaboração com o Google Cloud para avançar no treinamento de modelos de ponta e em pesquisas de reinforcement learning.

Este artigo “Thinking Machines, startup de 100 bilhões, lança modelo de IA de interação em tempo real, com foco em ‘falar, ouvir e executar’” apareceu primeiro em 鏈新聞 ABMedia.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.

Notícias relacionadas

05-12 01:51

A OpenAI lança a empresa de implantação $4B e adquire a Tomoro

05-12 00:45

Thinking Machines lança um modelo de interação com resposta de 200 ms e supera o GPT-Realtime-2.0

05-11 12:21

A Cerebras Systems planeja um IPO para arrecadar até US$ 4,8 bilhões, com preço das ações em US$ 150-160 em 11 de maio

Google: modelos de linguagem de grande porte estão sendo usados para ataques reais, e a IA pode contornar mecanismos de segurança de autenticação em duas etapas

Market Whisper05-12 06:28

Cerebras IPO impulsiona a cadeia de suprimentos: a tese de alimentação elétrica da Vicor e as pautas de licenciamento de IP de energia para IA

ChainNewsAbmedia05-12 05:06

Anúncio oficial da OpenAI: a DeployCo é oficialmente criada, com o primeiro aporte de mais de US$ 4 bilhões

Market Whisper05-12 02:49

A OpenAI também segue o modelo de consultoria da Palantir? Investe US$ 4 bilhões para criar uma empresa independente e envia a FDE para realizar uma integração profunda do trabalho com IA nas empresas

ChainNewsAbmedia05-11 14:34

A OpenAI lança uma empresa de implantação de US$ 4 bilhões: incorpora a Tomoro

ChainNewsAbmedia05-11 14:24

Comentário

0/400

Sem comentários