Fundada em conjunto pela antiga cúpula da OpenAI Mira Murati e por John Schulman, cofundador da OpenAI, a nova empresa de IA Thinking Machines, avaliada em cem mil milhões de dólares, lançou na terça-feira uma pré-visualização do seu primeiro modelo de IA “falar e ouvir” em simultâneo, em modo full duplex, com uma latência de apenas 0,4 segundos, desafiando os actuais modelos de interacção em tempo real homem-máquina.

(Investimento da Nvidia na Thinking Machines Lab com o Vera Rubin para melhorar o desempenho de modelos de ponta)

Modelo da Thinking Machines: romper com o velho padrão de “turnos”

Em todos os modelos de IA dominantes actuais, o funcionamento é sempre “o utilizador introduz, o modelo espera e, depois, responde”. Mira Murati, antiga directora técnica da OpenAI, e John Schulman, cofundador da OpenAI, acreditam que o processo de respostas alternadas se assemelha a troca de mensagens e não a uma conversa verdadeira. Agora, a Thinking Machines Lab, que os dois fundaram em conjunto, anunciou formalmente a 11 de Maio uma nova pré-visualização de investigação dos chamados “Interaction Models” (modelos de interacção), tentando mudar de raiz este estado de coisas.

People talk, listen, watch, think, and collaborate at the same time, in real time. We’ve designed an AI that works with people the same way.

We share our approach, early results, and a quick look at our model in action. pic.twitter.com/uxl1InS6Ay

— Thinking Machines (@thinkymachines) May 11, 2026

A Thinking Machines salienta que, nos modelos actuais, a percepção do mundo acontece num único fio de execução: quando o utilizador ainda não terminou de falar, o modelo só pode esperar; quando o modelo ainda não gerou tudo, a percepção congela. Esta concepção torna-se um gargalo na colaboração homem-máquina, impedindo uma interacção tão natural e fluida com a IA como a que se tem com humanos.

Os dois acreditam que a solução não passa por remendar uma arquitectura antiga com componentes externos, mas sim por treinar de raiz um modelo nativo que suporte interacção em tempo real.

Arquitectura full duplex: uma IA capaz de “fazer duas coisas ao mesmo tempo”

O modelo lançado pela Thinking Machines chama-se TML-Interaction-Small: trata-se de um modelo com arquitectura de mistura de especialistas (MoE) com 276 mil milhões de parâmetros, mas com funcionamento prático activando 12 mil milhões de parâmetros. O sistema processa de forma contínua e alternada a entrada e a geração de saídas em unidades de 200 milissegundos, sem definir limites artificiais de “turno”, alcançando verdadeiramente a interacção full duplex — como numa chamada telefónica, e não como troca de mensagens.

O sistema usa um desenho com dois modelos: o “modelo de interacção” é responsável por conversa imediata, tomar a palavra e responder; o “modelo de fundo” trata de forma assíncrona, em segundo plano, raciocínios complexos, pesquisas na rede e chamadas de ferramentas, e depois integra os resultados de forma contínua na conversa em curso. Assim, a IA consegue, enquanto fala ou escuta, também cumprir discretamente tarefas atribuídas de pesquisa ou geração de gráficos.

Testes de referência: superar de forma abrangente a OpenAI e a Google

O anúncio indica que, no benchmark FD-bench, que mede a qualidade da interacção de IA, a latência de troca de turno do TML-Interaction-Small é de 0,40 segundos, aproximando-se da velocidade de reacção de uma conversa natural humana, superando claramente os 0,57 segundos do Google Gemini-3.1-flash-live e os 1,18 segundos do GPT-realtime-2.0.

深色代表每列表現最佳者，淺色代表即時模型中表現最佳者

Com a chegada dos seus próprios testes desenhados especificamente para esta nova capacidade de interacção, na tarefa “TimeSpeak” a taxa de correcção do TML-Interaction-Small atinge 64,7%, enquanto a do GPT-realtime-2.0 é apenas 4,3%; na tarefa “CueSpeak” (gatilho por voz), o primeiro vai para 81,7% e o segundo fica nos 2,9%; na tarefa “RepCount-A” (contagem visual), o primeiro chega a 35,4%, enquanto o segundo fica quase nulo (1,3%).

A Thinking Machines aponta que nenhum modelo comercial existente consegue, de forma significativa, cumprir estas tarefas, incluindo os modelos avançados de pensamento (thinking) da OpenAI e da Google.

Potencial para aplicações empresariais: da assistência ao cliente à vigilância de segurança

Além de uma experiência de conversa do dia-a-dia mais natural, o potencial desta tecnologia em cenários empresariais também merece destaque.

Por exemplo, na indústria transformadora ou em laboratórios, uma IA capaz de monitorizar imagens em tempo real pode emitir um alerta proactivamente no instante em que detecta uma violação de segurança, sem esperar que os trabalhadores abram a boca para perguntar. No domínio do atendimento ao cliente por voz, os sistemas actuais têm, em geral, uma latência de processamento de 1 a 2 segundos, que é muitas vezes o problema mais directo para o utilizador — e uma velocidade de resposta de 0,4 segundos tem o potencial de resolver esse problema de raiz.

Neste momento, o TML-Interaction-Small e o seu modelo de fundo associado estão apenas disponíveis para um número limitado de parceiros, para investigação em pré-visualização; a versão pública está prevista para ser lançada mais tarde este ano. A Thinking Machines anunciou também que vai iniciar um programa de bolsas de investigação, incentivando a comunidade académica a desenvolver mais novos enquadramentos para avaliar a qualidade de interacção.

Da mobilidade de talento para um crescimento estável: o próximo passo da Thinking Machines Lab

A Thinking Machines Lab, criada em 2025, chamou recentemente a atenção do público no início deste ano, depois de vários membros fundadores terem saído para a Meta e de a empresa ter recrutado Soumith Chintala, fundador da PyTorch e engenheiro sénior da Meta, para assumir o cargo de director técnico; neste momento, a dimensão da equipa já cresceu para cerca de 130 pessoas.

(Quem é Andrew Tulloch, o alvo da abordagem da Meta que vinha de uma derrota: recusou a oferta de 1,5 mil milhões de dólares da Meta para um compromisso de 6 anos?)

Em Março deste ano, a empresa também anunciou uma parceria com a Nvidia para implementar pelo menos 1 gigawatt de um novo sistema Vera Rubin e expandir a cooperação com a Google Cloud para avançar com investigação de treino de modelos de ponta e reforço de aprendizagem.

Este artigo, sobre a Thinking Machines, startup avaliada em cem mil milhões, a publicar um modelo de IA com interacção em tempo real e focado em “dizer, ouvir e executar”, apareceu pela primeira vez no site 链新闻 ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.