A Inception Labs apresentou a Mercury 2 na quinta-feira, posicionando-a como o modelo de linguagem de raciocínio mais rápido do mundo, a cerca de 1.000 tokens por segundo. O modelo obteve 90 no benchmark AIME 2026, superando a DiffusionGemma, recentemente lançada pela Google, que alcançou 69,1% no mesmo teste enquanto atingia velocidades de geração semelhantes. Ambos os modelos usam geração paralela baseada em difusão, em vez do processamento sequencial de tokens, refletindo uma mudança arquitetónica na indústria rumo a métodos de inferência mais rápidos.
Mercury 2 supera a DiffusionGemma no benchmark de Matemática
A Mercury 2 gera cerca de 1.000 tokens por segundo — os pedaços de texto que um modelo de IA lê e escreve — face a aproximadamente 89 tokens por segundo para o Claude Haiku 4,5 Reasoning da Anthropic e 71 para o GPT-5 Mini da OpenAI, segundo o anúncio da Inception Labs. No AIME 2026, construído a partir de problemas reais do American Invitational Mathematics Examination e cotado como a percentagem resolvida corretamente, a Mercury 2 atingiu 90%. A Google testou a DiffusionGemma no mesmo conjunto, onde obteve 69,1%, enquanto a Gemma 4 padrão, não baseada em difusão, alcançou 88,3% no mesmo teste.
No GPQA, um benchmark científico ao nível de doutoramento, a dinâmica foi semelhante: quase empate entre os dois modelos — Mercury 2 com 77% contra os 73,2% da DiffusionGemma. O guia para programadores da Google recomenda a Gemma 4 padrão para aplicações que exigem a máxima qualidade, admitindo que a DiffusionGemma fica atrás em todo o lado. A DiffusionGemma é gratuita e tem pesos abertos no Hugging Face. A Mercury 2 é um modelo de API pago e com pesos fechados.
Modelos de difusão substituem a geração sequencial de tokens
Ambos os modelos abandonam a abordagem de máquina de escrever para escrever. Um chatbot padrão escreve uma palavra, verifica o que acabou de escrever e depois escreve a seguinte, repetindo até a resposta ficar terminada. Em vez disso, os modelos de difusão preenchem um bloco de texto com tokens de substituição aleatórios e apagam o ruído ao longo de várias passagens paralelas — o mesmo truque que transforma imagens estáticas em fotografias em geradores de imagem como o Stable Diffusion — até o bloco inteiro ficar bloqueado numa resposta final de uma só vez.
Augment Code reporta 82% de redução de latência em produção
A Augment Code, uma empresa de agentes de programação com IA, trocou a Mercury 2 pela Claude Opus 4,7 da Anthropic no seu subagente de compactação de contexto e viu uma queda de 82% na latência e uma redução de 90% nos custos, reportando a mesma qualidade de saída, segundo um estudo de caso conjunto.
Inception Labs garante uma ronda de financiamento de 50 milhões de dólares
A Inception Labs angariou 50 milhões de dólares em financiamento com apoio do braço de venture da Nvidia e de investidores individuais, Andrew Ng e Andrej Karpathy. A startup foi construída com base em investigação do seu fundador Stefano Ermon, professor na Stanford, que coautorizou algumas das técnicas de difusão baseadas em pontuação que sustentam os geradores de imagem atuais.
A geração paralela permite uma arquitetura de sistema multi-agente
Sistemas complexos de IA são orquestras de ajudantes especializados: um para raciocínio profundo, vários para sumarização rápida, encaminhamento, procura de ferramentas, verificação de saída. Modelos sequenciais tornam essas chamadas de utilidade caras e lentas. Modelos de difusão paralelos tornam-nas baratas e rápidas o suficiente para uso liberal. A Mercury 2 é, por agora, API/nuvem, e o ecossistema completo — runtimes locais, frameworks de agentes — ainda está a acompanhar.
Fluxos de trabalho sensíveis à velocidade beneficiam da abordagem por difusão
Os casos de uso incluem programação em tempo real, em que o modelo acompanha edições, programação multi-agente ou sistemas de suporte onde acontecem muitas subchamadas rápidas, interfaces de voz que não parecem ter atraso e qualquer autocomplete ou previsão do próximo passo sensível à latência. À escala, as poupanças de custo e energia decorrentes de maior produtividade em hardware padrão somam-se rapidamente, segundo a Inception Labs.
FAQ
O que é que a Inception Labs anunciou na quinta-feira?
A Inception Labs apresentou a Mercury 2 na quinta-feira, chamando-lhe o modelo de linguagem de raciocínio mais rápido do mundo. Gera cerca de 1.000 tokens por segundo e obteve 90 no benchmark AIME 2026.
Como é que a Mercury 2 se compara à DiffusionGemma da Google em benchmarks?
A Mercury 2 obteve 90 no AIME 2026, enquanto a DiffusionGemma da Google atingiu 69,1% no mesmo teste. No GPQA, um benchmark científico ao nível de doutoramento, a Mercury 2 alcançou 77% face aos 73,2% da DiffusionGemma.
Que melhorias de custo e latência é que a Augment Code reportou?
A Augment Code trocou a Mercury 2 pela Claude Opus 4,7 da Anthropic no seu subagente de compactação de contexto e viu uma queda de 82% na latência e uma redução de 90% nos custos, reportando a mesma qualidade de saída, segundo um estudo de caso conjunto.