O Mercury 2 da Inception Labs obtém 90 no AIME 2026, superando o DiffusionGemma da Google

2026-06-21 16:12:51

A Inception Labs apresentou a Mercury 2 na quinta-feira, posicionando-a como o modelo de linguagem de raciocínio mais rápido do mundo, a cerca de 1.000 tokens por segundo. O modelo obteve 90 no benchmark AIME 2026, superando a DiffusionGemma, recentemente lançada pela Google, que alcançou 69,1% no mesmo teste enquanto atingia velocidades de geração semelhantes. Ambos os modelos usam geração paralela baseada em difusão, em vez do processamento sequencial de tokens, refletindo uma mudança arquitetónica na indústria rumo a métodos de inferência mais rápidos.

Mercury 2 supera a DiffusionGemma no benchmark de Matemática

A Mercury 2 gera cerca de 1.000 tokens por segundo — os pedaços de texto que um modelo de IA lê e escreve — face a aproximadamente 89 tokens por segundo para o Claude Haiku 4,5 Reasoning da Anthropic e 71 para o GPT-5 Mini da OpenAI, segundo o anúncio da Inception Labs. No AIME 2026, construído a partir de problemas reais do American Invitational Mathematics Examination e cotado como a percentagem resolvida corretamente, a Mercury 2 atingiu 90%. A Google testou a DiffusionGemma no mesmo conjunto, onde obteve 69,1%, enquanto a Gemma 4 padrão, não baseada em difusão, alcançou 88,3% no mesmo teste.

No GPQA, um benchmark científico ao nível de doutoramento, a dinâmica foi semelhante: quase empate entre os dois modelos — Mercury 2 com 77% contra os 73,2% da DiffusionGemma. O guia para programadores da Google recomenda a Gemma 4 padrão para aplicações que exigem a máxima qualidade, admitindo que a DiffusionGemma fica atrás em todo o lado. A DiffusionGemma é gratuita e tem pesos abertos no Hugging Face. A Mercury 2 é um modelo de API pago e com pesos fechados.

Modelos de difusão substituem a geração sequencial de tokens

Ambos os modelos abandonam a abordagem de máquina de escrever para escrever. Um chatbot padrão escreve uma palavra, verifica o que acabou de escrever e depois escreve a seguinte, repetindo até a resposta ficar terminada. Em vez disso, os modelos de difusão preenchem um bloco de texto com tokens de substituição aleatórios e apagam o ruído ao longo de várias passagens paralelas — o mesmo truque que transforma imagens estáticas em fotografias em geradores de imagem como o Stable Diffusion — até o bloco inteiro ficar bloqueado numa resposta final de uma só vez.

Augment Code reporta 82% de redução de latência em produção

A Augment Code, uma empresa de agentes de programação com IA, trocou a Mercury 2 pela Claude Opus 4,7 da Anthropic no seu subagente de compactação de contexto e viu uma queda de 82% na latência e uma redução de 90% nos custos, reportando a mesma qualidade de saída, segundo um estudo de caso conjunto.

Inception Labs garante uma ronda de financiamento de 50 milhões de dólares

A Inception Labs angariou 50 milhões de dólares em financiamento com apoio do braço de venture da Nvidia e de investidores individuais, Andrew Ng e Andrej Karpathy. A startup foi construída com base em investigação do seu fundador Stefano Ermon, professor na Stanford, que coautorizou algumas das técnicas de difusão baseadas em pontuação que sustentam os geradores de imagem atuais.

A geração paralela permite uma arquitetura de sistema multi-agente

Sistemas complexos de IA são orquestras de ajudantes especializados: um para raciocínio profundo, vários para sumarização rápida, encaminhamento, procura de ferramentas, verificação de saída. Modelos sequenciais tornam essas chamadas de utilidade caras e lentas. Modelos de difusão paralelos tornam-nas baratas e rápidas o suficiente para uso liberal. A Mercury 2 é, por agora, API/nuvem, e o ecossistema completo — runtimes locais, frameworks de agentes — ainda está a acompanhar.

Fluxos de trabalho sensíveis à velocidade beneficiam da abordagem por difusão

Os casos de uso incluem programação em tempo real, em que o modelo acompanha edições, programação multi-agente ou sistemas de suporte onde acontecem muitas subchamadas rápidas, interfaces de voz que não parecem ter atraso e qualquer autocomplete ou previsão do próximo passo sensível à latência. À escala, as poupanças de custo e energia decorrentes de maior produtividade em hardware padrão somam-se rapidamente, segundo a Inception Labs.

FAQ

O que é que a Inception Labs anunciou na quinta-feira?
A Inception Labs apresentou a Mercury 2 na quinta-feira, chamando-lhe o modelo de linguagem de raciocínio mais rápido do mundo. Gera cerca de 1.000 tokens por segundo e obteve 90 no benchmark AIME 2026.

Como é que a Mercury 2 se compara à DiffusionGemma da Google em benchmarks?
A Mercury 2 obteve 90 no AIME 2026, enquanto a DiffusionGemma da Google atingiu 69,1% no mesmo teste. No GPQA, um benchmark científico ao nível de doutoramento, a Mercury 2 alcançou 77% face aos 73,2% da DiffusionGemma.

Que melhorias de custo e latência é que a Augment Code reportou?
A Augment Code trocou a Mercury 2 pela Claude Opus 4,7 da Anthropic no seu subagente de compactação de contexto e viu uma queda de 82% na latência e uma redução de 90% nos custos, reportando a mesma qualidade de saída, segundo um estudo de caso conjunto.

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

4h atrás

A Mercury 2 da Inception Labs atinge 90% no AIME 2026, superando o DiffusionGemma da Google

16h atrás

Tinygrad relata que o GLM 5.2 atinge 120 tokens por segundo numa configuração dupla Blackwell por 150.000 dólares

17h atrás

Zhipu GLM-5,2 lidera o benchmark open-source DeepSWE com 44% de taxa de sucesso, superando modelos fechados de referência

A API Fusion da OpenRouter corresponde ao desempenho do Claude Fable 5 a metade do custo

Oliver Grant06-20 18:08

Fundador da Zhipu, Tang Jie, desafia Musk sobre o calendário da IA na China para corresponder ao Fable

Oliver Grant06-20 04:23

Apenas a procura permanece: 5 altcoins e memecoins a acompanhar antes de o mercado se tornar totalmente bullish

Crypto News Land06-19 23:36

A B2Prime Lança um Assistente de IA na Plataforma B2TRADER para Análise de Mercado

Oliver Grant06-18 19:13

A DeepSeek lança um modo de reconhecimento de imagem após uma ronda de financiamento de 50 mil milhões de yuan

Oliver Grant06-18 10:55

Comentar

0/400

Nenhum comentário