De acordo com a monitorização do Beating, o Google lançou e open-soube um rascunho do modelo de previsão de múltiplos tokens (MTP) da série Gemma 4. Este é um modelo auxiliar leve que utiliza uma arquitetura de decodificação especulativa, capaz de acelerar a inferência até 3 vezes, mantendo a qualidade de saída e a capacidade de raciocínio lógico, enquanto o modelo principal mantém o peso de validação final.
Modelos de linguagem grande padrão geram apenas um token por vez, sendo facilmente limitados pelo gargalo de largura de banda da memória de vídeo, o que causa ociosidade computacional. A solução MTP permite que o modelo de rascunho leve utilize a capacidade ociosa de cálculo para prever antecipadamente múltiplos tokens futuros de uma só vez, que são então validados em paralelo pelo modelo alvo pesado, como o de 31B. Se o modelo alvo concordar com o rascunho, ele receberá toda a sequência de uma só vez. Para aumentar ainda mais a eficiência, o modelo de rascunho compartilha diretamente o estado de ativação e o cache KV do modelo alvo (que armazena o contexto histórico para evitar cálculos repetidos); para os modelos E2B e E4B na ponta, a equipe também introduziu técnicas de agrupamento na camada de embedding.
Atualmente, o modelo MTP foi totalmente open-soube sob a mesma licença Apache 2.0 do Gemma 4, e suporta nativamente frameworks de inferência populares como vLLM, SGLang e Ollama. Essa otimização de velocidade reduz significativamente a barreira de entrada, permitindo que desenvolvedores executem fluentemente modelos de 26B MoE e 31B densos em GPUs de consumo comum, além de suportar interações de IA em tempo real em dispositivos móveis com menor consumo de energia.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
As ações da Hut 8 disparam 30% no pré-mercado após assinar um acordo de concessão de centro de dados de IA no valor de 9,8 mil milhões de dólares
De acordo com a The Block, as ações da Hut 8 Corp. dispararam mais de 30% nas operações pré-mercado depois de a empresa ter assinado um acordo de arrendamento de 9,8 mil milhões de dólares para um campus de centro de dados de inteligência artificial no condado de Nueces, Texas, concebido para a arquitetura de computação da NVIDIA. O inquilino não identificado irá usar o
GateNews5m atrás
CleanSpark CTO: A infraestrutura de IA/HPC exige mais recursos de rede do que a mineração de Bitcoin
De acordo com uma entrevista da CoinDesk, o Chief Technology Officer (CTO) da CleanSpark, Taylor Monnig, afirmou que a transição da mineração de Bitcoin para infraestruturas de IA/HPC exige mais redundância e menos improvisação. «A fibra de rede de um único rack excede a de toda uma instalação de mineração de Bitcoin», Monnig
GateNews10m atrás
Aquisição Pública de plataforma de investimento em IA pela Treasury App
De acordo com a Foresight News, a aplicação de investimentos Public anunciou a aquisição da plataforma de investimentos Treasury App, alimentada por IA, a 6 de maio. O montante da aquisição não foi divulgado. O acordo visa reforçar as operações de corretagem do Public orientadas por IA, que atualmente suporta ações, obrigações e
GateNews50m atrás
MiroMind interrompe o serviço MiroThinker na Grande China a partir de 12 de maio
De acordo com a BlockBeats, a MiroMind, empresa de investigação em IA fundada pelo fundador do Grupo Shanda, Chen Tianqiao, vai suspender o seu serviço MiroThinker (nas versões web e de aplicação móvel) na China continental, Hong Kong e Macau a partir de 12 de maio de 2026. A data de suspensão e o calendário de retoma foram anunciados através de
GateNews1h atrás
ChatGPT disponibiliza ficheiros Excel e Google Sheets: GPT-5,5 inicia sessão diretamente na folha de cálculo, confronto entre Copilot e Gemini
A OpenAI lançou o ChatGPT for Excel e o ChatGPT for Google Sheets, extensões que usam o motor GPT-5.5, tendo como base o conceito de explicar enquanto faz. As funcionalidades incluem análise, escrita automática de fórmulas, atualização de folhas de cálculo e explicações passo a passo do processo de raciocínio, permitindo que os utilizadores tratem e compreendam diretamente tudo dentro da folha de cálculo. Em concorrência a três com a Copilot e a Gemini, este lançamento marca uma nova fase para a IA de produtividade nas empresas; os utilizadores em Taiwan precisam de instalar através da AppSource/Workspace Marketplace e devem ter em atenção a privacidade dos dados e a necessidade de subscrever o ChatGPT Plus.
ChainNewsAbmedia2h atrás
O Google Chrome descarrega silenciosamente um modelo de IA de 4GB a 6 de maio sem consentimento do utilizador
De acordo com a Tom’s Hardware, o investigador de segurança Alexander Hanff revelou que o Google Chrome descarrega silenciosamente cerca de 4GB do ficheiro de modelo de IA “weights.bin” para dispositivos elegíveis a 6 de maio, sem notificação explícita ao utilizador nem consentimento. O ficheiro, baseado no Gemini Nano, dá energia às funcionalidades locais de IA
GateNews2h atrás