De acordo com a monitorização do Beating, o Google lançou e open-soube um rascunho do modelo de previsão de múltiplos tokens (MTP) da série Gemma 4. Este é um modelo auxiliar leve que utiliza uma arquitetura de decodificação especulativa, capaz de acelerar a inferência até 3 vezes, mantendo a qualidade de saída e a capacidade de raciocínio lógico, enquanto o modelo principal mantém o peso de validação final.

Modelos de linguagem grande padrão geram apenas um token por vez, sendo facilmente limitados pelo gargalo de largura de banda da memória de vídeo, o que causa ociosidade computacional. A solução MTP permite que o modelo de rascunho leve utilize a capacidade ociosa de cálculo para prever antecipadamente múltiplos tokens futuros de uma só vez, que são então validados em paralelo pelo modelo alvo pesado, como o de 31B. Se o modelo alvo concordar com o rascunho, ele receberá toda a sequência de uma só vez. Para aumentar ainda mais a eficiência, o modelo de rascunho compartilha diretamente o estado de ativação e o cache KV do modelo alvo (que armazena o contexto histórico para evitar cálculos repetidos); para os modelos E2B e E4B na ponta, a equipe também introduziu técnicas de agrupamento na camada de embedding.

Atualmente, o modelo MTP foi totalmente open-soube sob a mesma licença Apache 2.0 do Gemma 4, e suporta nativamente frameworks de inferência populares como vLLM, SGLang e Ollama. Essa otimização de velocidade reduz significativamente a barreira de entrada, permitindo que desenvolvedores executem fluentemente modelos de 26B MoE e 31B densos em GPUs de consumo comum, além de suportar interações de IA em tempo real em dispositivos móveis com menor consumo de energia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

As ações da Hut 8 disparam 30% no pré-mercado após assinar um acordo de concessão de centro de dados de IA no valor de 9,8 mil milhões de dólares

Ações Notícias da indústria de IA

De acordo com a The Block, as ações da Hut 8 Corp. dispararam mais de 30% nas operações pré-mercado depois de a empresa ter assinado um acordo de arrendamento de 9,8 mil milhões de dólares para um campus de centro de dados de inteligência artificial no condado de Nueces, Texas, concebido para a arquitetura de computação da NVIDIA. O inquilino não identificado irá usar o

GateNews5m atrás

CleanSpark CTO: A infraestrutura de IA/HPC exige mais recursos de rede do que a mineração de Bitcoin

bitcoin news Notícias da indústria de IA

De acordo com uma entrevista da CoinDesk, o Chief Technology Officer (CTO) da CleanSpark, Taylor Monnig, afirmou que a transição da mineração de Bitcoin para infraestruturas de IA/HPC exige mais redundância e menos improvisação. «A fibra de rede de um único rack excede a de toda uma instalação de mineração de Bitcoin», Monnig

GateNews10m atrás

Aquisição Pública de plataforma de investimento em IA pela Treasury App

Parcerias e ecossistema Ações Notícias da indústria de IA

De acordo com a Foresight News, a aplicação de investimentos Public anunciou a aquisição da plataforma de investimentos Treasury App, alimentada por IA, a 6 de maio. O montante da aquisição não foi divulgado. O acordo visa reforçar as operações de corretagem do Public orientadas por IA, que atualmente suporta ações, obrigações e

GateNews50m atrás

MiroMind interrompe o serviço MiroThinker na Grande China a partir de 12 de maio

Notícias da indústria de IA

De acordo com a BlockBeats, a MiroMind, empresa de investigação em IA fundada pelo fundador do Grupo Shanda, Chen Tianqiao, vai suspender o seu serviço MiroThinker (nas versões web e de aplicação móvel) na China continental, Hong Kong e Macau a partir de 12 de maio de 2026. A data de suspensão e o calendário de retoma foram anunciados através de

GateNews1h atrás

ChatGPT disponibiliza ficheiros Excel e Google Sheets: GPT-5,5 inicia sessão diretamente na folha de cálculo, confronto entre Copilot e Gemini

Notícias da indústria de IA

A OpenAI lançou o ChatGPT for Excel e o ChatGPT for Google Sheets, extensões que usam o motor GPT-5.5, tendo como base o conceito de explicar enquanto faz. As funcionalidades incluem análise, escrita automática de fórmulas, atualização de folhas de cálculo e explicações passo a passo do processo de raciocínio, permitindo que os utilizadores tratem e compreendam diretamente tudo dentro da folha de cálculo. Em concorrência a três com a Copilot e a Gemini, este lançamento marca uma nova fase para a IA de produtividade nas empresas; os utilizadores em Taiwan precisam de instalar através da AppSource/Workspace Marketplace e devem ter em atenção a privacidade dos dados e a necessidade de subscrever o ChatGPT Plus.

ChainNewsAbmedia2h atrás

O Google Chrome descarrega silenciosamente um modelo de IA de 4GB a 6 de maio sem consentimento do utilizador

Notícias da indústria de IA

De acordo com a Tom’s Hardware, o investigador de segurança Alexander Hanff revelou que o Google Chrome descarrega silenciosamente cerca de 4GB do ficheiro de modelo de IA “weights.bin” para dispositivos elegíveis a 6 de maio, sem notificação explícita ao utilizador nem consentimento. O ficheiro, baseado no Gemini Nano, dá energia às funcionalidades locais de IA

GateNews2h atrás

Comentar

0/400

Nenhum comentário