A equipa de MIT de Kaiming He lança o modelo de difusão de linguagem ELF com 45 mil milhões de tokens de treino

De acordo com a Beating, a equipa de Kaiming He (MIT) lançou recentemente o ELF (Embedded Language Flows), um modelo de difusão de linguagem que se afasta da abordagem autorregressiva de “prever o token seguinte” usada por modelos do tipo GPT. Em vez disso, o ELF realiza a geração de texto num espaço de embeddings contínuo, convertendo para tokens discretos apenas no passo final.

Nos benchmarks de geração incondicional do OpenWebText, o ELF-B com 105M parâmetros alcançou cerca de 24,1 de perplexidade de geração (Gen. PPL) com amostragem em 32 passos, superando múltiplos modelos base de difusão de linguagem discretos e contínuos. Em particular, o ELF-B necessitou apenas de aproximadamente 45 mil milhões de tokens de treino, cerca de uma ordem de grandeza menos do que métodos comparáveis, que tipicamente excedem 500 mil milhões de tokens.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Andrew Ng: «A IA não vai desencadear uma vaga de desemprego», a contratação em software continua forte

Conhecidos investigadores no domínio da IA e fundador da DeepLearning.AI, Andrew Ng (吳恩達), no dia 12 de maio, publicou no X e no boletim eletrónico The Batch uma afirmação segundo a qual “a IA não vai desencadear uma vaga de desemprego em massa (jobpocalypse)”, contradizendo diretamente a narrativa de pânico sobre o desemprego causado pela IA. De acordo com o post original de Andrew Ng, esta publicação recebeu mais de 2.600 gostos e foi uma das opiniões sobre IA mais comentadas da semana. Princi

ChainNewsAbmedia1h atrás

O supernó de Tian Chi de 256 cartões do chip Kunlun da Baidu será lançado em junho, com uma melhoria de 25% no desempenho

De acordo com a Baidu, a 13 de maio, durante a conferência de programadores Create 2026, a empresa anunciou que o seu supernó Kunlun Chip Tian Chi de 256 cartões será oficialmente lançado em junho, com desempenho de throughput melhorado em 25% face à geração anterior e eficiência de inferência reforçada em 50%. O supernó concluiu a adaptação para modelos de referência, incluindo Wenxin, DeepSeek, GLM e MiniMax, com latência ponta-a-ponta otimizada em 50% através de uma arquitectura de rede HPN 5

GateNews1h atrás

As cotações do IPO da Cerebras acima da banda dos 150-160 dólares, com uma captação de 4,8 mil milhões de dólares na sequência de uma procura massiva

Segundo a Bloomberg, a Cerebras Systems está preparada para fixar o preço do seu IPO acima da faixa de 150-160 dólares dos EUA a 13 de maio de 2026, com a procura pela venda de ações a disparar mais de 20 vezes face às ações disponíveis. A fabricante de chips de IA está a oferecer 30 milhões de ações e conseguiria angariar 4,8 mil milhões de dólares no topo da faixa, tornando-se no maior IPO dos EUA deste ano, excluindo colocações privadas. A empresa reportou um lucro líquido de 87,9 milhões de

GateNews1h atrás

A Meta oferece chatbots de IA concorrentes com acesso gratuito por um mês ao WhatsApp para evitar uma multa de antitrust da UE

De acordo com a Reuters, a Meta ofereceu a concorrentes chatbots de IA no Espaço Económico Europeu (EEE) um mês de acesso gratuito à WhatsApp Business API, como parte de esforços para encerrar uma investigação da UE sobre práticas anticoncorrenciais que poderá resultar em coimas até 10% do volume de negócios anual global. A Comissão Europeia, que em abril indicou que poderá impor acesso depois de a Meta ter restringido o WhatsApp à sua própria IA em janeiro e, em seguida, tê-lo aberto a concorre

GateNews1h atrás

A Xero lança a integração com a Claude a 13 de maio

Segundo a Xero, a empresa lançou uma integração em direto com o Claude da Anthropic no dia 13 de maio, que permite que os subscritores em todo o mundo usem dados da Xero dentro do Claude.ai. A funcionalidade apresenta números em tempo real, como posição de caixa, facturas em atraso, receitas e contas a receber, ao mesmo tempo que liga as respostas de volta aos registos da Xero. A Xero disse que os dados partilhados na integração são usados apenas em cada sessão e não são usados para treinar mode

GateNews1h atrás

METiS TechBio angaria 269,5 milhões de dólares em IPO em Hong Kong a 13 de maio, as ações disparam na estreia

De acordo com o South China Morning Post, a startup de design de fármacos com IA METiS TechBio angariou HK$2,11 mil milhões (US$269,5 milhões) no seu IPO em Hong Kong, a 13 de maio, com as ações a dispararem na estreia num contexto de forte procura por ações relacionadas com IA. A empresa vendeu 201,23 milhões de ações a HK$10,50 (US$1,3) cada. Dezoito investidores âncora, incluindo BlackRock, UBS Asset Management Singapore e Mirae Asset Securities, subscreveram um total de US$148 milhões, com u

GateNews1h atrás
Comentar
0/400
Nenhum comentário