De acordo com a Beating, um estudo recente de memória de agentes, conduzido por Dylan Zhang, estudante de doutorado na University of Illinois, descobriu que resumir repetidamente as experiências do modelo pode piorar o desempenho em vez de melhorá-lo. Em tarefas ARC-AGI, o GPT-5.4 alcançou 100% de acurácia em 19 problemas sem memória, mas, após múltiplas rodadas de compressão de memória com base em trajetórias de solução corretas, a acurácia caiu para 54%. Da mesma forma, em tarefas de compras no WebShop, o método de memória AWM registrou 0,64 com 8 trajetórias de especialistas, mas caiu para 0,20 com 128 trajetórias, retornando ao nível de base. A pesquisa sugere que o problema decorre de excesso de sumarização: cada etapa de abstração perde detalhes específicos e mistura regras específicas da tarefa em orientações genéricas, degradando o desempenho do modelo no fim.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
Catalisadores macroeconômicos em alta nesta semana: uma visão geral de CPI até a apreciação do projeto de lei CLARITY
Em meados de maio de 2026, o mercado de criptomoedas está atravessando uma janela macro extremamente rara e sensível. Os dados do CPI dos EUA de abril serão divulgados em 12 de maio, a cúpula China-EUA em Pequim está marcada para ocorrer de 13 a 15 de maio, e o Comitê de Bancos do Senado analisará o projeto de lei CLARITY em 14 de maio (Lei de Mercados de Ativos Digitais). Três eventos independentes, mas altamente interconectados, se concentram e se concretizam em apenas quatro dias, formando um
GateInstantTrends4m atrás
A startup de voz por IA Vapi conclui a $50M Series B liderada pela Peak XV Partners
De acordo com a TechCrunch, a Vapi, uma startup de voz com IA, concluiu uma rodada de financiamento Série B de US$ 50 milhões, liderada pela Peak XV Partners, com uma avaliação pós-money de aproximadamente US$ 500 milhões. A Ring, subsidiária da Amazon, implantou a Vapi para gerenciar 100% de suas chamadas de entrada após avaliar mais de 40 fornecedores de voz com IA, ajudando a impulsionar a rodada de captação.
GateNews33m atrás
NVIDIA e MIT lançam o framework Lightning OPD, aumentando em 4x a eficiência da destilação de modelos enquanto eliminam problemas de memória da GPU
De acordo com reportagens, pesquisadores da NVIDIA e do MIT lançaram o Lightning OPD (Offline On-Policy Distillation), um novo framework de pós-treinamento para grandes modelos de linguagem que elimina a necessidade de manter um modelo professor em execução durante o treinamento. Ao pré-computar, offline, os log-probabilities do modelo professor, o framework melhora a eficiência do treinamento em 4x, enquanto libera todos os recursos de GPU para o treinamento do modelo aluno. Em testes com 8 GPU
GateNews1h atrás
OpenAI amplia o programa de acesso confiável para dezenas de empresas europeias em 12 de maio
De acordo com reportagens de 12 de maio, a OpenAI anunciou planos de expandir seu Programa de Acesso Confiável para dezenas de empresas europeias.
GateNews1h atrás
Transformers de verdade! A Unitree Technology lançou o primeiro veículo robótico do mundo em produção em massa, com preço de US$ 570 mil
A empresa chinesa de robôs Unitree Robotics, com sede em Hangzhou, lançou em 12 de maio seu mais novo produto, o GD01: um mecha humanoide bípede e também com modo de escalada quadrúpede, com troca livre entre as duas configurações, capaz de carregar um humano. Em outras palavras, é como se as cenas dos filmes de ficção científica “Transformers” e “Pacific Rim” tivessem sido trazidas para a vida real. Este lançamento não é apenas uma curiosidade tecnológica, mas também reflete a rápida aceleração
ChainNewsAbmedia2h atrás
Thinking Machines Model Ties GPT-Realtime-2 para o primeiro lugar no benchmark de áudio de hoje, com pontuação de 43,4% de APR
De acordo com o mais recente benchmark Audio MC S2S da Scale Labs divulgado hoje, o modelo TML-Interaction-Small da Thinking Machines alcançou 43,36 pontos, empatando com a OpenAI GPT-Realtime-2 (xHigh) na primeira colocação com uma pontuação de 43,4% de APR. O líder absoluto em pontuação, GPT-Realtime-2 (xHigh), marcou 48,45 pontos, enquanto o TML-Interaction-Small ficou logo atrás com 43,36 pontos; a diferença ficou dentro das margens de erro estatístico, resultando em um empate oficial na pri
GateNews2h atrás