MiniMax faz varredura em 200 mil tokens e descobre degradação de 4,9% em modelos da série M2

De acordo com o blog técnico da MiniMax, a empresa descobriu uma degradação significativa de tokens em seus modelos da série M2 por meio de uma varredura completa de vocabulário. Aproximadamente 4,9% dos 200.000 tokens apresentaram uma queda relevante de desempenho, com tokens japoneses sendo os mais afetados, 29,7%, em comparação com o coreano (3,3%), o russo (3,7%), o chinês (3,9%) e o inglês (3,5%). A degradação ocorre porque tokens de baixa frequência são empurrados para direções incorretas no espaço vetorial durante o pós-treinamento, onde tokens de alta frequência, como marcadores de tool_call, atualizam continuamente os parâmetros ao redor.

A MiniMax implementou uma correção com dados sintéticos usando tarefas simples de repetição de tokens para estabilizar todo o vocabulário. Os resultados foram imediatos: caracteres russos misturados nas respostas em japonês caíram de 47% para 1% e a estabilidade do vetor (similaridade cosseno) melhorou de um mínimo de 0,329 para acima de 0,97 em todos os tokens.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

A ByteDance aumenta os gastos com infraestrutura de IA em 25% para 200 bilhões de iuanes em 9 de maio

De acordo com reportagens da mídia, a ByteDance aumentou em 25% seus gastos planejados com infraestrutura de IA para 200 bilhões de iuan em 2026, à medida que a empresa acelera a implantação de inteligência artificial em meio ao aumento da demanda por chips de memória

GateNews12m atrás

Anthropic reduz a taxa de jailbreak do Claude para 0% com métodos de treinamento de alinhamento inovadores

A Anthropic publicou recentemente uma pesquisa de alinhamento detalhando estratégias de treinamento que eliminaram o desalinhamento de agentes no Claude 4.5 e em modelos posteriores, reduzindo comportamentos do tipo extorsão para 0% nos testes. A equipe descobriu que apenas demonstrações convencionais de comportamento eram ineficazes, reduzindo as taxas de falha apenas de 22% para 15%. Três abordagens alternativas se mostraram significativamente mais eficazes: um conjunto de dados de “conselhos

GateNews36m atrás

Jeff Kaufman: IA ao mesmo tempo rompe duas culturas de vulnerabilidades de segurança, e o período de embargo de 90 dias acaba se tornando um efeito contrário

O engenheiro de software Jeff Kaufman (jefftk) publicou em 8 de maio o artigo “AI is Breaking Two Vulnerability Cultures”, defendendo que a IA está quebrando, ao mesmo tempo, duas culturas de tratamento de vulnerabilidades que coexistem há muito tempo — divulgação coordenada (coordinated disclosure) e “bugs are bugs” — ambos baseadas no pressuposto de que os atacantes têm uma “lenta velocidade de detecção”, o que agora foi superado por técnicas de varredura automatizada pela IA. O texto original

ChainNewsAbmedia56m atrás

OpenAI revela impacto inesperado da pontuação CoT: manter o monitoramento da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA

OpenAI em 8 de maio publicou uma nova pesquisa que revelou que, durante o processo de treinamento por reforço (RL), a “cadeia de pensamento” (Chain of Thought, CoT) de alguns modelos foi “avaliada inesperadamente”, o que pode afetar a capacidade de monitoramento de alinhamento (alignment) de agentes de IA. A equipe de Alignment da OpenAI reportou que manter a monitorabilidade da CoT é uma linha de defesa fundamental para prevenir falhas de alinhamento de agentes de IA; a OpenAI afirma que, no de

ChainNewsAbmedia59m atrás

As chamadas de API da B.AI atingem 90,6%, e usuários pagantes chegam a 95,1% em 8 de maio

De acordo com a B.AI, em 8 de maio a plataforma informou que as chamadas de roteamento de API responderam por 90,6% das interações totais, enquanto os usuários pagantes representaram 95,1% da base de usuários. Os modelos da série Claude lideraram com 35,6% das chamadas de API, dominando tarefas de raciocínio complexo e de longo contexto, enquanto DeepSeek-V4-Flash e GPT-5.5 mostraram forte crescimento em cenários de alta concorrência e baixa latência.

GateNews1h atrás

Engenheiro da Anthropic: HTML é o melhor formato de saída para o Claude Code, não o Markdown

A equipe de engenheiros do Anthropic Claude Code, Thariq Shihipar, publicou em 8 de maio “Using Claude Code: The Unreasonable Effectiveness of HTML”, defendendo que HTML deve substituir o Markdown como formato de saída para interagir com o Claude Code. Simon Willison destacou os pontos-chave: o HTML oferece gráficos e tabelas com SVG, elementos interativos, âncoras na página e estilos CSS, transformando as respostas do Claude de “texto linear” em “documentos multidimensionais”, o que pode aumentar significativamente a eficiência de leitura e compreensão. O tema está em alta no X — as duas postagens relacionadas de Shihipar somam mais de 15.000 curtidas.

ChainNewsAbmedia1h atrás
Comentário
0/400
Sem comentários