Dados de Treinamento da DeepSeek V4 Dobrados para 33T, Disparando Instabilidade que Atrasou o Lançamento

Mensagem da Gate News, 24 de abril — O relatório técnico da DeepSeek sobre a V4 revela que a V4-Flash e a V4-Pro foram pré-treinadas, respectivamente, com 32T e 33T tokens, dobrando os aproximadamente 15T tokens usados para a V3. O relatório reconhece que encontrou “desafios significativos de instabilidade” durante o treinamento, com picos de perda ocorrendo repetidamente devido a anomalias na camada (Mixture-of-Experts )MoE(; o próprio mecanismo de roteamento agrava essas anomalias, e um simples rollback não consegue resolver o problema.

A DeepSeek implementou duas soluções agora aplicadas ao treinamento real: Roteamento Antecipatório, que desacopla o cálculo do índice de roteamento das atualizações da rede backbone e dispara automaticamente apenas quando picos de perda são detectados )adicionando aproximadamente 20% de sobrecarga, e Amortecimento de SwiGLU, que suprime diretamente as anomalias ao limitar os valores de ativação a uma faixa fixa. O relatório afirma que ambas as abordagens são eficazes, mas admite que “os princípios subjacentes ainda não são compreendidos de forma suficiente”.

Susan Zhang, pesquisadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade desencadeada pelo aumento do volume de dados de treinamento em dobro “explica o atraso”. Ela descreveu as duas soluções como “band-aids”, ao mesmo tempo em que reconheceu a transparência técnica da DeepSeek.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Cloudflare: agentes de IA impulsionam tráfego não humano; x402 oferece solução

O diretor de estratégia da Cloudflare afirmou que mais da metade do tráfego da internet agora é não humano, destacando uma mudança significativa nos padrões de uso da web impulsionada por agentes de IA e sistemas automatizados. O executivo sugeriu que a Fundação x402 está construindo infraestrutura para enfrentar os desafios

CryptoFrontier1h atrás

IREN adquire a Mirantis por $625M em um acordo 100% em ações para expandir a plataforma de nuvem de IA

Segundo a BlockBeats, a IREN Limited concordou em adquirir a empresa de software de infraestrutura em nuvem Mirantis por aproximadamente US$ 625 milhões em uma transação integralmente em ações em 5 de maio. A aquisição visa fortalecer as capacidades de nuvem com IA da IREN ao introduzir recursos de software e orquestração para

GateNews7h atrás

CEO da Anthropic: EUA analisam processo simplificado de lançamento de modelos de IA, concorrentes de 1 a 3 meses atrás

De acordo com 金十, o CEO da Anthropic revelou em 5 de maio que o governo dos EUA parece estar considerando simplificar o processo de liberação de modelos de inteligência artificial. O CEO observou que as capacidades de outros grandes laboratórios de IA podem ficar atrás da Anthropic em um a três

GateNews8h atrás

A equipe do SGLang conclui uma rodada de captação de sementes $100M , a uma avaliação $400M , com a Accel na liderança

De acordo com Beating, a equipe por trás do mecanismo de inferência de código aberto SGLang estabeleceu formalmente a RadixArk e concluiu uma rodada de captação seed de US$ 100 milhões a uma avaliação pós-money de US$ 400 milhões. A Accel liderou a rodada, com a Spark Capital como investidora co-líder. Concorrentes de semicondutores da Nvidia (via

GateNews8h atrás

OpenAI concede 8.000 desenvolvedores um aumento de 10x no limite de taxa do Codex até 5 de junho

De acordo com Beating, a OpenAI enviou e-mails para mais de 8.000 desenvolvedores que se inscreveram no evento offline do GPT-5.5 em São Francisco, concedendo a eles um aumento de 10x nos limites de taxa do Codex, em vigor imediatamente até 5 de junho. Todos os candidatos recebem o prêmio, independentemente de terem recebido um convite para o evento

GateNews8h atrás

Joint venture da OpenAI com a Anthropic em conversas para adquirir três empresas de serviços de IA em 5 de maio

De acordo com Jin 10, a joint venture da OpenAI com a Anthropic está em negociações para adquirir três empresas de serviços de IA em 5 de maio. As empresas visadas, segundo relatos, incluem firmas com foco em engenharia nos serviços de IA

GateNews8h atrás
Comentário
0/400
Sem comentários