Os dados de treino do DeepSeek V4 duplicaram para 33T, despoletando instabilidade que atrasou o lançamento

Mensagem de Gate News, 24 de abril — O relatório técnico V4 da DeepSeek revela que o V4-Flash e o V4-Pro foram pré-treinados em 32T e 33T tokens, respetivamente, o dobro dos aproximadamente 15T tokens usados para o V3. O relatório reconhece ter encontrado “desafios significativos de instabilidade” durante o treino, com picos de perda a ocorrer repetidamente devido a anomalias na camada Mixture-of-Experts (MoE); o mecanismo de routing em si agrava estas anomalias, e um simples rollback não consegue resolver o problema.

DeepSeek implementou duas soluções agora aplicadas ao treino real: Routing Antecipatório, que desacopla o cálculo do índice de routing das atualizações da rede backbone e ativa automaticamente apenas quando são detetados picos de perda (adicionando aproximadamente 20% de sobrecarga), e SwiGLU Clamping, que suprime diretamente as anomalias ao limitar os valores de ativação a um intervalo fixo. O relatório afirma que as duas abordagens são eficazes, mas admite que “os princípios subjacentes permanecem insuficientemente compreendidos.”

Susan Zhang, uma investigadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade despoletada pelo dobro dos dados de treino “explica o atraso”. Ela descreveu as duas soluções como “band-aids” enquanto reconhecia a transparência técnica da DeepSeek.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

IREN adquire a Mirantis por $625M num acordo integral em ações para expandir a plataforma de cloud de IA

De acordo com a BlockBeats, a IREN Limited acordou adquirir a empresa de software de infraestruturas cloud Mirantis por aproximadamente 625 milhões de dólares, numa transação integralmente em ações, a 5 de maio. A aquisição visa reforçar as capacidades de cloud com IA da IREN, introduzindo capacidades de software e orquestração para

GateNews3h atrás

CEO da Anthropic: os EUA estão a considerar um processo simplificado de lançamento de modelos de IA, enquanto os concorrentes estão 1-3 meses atrasados

De acordo com 金十, o CEO da Anthropic revelou a 5 de maio que o governo dos EUA parece estar a considerar simplificar o processo de divulgação de modelos de inteligência artificial. O CEO indicou que as capacidades de outros grandes laboratórios de IA podem ficar atrás da Anthropic em um a três

GateNews3h atrás

A equipa da SGLang conclui a $100M ronda de financiamento-semente$400M com avaliação, com a Accel na liderança

De acordo com Beating, a equipa por detrás do motor de inferência open-source SGLang estabeleceu formalmente a RadixArk e concluiu uma ronda de investimento de seed no valor de 100 milhões de dólares, a uma avaliação pós-money de 400 milhões de dólares. A Accel liderou a ronda, com a Spark Capital como investidora co-líder. Concorrentes no setor de semicondutores da Nvidia (via

GateNews3h atrás

A OpenAI concede 8.000 programadores um aumento de 10x do limite de taxa do Codex até 5 de junho

De acordo com Beating, a OpenAI enviou e-mails a mais de 8.000 programadores que se inscreveram para o evento offline do GPT-5.5 em São Francisco, concedendo-lhes um aumento de 10x nos limites de taxa do Codex com efeitos imediatos até 5 de junho. Todos os candidatos recebem o prémio, independentemente de terem recebido um evento

GateNews4h atrás

Joint Venture da OpenAI com a Anthropic em negociações para adquirir três empresas de serviços de IA a 5 de maio

Segundo Jin 10, o empreendimento conjunto da OpenAI com a Anthropic está em negociações para adquirir três empresas de serviços de IA a 5 de maio. As empresas visadas incluem, segundo é noticiado, empresas focadas em engenharia nos serviços de IA

GateNews4h atrás

A Anthropic lança dez agentes de IA para serviços financeiros na terça-feira

A Anthropic lançou na terça-feira dez novos agentes de IA concebidos para lidar com tarefas de serviços financeiros, incluindo a elaboração de apresentações para reuniões com clientes, a revisão de demonstrações financeiras e a escalada de casos para revisão de conformidade. As ferramentas visam profissionais nos setores bancário, de seguros, gestão de ativos e fintech.

GateNews4h atrás
Comentar
0/400
Nenhum comentário