Yifan Zhang Divulga as Especificações Técnicas Completas do DeepSeek V4: 1,6T Parâmetros, 384 Especialistas com 6 Ativações

Mensagem do Gate News, 22 de abril — o estudante de PhD da Princeton, Yifan Zhang, divulgou no X as especificações técnicas completas do DeepSeek V4, após um prévio em 19 de abril. O V4 tem 1,6 trilhão de parâmetros no total e uma variante leve, o V4-Lite, com 285 bilhões de parâmetros.

O modelo emprega o mecanismo de atenção DSA2, que combina a atenção esparsa DSA anterior do DeepSeek (DeepSeek Sparse Attention) da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeçalho de 512 dimensões, pareado com Sparse Multi-Query Attention (MQA) e Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas com 6 ativados por passagem direta, utilizando o Fused MoE Mega-Kernel. As conexões residuais usam a arquitetura Hyper-Connections.

Detalhes de treinamento revelados pela primeira vez incluem o uso do otimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treinamento de 32K tokens e GRPO (Group Relative Policy Optimization) com correção de divergência KL durante o aprendizado por reforço. A janela de contexto final se estende até 1 milhão de tokens. O modelo é apenas texto.

Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Usuários Ativos Mensais do aplicativo Claude disparam 658% para 85,79 milhões em um ano, downloads aumentam 2321%

De acordo com dados do Similarweb monitorados pela Beating, as métricas de ano contra ano do mês de abril do app Claude App mostraram crescimento significativo: os usuários ativos mensais (MAU) aumentaram de 11,31 milhões, há um ano, para 85,79 milhões, um aumento de 658%; as baixas na app store dispararam de 920 mil para 22,3 milhões, um aumento de 2321%.

GateNews10m atrás

O presidente da OpenAI testemunha que Musk buscou controle total e $800B para a colônia em Marte em 5 de maio

De acordo com o depoimento do presidente da OpenAI, Greg Brokman, em 5 de maio, durante a segunda semana do julgamento na Califórnia, Elon Musk já havia apoiado a conversão da OpenAI em uma empresa com fins lucrativos e exigiu controle total da organização. Brokman afirmou que Musk citou a necessidade de levantar US$ 8 bilhões para

GateNews11m atrás

Tessera Labs encerra a Série A liderada pela a16z; equipe de IA com 6 pessoas substitui 60 consultores da SAP

Conforme Beating, a Tessera Labs, empresa de integração de sistemas de IA, concluiu uma rodada de financiamento Série A liderada pela a16z. A startup, fundada em 2024, usa uma plataforma multiagente para automatizar migrações de SAP ECC para S/4HANA, que tradicionalmente exigiam de 3 a 5 anos e de US$ 100 milhões a US$ 500 milhões por

GateNews18m atrás

Solana está construindo trilhas de pagamentos para a economia de máquinas de IA, diz o presidente da Fundação Liu na Consensus 2026

No Consensus Miami 2026, a presidente da Solana Foundation, Lily Liu, defendeu que a adoção de stablecoins por empresas como a Western Union valida o papel da Solana como infraestrutura financeira tanto para as economias humana quanto para as de máquinas.

GateNews58m atrás

Taiwan Index se mantém acima de 40.000 pontos, as bolsas dos EUA batem novas máximas, mas a indústria de IA ainda está apenas no estágio inicial?

Goldman Sachs aponta que a demanda por IA aumentará significativamente o consumo de tokens devido a cargas de trabalho de agentes voltados ao consumo; em 2030, o crescimento pode superar 12 vezes, e o cálculo mensal de tokens pode chegar a 60 trilhões. A diferença entre não agente e consumer agent está na automação de tarefas por longos períodos; se isso se concretizar, a IA entrará em fluxos de trabalho agentic. Larry Fink afirma que a oferta de poder computacional está gravemente escassa e que, no futuro, pode surgir a negociação futura de computação; os dois, juntos, sustentam uma tese de alta para a infraestrutura de IA. O artigo considera que a IA ainda está em uma fase inicial.

ChainNewsAbmedia1h atrás

Nove grandes provedores de nuvem elevam a orientação de Capex para 2026 para US$ 830 bilhões

De acordo com a TrendForce, nove grandes provedores de serviços em nuvem — Google, Amazon Web Services, Meta, Microsoft, Oracle, ByteDance, Tencent, Alibaba e Baidu — elevaram sua orientação combinada de gastos de capital para 2026 para aproximadamente US$ 830 bilhões, impulsionados pela forte demanda por IA. O crescimento ano a ano r

GateNews1h atrás
Comentário
0/400
Sem comentários