Análise: O conteúdo de código aberto do TileKernels corresponde às especificações da arquitetura V4 de Yifan Zhang

De acordo com o monitoramento realizado pela Dongcha Beating, a biblioteca de kernels TileKernels de código aberto pela DeepSeek corresponde de várias maneiras às especificações da arquitetura V4 divulgadas anteriormente por Yifan Zhang. Zhang afirmou que as conexões residuais V4 usam Hyper-Conexões. A TileKernels de código aberto apresenta o recurso mHC (Hyper-Conexões Constritas por Manifold), que é uma versão aprimorada do HC proposto pela equipe Byte Seed em 2024, abordando o problema de divergência de sinal encontrado durante o treinamento em larga escala com o HC original. O próprio mHC é um tipo de Hyper-Conexões, já que o HC original não suporta treinamento em larga escala de forma estável; portanto, o mHC é provavelmente o que é realmente utilizado na V4. Zhang mencionou que a V4 emprega o Mega-Kernel MoE Fused para gerenciar 384 ativações de especialistas em 6 camadas MoE, enquanto o módulo MoE em TileKernels inclui seleção de especialistas Top-k, mapeamento token-para-especialista, e a distribuição e coleta de especialistas fundidos. TileKernels também contém o kernel Engram, que é um módulo de memória condicional proposto em um artigo da DeepSeek divulgado no início deste ano, mas o Engram não é mencionado nas especificações da V4 de Zhang. A biblioteca suporta SM90 (Hopper) e SM100 (Blackwell), mas não suporta Huawei Ascend. Anteriormente, o The Information relatou que a V4 foi treinada no Blackwell, e a DeepSeek passou meses adaptando o modelo para chips Huawei e Cambricon.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar