DeepSeek V4 é lançado com uma janela de contexto de 1M; chips Huawei Ascend e Cambricon alcançam compatibilidade total

Gate News mensagem, 24 de abril — O DeepSeek V4-Pro e o DeepSeek V4-Flash foram oficialmente lançados e open-source em 24 de abril, com o comprimento de contexto de processamento significativamente expandido de 128K para 1M, representando um aumento de capacidade de quase 10 vezes. A Huawei Computing anunciou que os seus produtos de supernó Ascend suportam totalmente os modelos da série DeepSeek V4 através de uma colaboração estreita entre tecnologias de chips e de modelos.

O Huawei Ascend 950 alcança uma implementação de inferência dos modelos DeepSeek V4 com elevada taxa de transferência e baixa latência através de técnicas de kernel fundido e paralelismo multi-stream para reduzir a sobrecarga de computação de Attention e acessos à memória. Para o DeepSeek V4-Pro com entrada de 8K, o Ascend 950 atinge aproximadamente 20ms de TPOT com 4,700 TPS de throughput Decode por cartão; para o DeepSeek V4-Flash com entrada inferior a 8K, atinge aproximadamente 10ms de TPOT com 1,600 TPS de throughput. A série de supernós Ascend A3 também alcança compatibilidade total, com implementações de referência de treino fornecidas para uma afinação rápida. Com base no supernó Ascend A3 de 64 cartões com modo EP grande, o DeepSeek V4-Flash atinge mais de 2,000 TPS de throughput Decode por cartão em cenários de entrada/saída 8K/1K utilizando o motor de inferência vLLM. As linhas completas de produtos Huawei Ascend A2, A3 e 950 suportam tanto o DeepSeek V4-Flash como o V4-Pro.

A Huawei Cloud anunciou compatibilidade de primeira-mão com o DeepSeek V4, fornecendo aos programadores serviços de token de API com um clique através da sua plataforma MaaS. A Huawei Cloud otimizou as capacidades da camada de sistema, da camada de operadores e da camada de cluster para garantir adaptação rápida do modelo e uma implementação de alto desempenho. Empresas incluindo Kingsoft WPS e 360 já integraram o novo modelo da DeepSeek via a Huawei Cloud.

A Cambricon também anunciou compatibilidade Day 0 com o DeepSeek V4-Flash e o V4-Pro baseada no framework de inferência vLLM, com código de adaptação open-source para a comunidade GitHub. A Cambricon tinha anteriormente alcançado adaptação de primeira-mão quando o DeepSeek V3.2 foi lançado no ano passado, após ter realizado uma optimização profunda de desempenho colaborativa entre software e hardware nos modelos da série DeepSeek.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Sonhos com o Claude da Anthropic: os agentes auto-organizam memórias entre tarefas, eliminam duplicados e contradições

A Anthropic, na conferência Code with Claude, anunciou os Dreams, permitindo que os Claude Managed Agents organizem automaticamente memórias entre múltiplas sessões de conversa, eliminem duplicados e contradições, e atualizem entradas desatualizadas, produzindo uma base de memórias finalizável e auditável; o limite de entrada é de 100 sessões e 4.096 caracteres, com execução assíncrona, concluída entre alguns minutos e algumas dezenas de minutos, e com suporte para observação por streaming. A pré-visualização da investigação requer candidatura; por agora, apenas suporta claude-opus-4-7 e claude-sonnet-4-6, com data de lançamento oficial ainda por definir.

ChainNewsAbmedia1h atrás

A Anthropic negocia com a SpaceX a capacidade de computação: garante Colossus 1 com 22 mil GPUs, e o Claude removeu os limites

A Anthropic anunciou uma parceria de capacidade computacional com a SpaceX para o centro de dados Colossus 1, com planos para utilizar mais de 220 mil GPUs Nvidia e mais de 300MW de capacidade. A implementação deverá ficar concluída no prazo de um mês para ser disponibilizada ao uso da Anthropic, melhorando o desempenho e a experiência do Claude e do Code. Em paralelo, foram alargados os limites de utilização a cada 5 horas para Pro/Max/Team/Enterprise, foi removido o limite durante os picos e foi aumentada a taxa da API do Opus. A expansão das infraestruturas na Ásia e na Europa ocorre em simultâneo, e, no futuro, há ainda intenções para “computação de IA em órbita”, entre outras, embora ainda não haja contratos fechados.

ChainNewsAbmedia2h atrás

Engenheiro da Coinbase: os agentes de IA poderiam perturbar o modelo de publicidade na Web

Erik Reppel, engenheiro da Coinbase, afirmou que os agentes de inteligência artificial poderiam minar fundamentalmente o modelo de negócio da internet, dependente da publicidade. Segundo Reppel, a economia da Web depende fortemente das receitas de publicidade geradas a partir de utilizadores humanos, mas os agentes de IA contornam esse sistema

CryptoFrontier2h atrás

A Anthropic duplica os limites de taxa do Claude Code após garantir uma capacidade de 300 MW num acordo com a SpaceX

Segundo a Odaily, a Anthropic assinou um acordo com a SpaceX para aceder à capacidade total de computação do centro de dados Colossus 1, garantindo mais de 300 megawatts de nova capacidade e mais de 220.000 GPUs NVIDIA no prazo de um mês. A partir do momento, os limites de taxa de cinco horas do Claude Code para Pro,

GateNews2h atrás

A OpenAI publica o protocolo de rede do supercomputador MRC! Em parceria com a Nvidia, a AMD e a Microsoft para criar a infraestrutura base do Stargate

A OpenAI anunciou a MRC, uma proposta de protocolo para uma rede de supercomputação de IA, em colaboração com a AMD, a Microsoft, a NVIDIA e outras entidades, e disponibilizou-a em código aberto na OCP. A MRC divide os dados e envia-os por múltiplos caminhos em simultâneo, evita obstáculos a nível de microssegundos, reduz a congestão e mantém a sincronização da GPU, resolvendo os gargalos de transferência em grandes clusters de treino. As bases já implantadas, como o Stargate em Abilene, no Texas, têm interfaces de 800Gb/s e já foram integradas em treinos reais.

ChainNewsAbmedia3h atrás
Comentar
0/400
Nenhum comentário