DeepSeek V4 est lancé avec une fenêtre de contexte de 1M ; les puces Huawei Ascend et Cambricon atteignent une compatibilité totale

Message de Gate News, 24 avril — DeepSeek V4-Pro et DeepSeek V4-Flash ont été officiellement publiés et open-sourcés le 24 avril, avec une longueur de traitement du contexte considérablement étendue de 128K à 1M, soit une augmentation de capacité d’environ 10 fois. Huawei Computing a annoncé que ses produits de supernœud Ascend prennent entièrement en charge les modèles de la série DeepSeek V4 grâce à une étroite collaboration entre les technologies de puce et de modèle.

Ascend 950 atteint un déploiement d’inférence des modèles DeepSeek V4 à haut débit et faible latence grâce à des techniques de noyaux fusionnés et de parallélisme multi-stream permettant de réduire la surcharge liée aux calculs d’Attention et aux accès mémoire. Pour DeepSeek V4-Pro avec une entrée de 8K, Ascend 950 atteint environ 20ms TPOT avec un débit Decode de 4,700 TPS sur une seule carte ; pour DeepSeek V4-Flash avec une entrée <8K>, il atteint environ 10ms TPOT avec un débit de 1,600 TPS. La série de supernœuds Ascend A3 atteint également une compatibilité totale, avec des implémentations de référence d’entraînement fournies pour un fine-tuning rapide. Sur un supernœud Ascend A3 à 64 cartes avec un grand mode EP, DeepSeek V4-Flash atteint plus de 2,000 TPS en Decode monocarte sur des scénarios entrée/sortie 8K/1K en utilisant le moteur d’inférence vLLM. Les lignes de produits complètes Huawei Ascend A2, A3 et 950 prennent en charge à la fois DeepSeek V4-Flash et V4-Pro.

Huawei Cloud a annoncé une compatibilité en avance avec DeepSeek V4, offrant aux développeurs des services d’API token en un clic via sa plateforme MaaS. Huawei Cloud a optimisé les capacités au niveau système, au niveau opérateur et au niveau cluster pour garantir une adaptation rapide des modèles et un déploiement performant. Des entreprises, dont Kingsoft WPS et 360, ont déjà intégré le nouveau modèle de DeepSeek via Huawei Cloud.

Cambricon a également annoncé une compatibilité Day 0 avec DeepSeek V4-Flash et V4-Pro basée sur le framework d’inférence vLLM, avec un code d’adaptation open-sourcé à la communauté GitHub. Cambricon avait déjà atteint une adaptation en avance lorsque DeepSeek V3.2 a été publié l’an dernier, ayant mené une optimisation approfondie des performances en collaboration logiciel-hardware sur les modèles de la série DeepSeek.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Google et Naver font passer la publicité en direction d’outils de recherche IA ; le chiffre d’affaires de Naver au T1 augmente de 16,3 % à 2,22 milliards de dollars

Selon The Korea Times, Google et Naver déplacent des annonces vers des outils de recherche par IA, tandis que l’IA générative transforme les habitudes de recherche et fait grimper les coûts de calcul. Google signale une ouverture aux publicités dans Gemini, tandis que Naver prévoit de tester des annonces au format « réponse » dans son produit AI Briefing au deuxième trimestre. Naver

GateNewsIl y a 7m

Samsung interrompt les ventes d’appareils électroménagers en Chine pour se recentrer sur l’IA

Samsung Electronics a annoncé le 6 mai qu’elle cessera la vente d’appareils électroménagers dans la Chine continentale, selon le South China Morning Post. Le retrait concerne les téléviseurs, réfrigérateurs, climatiseurs, machines à laver, sèche-linges, aspirateurs et purificateurs d’air, alors que la société réoriente ses priorités stratégiques vers

CryptoFrontierIl y a 7m

Reid Hoffman : les agents d’IA auront besoin de systèmes de confiance crypto

Reid Hoffman, associé chez Greylock et cofondateur de LinkedIn, a déclaré que les agents autonomes auront besoin de systèmes de confiance basés sur la crypto pour effectuer des transactions à travers le réseau ouvert, suggérant que ce développement pourrait permettre un retour en force des NFT. La déclaration de Hoffman relie l’émergence des agents autonomes à la

CryptoFrontierIl y a 7m

SoftBank bondit de 16,5% alors que la hausse des puces d’IA soutient les actions japonaises le 7 mai

D’après CNBC, SoftBank Group a progressé de 16,5 % le 7 mai après la réouverture des marchés japonais, suite à la pause de la Golden Week. Les gains sont intervenus alors que les investisseurs se sont portés vers une hausse mondiale des valeurs liées à l’IA et aux puces, ce qui a propulsé le Nikkei 225 vers un niveau record. Advantest a grimpé de 7,8 %, Tokyo Electron a gagné 9,2 %, et Renesas

GateNewsIl y a 27m

Le PDG d’Anthropic l’a confirmé en personne : la croissance de 80 fois au T1, et pourquoi il faut s’emparer de toute la puissance de calcul de SpaceX

Le PDG d’Anthropic, Dario Amodei, a déclaré lors de la conférence Code with Claude que, pour le T1, les revenus annualisés et l’utilisation étaient prévus avec une croissance de 10 fois, mais qu’ils ont finalement augmenté de 80 fois ; il a qualifié cela de « fou, trop difficile à gérer », tout en indiquant qu’il accélérerait la mise à disposition de davantage de puissance de calcul et qu’il assouplirait les limites imposées aux utilisateurs. Le même jour, il a également annoncé avoir obtenu l’intégralité de la puissance de calcul de SpaceX Colossus 1 (environ 300+ MW, 220 000 GPU NVIDIA), avec une mise en ligne prévue dans un délai d’un mois, afin de fournir un contexte commercial à cette croissance. Aucun montant précis n’a encore été communiqué, les prochains résultats financiers devant confirmer le multiple.

ChainNewsAbmediaIl y a 33m

a16z lance un fonds crypto de 2,2 milliards de dollars (cinquième édition), en tant que principal investisseur dans trois nouvelles startups d’IA

Selon l’annonce d’a16z (Andreessen Horowitz) du 5 mai, la société de capital-risque a officiellement lancé le cinquième fonds dédié aux crypto-monnaies « Crypto Fund 5 », avec une levée de fonds de 2,2 milliards de dollars. Dans le même temps, a16z a annoncé avoir mené le financement des entreprises d’intégration d’IA Tessera Labs, de la plateforme de recrutement en IA Ethos et de la plateforme de création d’IA Glif.

MarketWhisperIl y a 1h
Commentaire
0/400
Aucun commentaire