Le modèle à 1 000+ GPU d’Huawei Ascend 910C finalise l’entraînement post-apprentissage du modèle de DeepSeek comptant 1,6 billion de paramètres

Beating a annoncé la réussite de l’entraînement post-formation complet (full-parameter post-training) de DeepSeek-V4-Pro, un modèle de 1,6 billion de paramètres, sur une infrastructure d’IA nationale. Cette annonce émane d’une équipe conjointe de Shenzhen Hetao College, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, Huawei et Deepcity AI. Il s’agit de la première fois qu’une organisation tierce termine un post-formation complet pour un modèle de cette ampleur sur du matériel chinois.

L’équipe a exploité un cluster de plus de 1 000 puces Huawei Ascend 910C pour surmonter les goulets d’étranglement de communication grâce à un équilibrage distribué de charge optimisé. Pendant le processus d’entraînement sur 1 500 étapes, le système a fonctionné sans interruption, atteignant un taux d’utilisation des FLOPs du modèle (MFU) supérieur à 30 % et améliorant l’efficacité des opérateurs clés de 14 %, en répondant à des critères de performance de niveau industriel.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire