Beating a annoncé la réussite de l’entraînement post-formation complet (full-parameter post-training) de DeepSeek-V4-Pro, un modèle de 1,6 billion de paramètres, sur une infrastructure d’IA nationale. Cette annonce émane d’une équipe conjointe de Shenzhen Hetao College, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, Huawei et Deepcity AI. Il s’agit de la première fois qu’une organisation tierce termine un post-formation complet pour un modèle de cette ampleur sur du matériel chinois.
L’équipe a exploité un cluster de plus de 1 000 puces Huawei Ascend 910C pour surmonter les goulets d’étranglement de communication grâce à un équilibrage distribué de charge optimisé. Pendant le processus d’entraînement sur 1 500 étapes, le système a fonctionné sans interruption, atteignant un taux d’utilisation des FLOPs du modèle (MFU) supérieur à 30 % et améliorant l’efficacité des opérateurs clés de 14 %, en répondant à des critères de performance de niveau industriel.