Menurut Beating, sebuah tim gabungan dari Shenzhen Hetao College, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, Huawei, dan Deepcity AI telah mengumumkan selesainya post-training penuh parameter untuk DeepSeek-V4-Pro, model dengan 1,6 triliun parameter, pada infrastruktur AI domestik. Ini menjadi pertama kalinya organisasi pihak ketiga menyelesaikan post-training penuh parameter untuk model dengan skala sebesar itu di perangkat keras Tiongkok.
Tim memanfaatkan klaster yang terdiri dari lebih dari 1.000 chip Huawei Ascend 910C untuk mengatasi hambatan komunikasi melalui load balancing terdistribusi yang dioptimalkan. Selama proses pelatihan 1.500 langkah, sistem beroperasi tanpa gangguan, mencapai tingkat utilisasi FLOPs model (MFU) di atas 30% serta meningkatkan efisiensi operator kunci sebesar 14%, memenuhi standar kinerja kelas industri.