Huawei Ascend 910C Menyelesaikan Pelatihan Lanjutan (post-training) Model DeepSeek dengan 1,6 Triliun Parameter menggunakan 1.000+ GPU

Menurut Beating, sebuah tim gabungan dari Shenzhen Hetao College, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, Huawei, dan Deepcity AI telah mengumumkan selesainya post-training penuh parameter untuk DeepSeek-V4-Pro, model dengan 1,6 triliun parameter, pada infrastruktur AI domestik. Ini menjadi pertama kalinya organisasi pihak ketiga menyelesaikan post-training penuh parameter untuk model dengan skala sebesar itu di perangkat keras Tiongkok.

Tim memanfaatkan klaster yang terdiri dari lebih dari 1.000 chip Huawei Ascend 910C untuk mengatasi hambatan komunikasi melalui load balancing terdistribusi yang dioptimalkan. Selama proses pelatihan 1.500 langkah, sistem beroperasi tanpa gangguan, mencapai tingkat utilisasi FLOPs model (MFU) di atas 30% serta meningkatkan efisiensi operator kunci sebesar 14%, memenuhi standar kinerja kelas industri.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar