Tilde Research Menemukan Muon Optimizer Mematikan 25% Neuron; Alternatif Aurora Mencapai Kenaikan Efisiensi Data 100x

Menurut Tilde Research, pengoptimal Muon yang diadopsi oleh model AI terkemuka termasuk DeepSeek V4 dan Kimi K2.5 memiliki cacat tersembunyi: ia menyebabkan lebih dari 25% neuron pada lapisan MLP mati secara permanen selama pelatihan awal. Tim merancang Aurora, pengoptimal alternatif, dan memublikasikannya secara open-source. Model berparameter 1,1 miliar yang dilatih hanya dengan 100 miliar token menyamai kinerja Qwen3-1,7 miliar yang dilatih dengan 36 triliun token pada tolok ukur pemahaman bahasa seperti HellaSwag dan Winogrande, yang menunjukkan peningkatan efisiensi data sekitar 100x. Aurora menambahkan overhead komputasi 6% dibanding Muon dan dapat menjadi pengganti langsung.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar