NVIDIA Merilis Arsitektur TwoTower sebagai Sumber Terbuka, Mencapai Percepatan Pembuatan Teks 2,42 Kali

Menurut Beating, NVIDIA telah membuka sumber Nemotron-Labs-TwoTower, sebuah arsitektur difusi teks diskrit yang dirancang untuk mempercepat pembuatan teks model bahasa besar. Desain dua menara (dual-tower) memisahkan model autoregresif beku yang mempertahankan kemampuan penalaran dari menara denoising yang dapat dilatih yang menghasilkan teks secara paralel. Hanya menggunakan 1/12 dari data prapelatihan dasar pada model Mamba-Transformer mixture-of-experts dengan 30 miliar parameter, TwoTower mempertahankan 98,7% kualitas dasar sambil meningkatkan kecepatan pembuatan sebesar 2,42 kali tanpa overhead memori tambahan.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar