Kecepatan tertinggi 3 kali lipat dan tanpa kerugian, model decoding spekulatif MTP dari seluruh rangkaian Gemma4 open source Google

Menurut pemantauan Beating, Google merilis dan membuka sumber model draft prediksi multi-token (MTP) dari seri Gemma 4.
Ini adalah model bantu ringan yang menggunakan arsitektur decoding spekulatif, mampu mempercepat inferensi hingga 3 kali lipat dengan tetap mempertahankan bobot verifikasi akhir dari model utama, tanpa mengurangi kualitas output dan kemampuan penalaran logis.

Model bahasa besar standar hanya dapat menghasilkan satu token setiap kali, mudah dibatasi oleh bandwidth memori GPU dan menyebabkan inefisiensi komputasi.
Solusi MTP memungkinkan model draft ringan memanfaatkan kapasitas komputasi yang tidak terpakai, memprediksi beberapa token masa depan secara sekaligus sebelumnya, kemudian diverifikasi secara paralel oleh model target berat seperti 31B.
Jika model target menyetujui draft tersebut, maka seluruh rangkaian akan diterima sekaligus.
Untuk meningkatkan efisiensi, model draft langsung berbagi status aktivasi dan cache KV dari model target (menyimpan konteks historis untuk menghindari perhitungan berulang);
untuk model E2B dan E4B di sisi perangkat, tim juga memperkenalkan teknik klasterisasi di lapisan embedding.

Saat ini, model MTP telah dirilis secara lengkap dengan lisensi Apache 2.0 yang sama dengan Gemma 4, dan secara native mendukung kerangka inferensi utama seperti vLLM, SGLang, dan Ollama.
Optimasi peningkatan kecepatan ini secara signifikan menurunkan hambatan penggunaan, memungkinkan pengembang menjalankan model 26B MoE dan 31B dense secara lancar pada GPU konsumen biasa, serta mendukung interaksi AI waktu nyata dengan konsumsi daya yang lebih rendah di perangkat mobile.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan