National University of Singapore dan Nanyang Technological University mengembangkan Mega-ASR sumber terbuka, mengurangi halusinasi dan penghilangan kata dalam ASR di bawah kebisingan ekstrem

Berita ME, 22 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, tim dari Universitas Nasional Singapura, Universitas Nanyang Technological dan Laboratorium Kecerdasan Buatan Shanghai secara bersama-sama merilis model dasar pengenalan suara yang tahan terhadap semua skenario pertama di dunia, Mega-ASR, yang bertujuan mengatasi masalah halusinasi, hilangnya kata, dan output kosong dalam pengenalan suara di lingkungan nyata. Model ini didukung oleh Qwen3-ASR 1.7B sebagai mesin dasarnya, dan menunjukkan peningkatan performa hingga hampir 30% dibandingkan model seperti Whisper, Gemini 3 Pro, dan Seed-ASR dalam lingkungan akustik yang sangat kompleks. Saat ini, proyek ini telah dirilis secara terbuka di GitHub dan seluruh kode serta bobot model dirilis dengan lisensi Apache-2.0. Tim peneliti membangun dataset pelatihan Voices-in-the-wild-2M yang berisi 2,4 juta sampel dengan total durasi 11.000 jam. Dataset ini disintesis melalui pipeline simulasi berdasarkan karakteristik fisik spektrum, yang mencakup tujuh efek akustik atomik seperti reverberasi, gema, noise aditif, jarak jauh, kehilangan frekuensi, pembatasan bandwidth, dan distorsi potong, serta menghasilkan 54 skenario lingkungan gabungan. Untuk memastikan stabilitas pelatihan, tim melakukan kalibrasi distribusi tingkat kesulitan dataset melalui deteksi kelayakan fisik setelah menyaring sampel dengan tingkat kesalahan kata lebih dari 70%. Dalam mekanisme pelatihan, Mega-ASR memperkenalkan fine-tuning supervisi progresif dari akustik ke semantik A2S-SFT, yang secara bertahap menyelaraskan fitur audio untuk meningkatkan kemampuan pemulihan semantik model di bawah gangguan berat. Pada tahap pengoptimalan strategi, model menggunakan strategi pengendalian tingkat kesalahan kata dua granularitas, DG-WGPO, untuk penguatan pembelajaran. Ketika kualitas audio input baik dan tingkat kesalahan kata rendah, sistem lebih fokus pada rekonstruksi detail akustik karakter. Jika audio sangat terdistorsi dan tingkat kesalahan kata tinggi, mekanisme pengambilan keputusan beralih ke rekonstruksi semantik tingkat kalimat, secara signifikan mengurangi halusinasi dan hilangnya kata yang umum terjadi pada model besar. Untuk mengatasi kemungkinan penurunan tingkat pengenalan pada audio bersih, Mega-ASR dilengkapi dengan mekanisme routing dinamis. Pengambil keputusan routing ini dapat secara otomatis menilai kualitas audio saat ini dan secara cerdas memutuskan apakah akan mengaktifkan bobot fine-tuning LoRA, sehingga memastikan model dapat menghasilkan output optimal baik dalam skenario bersih maupun berisik. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • 3
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
NeonIceMelt
· 2jam yang lalu
Apa yang dimaksud dengan lingkungan akustik yang sangat kompleks? Kereta bawah tanah + bar + lokasi konstruksi?
Lihat AsliBalas0
GateUser-1bc81bb2
· 2jam yang lalu
Tim domestik memimpin, apakah gelombang ini termasuk model buatan dalam negeri yang diekspor ke luar negeri atau kerjasama internasional
Lihat AsliBalas0
MistBlueLily
· 3jam yang lalu
Seed-ASR juga dipanggil untuk dikritik keras, Bytedance: ?
Lihat AsliBalas0
ThereIsAChainInTheReflection.
· 3jam yang lalu
Ketahanan di lingkungan nyata adalah hal yang utama, indikator di laboratorium yang terlihat bagus akan runtuh saat diterapkan di dunia nyata
Lihat AsliBalas0
MevInRetrospect
· 3jam yang lalu
2,4 juta sampel 11.000 jam, rekayasa data benar-benar membuat pusing
Lihat AsliBalas0
  • Disematkan