Berita ME, 22 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, tim dari Universitas Nasional Singapura, Universitas Nanyang Technological dan Laboratorium Kecerdasan Buatan Shanghai secara bersama-sama merilis model dasar pengenalan suara yang tahan terhadap semua skenario pertama di dunia, Mega-ASR, yang bertujuan mengatasi masalah halusinasi, hilangnya kata, dan output kosong dalam pengenalan suara di lingkungan nyata. Model ini didukung oleh Qwen3-ASR 1.7B sebagai mesin dasarnya, dan menunjukkan peningkatan performa hingga hampir 30% dibandingkan model seperti Whisper, Gemini 3 Pro, dan Seed-ASR dalam lingkungan akustik yang sangat kompleks. Saat ini, proyek ini telah dirilis secara terbuka di GitHub dan seluruh kode serta bobot model dirilis dengan lisensi Apache-2.0. Tim peneliti membangun dataset pelatihan Voices-in-the-wild-2M yang berisi 2,4 juta sampel dengan total durasi 11.000 jam. Dataset ini disintesis melalui pipeline simulasi berdasarkan karakteristik fisik spektrum, yang mencakup tujuh efek akustik atomik seperti reverberasi, gema, noise aditif, jarak jauh, kehilangan frekuensi, pembatasan bandwidth, dan distorsi potong, serta menghasilkan 54 skenario lingkungan gabungan. Untuk memastikan stabilitas pelatihan, tim melakukan kalibrasi distribusi tingkat kesulitan dataset melalui deteksi kelayakan fisik setelah menyaring sampel dengan tingkat kesalahan kata lebih dari 70%. Dalam mekanisme pelatihan, Mega-ASR memperkenalkan fine-tuning supervisi progresif dari akustik ke semantik A2S-SFT, yang secara bertahap menyelaraskan fitur audio untuk meningkatkan kemampuan pemulihan semantik model di bawah gangguan berat. Pada tahap pengoptimalan strategi, model menggunakan strategi pengendalian tingkat kesalahan kata dua granularitas, DG-WGPO, untuk penguatan pembelajaran. Ketika kualitas audio input baik dan tingkat kesalahan kata rendah, sistem lebih fokus pada rekonstruksi detail akustik karakter. Jika audio sangat terdistorsi dan tingkat kesalahan kata tinggi, mekanisme pengambilan keputusan beralih ke rekonstruksi semantik tingkat kalimat, secara signifikan mengurangi halusinasi dan hilangnya kata yang umum terjadi pada model besar. Untuk mengatasi kemungkinan penurunan tingkat pengenalan pada audio bersih, Mega-ASR dilengkapi dengan mekanisme routing dinamis. Pengambil keputusan routing ini dapat secara otomatis menilai kualitas audio saat ini dan secara cerdas memutuskan apakah akan mengaktifkan bobot fine-tuning LoRA, sehingga memastikan model dapat menghasilkan output optimal baik dalam skenario bersih maupun berisik. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

9 Suka

Hadiah
9
5
3
Bagikan

Komentar

Tambahkan komentar

NeonIceMelt

· 2jam yang lalu

Apa yang dimaksud dengan lingkungan akustik yang sangat kompleks? Kereta bawah tanah + bar + lokasi konstruksi?

Lihat AsliBalas0

GateUser-1bc81bb2

· 2jam yang lalu

Tim domestik memimpin, apakah gelombang ini termasuk model buatan dalam negeri yang diekspor ke luar negeri atau kerjasama internasional

Lihat AsliBalas0

MistBlueLily

· 3jam yang lalu

Seed-ASR juga dipanggil untuk dikritik keras, Bytedance: ?

Lihat AsliBalas0

ThereIsAChainInTheReflection.

· 3jam yang lalu

Ketahanan di lingkungan nyata adalah hal yang utama, indikator di laboratorium yang terlihat bagus akan runtuh saat diterapkan di dunia nyata

Lihat AsliBalas0

MevInRetrospect

· 3jam yang lalu

2,4 juta sampel 11.000 jam, rekayasa data benar-benar membuat pusing

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
262.02K Popularitas
#
PlatinumCardCreatorExclusive
71.35K Popularitas
#
IsraelStrikesIranBTCPlunges
48.62K Popularitas
#
#DailyPolymarketHotspot
1.03M Popularitas
#
GateSquarePizzaDay
605.77K Popularitas

Disematkan

peta situs

National University of Singapore dan Nanyang Technological University mengembangkan Mega-ASR sumber terbuka, mengurangi halusinasi dan penghilangan kata dalam ASR di bawah kebisingan ekstrem

Topik Trending

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan