Whisper 和 Gemini 3 Pro 在複雜聲學環境下被甩近30%?這波 Qwen3-ASR 1.7B 底座的 Mega-ASR 有點東西,幻覺和漏字問題終於被正經對待了。

查看原文
ME News
新加坡國立與南洋理工等開源Mega-ASR,降低極端噪聲下ASR幻覺與漏字
ME News 消息,5 月 22 日(UTC+8),據 動察 Beating 監測,新加坡國立大學、南洋理工大學與上海人工智能實驗室等團隊聯合開源首個全場景魯棒語音識別基座模型 Mega-ASR,旨在解決真實環境下語音識別面臨的幻覺、丟字和空白輸出等問題。模型以 Qwen3-ASR 1.7B 為底層驅動,在極端複雜聲學環境下相比 Whisper、Gemini 3 Pro 和 Seed-ASR 等模型實現最高近 30% 的性能提升。目前項目已在 GitHub 開源,並採用 Apache-2.0 協議發布全部代碼和模型權重。 研究團隊構建了包含 240 萬個樣本、總長 1.1 萬小時的
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆