Hugging Face · Daily Papers

Mega-ASR:通过扩展真实世界声学模拟实现野外²语音识别

Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

Zhifei Xie, Kaiyu Pang, Haobin Zhang, Deheng Ye, Xiaobin Hu, Shuicheng Yan, Chunyan Miao
来自 National University of Singapore
二〇二六年五月二十一日 · arXiv:2605.19833 · PDF · Code

尽管自动语音识别(ASR)与大型音频语言模型取得了快速进展,但在真实世界环境中的鲁棒识别仍受限于"声学鲁棒性瓶颈":模型在严重且复合的失真条件下,常丢失声学基础,产生遗漏或幻觉。我们提出Mega-ASR,一个统一的野外ASR框架,结合了可扩展的复合数据构建与渐进式声学到语义优化。我们引入Voices-in-the-Wild-2M数据集,覆盖7种经典声学现象与54种物理合理的复合场景,并通过声学到语义渐进式监督微调与双粒度WER门控策略优化来训练Mega-ASR。大量实验表明,Mega-ASR在恶劣条件ASR基准上显著优于先前最先进系统(VOiCES R4-B-F上45.69%对比54.01%,NOIZEUS Sta-0上21.49%对比29.34%)。在复杂复合声学场景中,Mega-ASR相较于强开源与闭源基线进一步实现了超过30%的相对词错误率降低,为野外鲁棒ASR建立了一种可扩展的范式。

译自 Hugging Face · Daily Papers · arXiv:2605.19833 · 录于 二〇二六年五月二十一日