研究背景与核心突破
新加坡国立大学、南洋理工大学与上海人工智能实验室等机构联合发布了Mega-ASR——首个全场景鲁棒的语音识别基座模型。该模型旨在解决现实环境中语音识别面临的「声学鲁棒性瓶颈」问题,即模型在重度组合失真条件下容易失去声学基础,产生漏字(omissions)或幻觉(hallucinations)输出。
根据arXiv论文披露的评测结果,在极端复杂声学场景下,Mega-ASR相比Whisper、Gemini 3 Pro、Seed-ASR等开源与闭源主流模型,实现了超过30%的相对词错误率(WER)降低,树立了复杂环境下语音识别的新标杆。
技术创新点
大规模真实声学模拟数据
研究团队构建了Voices-in-the-wild-2M数据集,包含240万个样本、总时长约1.1万小时。数据集通过基于频谱物理特性的模拟流水线,合成7种原子声学效应:
- 混响(Reverberation)
- 回声(Echo)
- 加性噪声(Additive Noise)
- 远场(Far-field)
- 频率丢包(Frequency Dropout)
- 带宽限制(Bandwidth Limitation)
- 剪切失真(Clipping Distortion)
上述效应可衍生出54种物理合理的复合环境场景。为保证训练稳定性,团队过滤掉了词错误率超过70%的样本,并通过对齐物理合理性检测对数据集难度分布进行校准。
渐进式声学到语义监督微调(A2S-SFT)
Mega-ASR采用**声学到语义渐进式监督微调(Acoustic-to-Semantic Progressive Supervised Fine-Tuning)**机制,分阶段对音频特征进行对齐,以增强模型在重度干扰下的语义恢复能力。
双粒度词错误率门控策略优化(DG-WGPO)
在策略优化阶段,模型引入双粒度词错误率门控策略优化(Dual-Granularity WER-Gated Policy Optimization):
- 当输入音频质量较好、词错误率较低时,系统侧重字符级声学细节重建
- 当音频严重失真、词错误率较高时,决策机制转向句子级语义重构,从而大幅减少大模型常见的幻觉与漏字现象
动态路由机制
为应对干净音频下可能出现的识别率略微下降问题,Mega-ASR内置了动态路由机制。路由决策器能自动评估当前音频质量,智能决定是否挂载LoRA微调权重,确保模型在干净和嘈杂场景下都能输出最优结果。
模型基础与开源
Mega-ASR以Qwen3-ASR 1.7B为底层驱动,采用Apache-2.0协议开源全部代码与模型权重。研究团队表示,该框架能够在单一模型中实现各环境条件下的最优精度,并在真实复杂场景中提供卓越性能,为「野外」鲁棒语音识别树立了可扩展的新范式。