MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

新加坡国立大学等联合开源Mega-ASR:极端噪声下语音识别性能提升近30%

新加坡国立大学、南洋理工大学与上海人工智能实验室联合发布全场景鲁棒语音识别基座模型Mega-ASR,在复杂声学环境下相比Whisper等主流模型实现超过30%的词错误率降低,现已开源。

References

Mega-ASR模型架构概览
Mega-ASR结合可扩展复合数据构建与渐进式声学到语义优化 Image source

研究背景与核心突破

新加坡国立大学、南洋理工大学与上海人工智能实验室等机构联合发布了Mega-ASR——首个全场景鲁棒的语音识别基座模型。该模型旨在解决现实环境中语音识别面临的「声学鲁棒性瓶颈」问题,即模型在重度组合失真条件下容易失去声学基础,产生漏字(omissions)或幻觉(hallucinations)输出。

根据arXiv论文披露的评测结果,在极端复杂声学场景下,Mega-ASR相比Whisper、Gemini 3 Pro、Seed-ASR等开源与闭源主流模型,实现了超过30%的相对词错误率(WER)降低,树立了复杂环境下语音识别的新标杆。

技术创新点

大规模真实声学模拟数据

研究团队构建了Voices-in-the-wild-2M数据集,包含240万个样本、总时长约1.1万小时。数据集通过基于频谱物理特性的模拟流水线,合成7种原子声学效应:

  • 混响(Reverberation)
  • 回声(Echo)
  • 加性噪声(Additive Noise)
  • 远场(Far-field)
  • 频率丢包(Frequency Dropout)
  • 带宽限制(Bandwidth Limitation)
  • 剪切失真(Clipping Distortion)

上述效应可衍生出54种物理合理的复合环境场景。为保证训练稳定性,团队过滤掉了词错误率超过70%的样本,并通过对齐物理合理性检测对数据集难度分布进行校准。

渐进式声学到语义监督微调(A2S-SFT)

Mega-ASR采用**声学到语义渐进式监督微调(Acoustic-to-Semantic Progressive Supervised Fine-Tuning)**机制,分阶段对音频特征进行对齐,以增强模型在重度干扰下的语义恢复能力。

双粒度词错误率门控策略优化(DG-WGPO)

在策略优化阶段,模型引入双粒度词错误率门控策略优化(Dual-Granularity WER-Gated Policy Optimization)

  • 当输入音频质量较好、词错误率较低时,系统侧重字符级声学细节重建
  • 当音频严重失真、词错误率较高时,决策机制转向句子级语义重构,从而大幅减少大模型常见的幻觉与漏字现象

动态路由机制

为应对干净音频下可能出现的识别率略微下降问题,Mega-ASR内置了动态路由机制。路由决策器能自动评估当前音频质量,智能决定是否挂载LoRA微调权重,确保模型在干净和嘈杂场景下都能输出最优结果。

模型基础与开源

Mega-ASR以Qwen3-ASR 1.7B为底层驱动,采用Apache-2.0协议开源全部代码与模型权重。研究团队表示,该框架能够在单一模型中实现各环境条件下的最优精度,并在真实复杂场景中提供卓越性能,为「野外」鲁棒语音识别树立了可扩展的新范式。