自然语言处理★ 评分 5.3

Synthetic Audio Generation Framework for Air Traffic Control Speech Recognition

Raphaël Bagat, Zhe Zhang, Junichi Yamagishi, Irina Illina, Emmanuel Vincent
2026年6月25日
关键词
空中交通管制语音识别合成语音生成口音转换语音转换数据增强

核心发现

  1. 将真实ATC录音先做语音/噪声分离与8kHz到16kHz超分辨率,再接入生成模块,目的是让合成语音更接近空管信道分布,从而减少训练域偏移。
  2. 仅用合成数据微调Whisper-small就能优于原始模型,说明合成ATC语音并非噪声式增广,而是能提供有效的领域监督信号。
  3. 真实数据与合成数据混合微调优于仅用真实数据微调,说明多样化的声学条件、说话人和口音扰动确实能提升ATC ASR泛化能力。
  4. 将TokAN改造成可控的L1-to-L2口音转换器,是本文唯一较明确的方法学增量,但其价值仍主要体现在工程组合与任务迁移,而非全新建模范式。

实验规模

以ATCO2空管语音语料为实验对象,围绕Whisper-small做对比微调;基线包括未微调的原始模型和仅用真实ATCO2数据微调的模型。实验比较了多种合成策略,包括TTS、kNN-VC、L2-to-L1口音转换、作者提出的L1-to-L2口音转换,以及ATC声学模拟,并分别在Synth-only与Real+Synth两种训练设置下报告WER。

局限性

主要局限在于验证范围较窄,核心结论只在ATCO2和Whisper-small上成立,尚不能说明该框架对其他空管区域、语言、录音链路或ASR骨干同样有效。方法链条由多个已有模块拼接而成,真正带来增益的是哪一环、各环节之间是否存在冗余或偶然协同,若缺少充分消融很难严格证实。论文强调合成数据能改善WER,但没有直接证明合成语音在口音真实性、信道保真度和安全关键场景鲁棒性上的质量上限。

Paper ID: 2606.21340