自然语言处理★ 评分 5.1

Adding Robust Code-Switching Capabilities to High Performance Multilingual ASR

Enes Yavuz Ugan, Alexander Waibel
2026年6月25日
关键词
code-switching语音识别多语种ASRBLoRA合成数据增强Whisper

核心发现

  1. 普通 LoRA 直接微调合成切换数据会明显破坏强基线,数据越多也未必更好:在 CSFleurs 与 CommonVoice 上,WER 和 PIER 多数显著恶化,说明瓶颈不在数据量,而在知识整合方式。
  2. BLoRA 通过稀疏、带不确定性约束的低秩更新,更有选择地并入切换相关知识;在 10k 到 246k 规模上,CSFleurs 的 WER 和 PIER 才出现稳定改善,最佳结果相对基线分别下降 5.31% 和 21.63%。
  3. 合成数据的质量过滤比盲目堆数据更重要:短片段 TTS 幻觉会伤害适配,小样本时 5% CER 过滤最好,且文本多样性带来的收益略高于仅增加说话人多样性。

实验规模

以 Whisper v3 turbo 为基座,在英德 code-switch 场景上做参数高效适配;LoRA 和 BLoRA 都使用 rank=32,BLoRA 的 KL 系数为 0.5,学习率 1e-3,warmup 2000,weight decay 5e-4,最多训练 30000 step。训练数据来自 GPT-4o 生成的德语母语句子加英文插入规则文本,再用 x-tts-v2 做全句合成或切分拼接;主实验使用 1k、10k、20k、246503 条合成语音,另做 6535 条文本丰富/说话人丰富对照,以及 CER 5%、20%、40% 和无过滤的消融。评估在 CSFleurs 和 CommonVoice 14.0 上进行,指标为 WER 和 PIER,基线 Whisper 的 WER 为德语 8.53%、英语 13.56%、CSFleurs 11.49%,PIER 为 26.59%。

局限性

研究几乎只覆盖英德这一对语言和 Whisper v3 turbo,外推到其他语言对、其他口音和其他大模型并不充分。作者声称保持单语能力,但表中部分单语 WER 仍有轻微恶化,说明“保留能力”并非无代价。整个管线完全依赖合成文本与 TTS,缺少真实 code-switch 语音与更强、更多样的对照基线,因此结论更像针对该设定的经验结果,而不是普适规律。

Paper ID: 2606.21990