Arxiv Insights - Curated Research Intelligence

核心发现

普通 LoRA 直接微调合成切换数据会明显破坏强基线，数据越多也未必更好：在 CSFleurs 与 CommonVoice 上，WER 和 PIER 多数显著恶化，说明瓶颈不在数据量，而在知识整合方式。
BLoRA 通过稀疏、带不确定性约束的低秩更新，更有选择地并入切换相关知识；在 10k 到 246k 规模上，CSFleurs 的 WER 和 PIER 才出现稳定改善，最佳结果相对基线分别下降 5.31% 和 21.63%。
合成数据的质量过滤比盲目堆数据更重要：短片段 TTS 幻觉会伤害适配，小样本时 5% CER 过滤最好，且文本多样性带来的收益略高于仅增加说话人多样性。

实验规模

以 Whisper v3 turbo 为基座，在英德 code-switch 场景上做参数高效适配；LoRA 和 BLoRA 都使用 rank=32，BLoRA 的 KL 系数为 0.5，学习率 1e-3，warmup 2000，weight decay 5e-4，最多训练 30000 step。训练数据来自 GPT-4o 生成的德语母语句子加英文插入规则文本，再用 x-tts-v2 做全句合成或切分拼接；主实验使用 1k、10k、20k、246503 条合成语音，另做 6535 条文本丰富/说话人丰富对照，以及 CER 5%、20%、40% 和无过滤的消融。评估在 CSFleurs 和 CommonVoice 14.0 上进行，指标为 WER 和 PIER，基线 Whisper 的 WER 为德语 8.53%、英语 13.56%、CSFleurs 11.49%，PIER 为 26.59%。

局限性

研究几乎只覆盖英德这一对语言和 Whisper v3 turbo，外推到其他语言对、其他口音和其他大模型并不充分。作者声称保持单语能力，但表中部分单语 WER 仍有轻微恶化，说明“保留能力”并非无代价。整个管线完全依赖合成文本与 TTS，缺少真实 code-switch 语音与更强、更多样的对照基线，因此结论更像针对该设定的经验结果，而不是普适规律。