自然语言处理★ 评分 6.5

More Data, Fewer Diacritics: Scaling Arabic TTS

Ahmed Musleh, Yifan Zhang, Kareem Darwish
2026年3月3日
关键词
阿拉伯语TTS音标化大规模数据自动化管道语音克隆

核心发现

  1. 论文开发了一个鲁棒的自动化管道,利用VAD、ASR、自动音标化和噪声过滤,高效地收集并处理了约4,000小时的阿拉伯语TTS训练数据。
  2. 论文系统地训练并评估了基于F5-TTS模型的多个版本,探索了不同数据量(100、1,000、4,000小时)以及是否使用音标对合成质量的影响。
  3. 实验结果表明,虽然使用音标的数据通常能带来更好的性能,但随着训练数据量的增加,音标缺失造成的性能差距显著缩小,表明模型能够从大规模数据中隐式学习发音规则。
  4. 论文计划发布一个高质量的公共阿拉伯语TTS模型,该模型能够直接从无音标的阿拉伯语文本生成语音,从而简化实际部署和促进社区研究。

实验规模

论文从约20,000小时的原始音频中,通过Silero VAD、Fanar ASR(在约15,000小时英语和阿拉伯语数据上训练)以及一个基于400万词MSA语料库训练的音标器(WikiNews WER 5.5%)构建了4,000小时的干净阿拉伯语TTS训练数据。在此基础上,创建了8个训练集,包括4,000、1,000和100小时(分别有/无音标,100小时集还区分了最大/最小说话人多样性)。所有模型均基于F5-TTS(一个扩散Transformer模型)训练60万步,使用Vocos mel声码器。评估使用了包含59位说话人的测试集,并通过WER(使用Fanar ASR)和SpeechBERTScore进行量化。

局限性

数据质量受限于自动化管道(VAD、ASR、音标器)的固有误差,这些误差会传播并影响训练数据。评估指标(WER、SpeechBERTScore)可能无法完全捕捉合成语音的感知质量,且用于WER评估的ASR引擎与训练数据生成来源相同,可能引入偏差,缺乏人类评估。研究主要集中在现代标准阿拉伯语(MSA),未充分分析数据集的方言分布或模型在特定方言上的表现。

Paper ID: 2603.01622v1