Arxiv Insights - Curated Research Intelligence

核心发现

论文开发了一个鲁棒的自动化管道，利用VAD、ASR、自动音标化和噪声过滤，高效地收集并处理了约4,000小时的阿拉伯语TTS训练数据。
论文系统地训练并评估了基于F5-TTS模型的多个版本，探索了不同数据量（100、1,000、4,000小时）以及是否使用音标对合成质量的影响。
实验结果表明，虽然使用音标的数据通常能带来更好的性能，但随着训练数据量的增加，音标缺失造成的性能差距显著缩小，表明模型能够从大规模数据中隐式学习发音规则。
论文计划发布一个高质量的公共阿拉伯语TTS模型，该模型能够直接从无音标的阿拉伯语文本生成语音，从而简化实际部署和促进社区研究。

实验规模

论文从约20,000小时的原始音频中，通过Silero VAD、Fanar ASR（在约15,000小时英语和阿拉伯语数据上训练）以及一个基于400万词MSA语料库训练的音标器（WikiNews WER 5.5%）构建了4,000小时的干净阿拉伯语TTS训练数据。在此基础上，创建了8个训练集，包括4,000、1,000和100小时（分别有/无音标，100小时集还区分了最大/最小说话人多样性）。所有模型均基于F5-TTS（一个扩散Transformer模型）训练60万步，使用Vocos mel声码器。评估使用了包含59位说话人的测试集，并通过WER（使用Fanar ASR）和SpeechBERTScore进行量化。

局限性

数据质量受限于自动化管道（VAD、ASR、音标器）的固有误差，这些误差会传播并影响训练数据。评估指标（WER、SpeechBERTScore）可能无法完全捕捉合成语音的感知质量，且用于WER评估的ASR引擎与训练数据生成来源相同，可能引入偏差，缺乏人类评估。研究主要集中在现代标准阿拉伯语（MSA），未充分分析数据集的方言分布或模型在特定方言上的表现。