自然语言处理★ 评分 5.0
On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models
Shunsuke Kando, Wataru Nakata, Shinnosuke Takamichi, Yusuke Miyao
2026年6月25日
关键词
GSLM语音续写语音重建比特率离散语音单位
核心发现
- 语音重建对分段宽度更敏感,但将N从20 ms放宽到40/80 ms时,WER、UTMOS等指标仍能接近基线,说明较低比特率并不必然损害可懂度与自然度。
- 语音续写的最优配置与重建任务不一致:部分较大N、较大K的设置在PPL、VERT、LLM判分和MMOS上接近或优于基线,说明续写更偏向语义连续性而非极致声学保真。
- Tacotron2与VITS在重建指标上各有优势,但续写内容质量在两种TTS之间具有较高相关性,表明u2s模型选择对语义层面的影响有限。
- LLM-as-a-Judge比PPL和VERT更贴近人类MMOS,但相关性仍然偏低,说明当前自动评价语音续写仍不足以可靠替代人工判断。
- 论文的核心结论不是提出新模型,而是用系统性扫参证明:GSLM常用的高比特率单位表示存在冗余,较低比特率即可支撑有效生成。
实验规模
实验覆盖64种s2u配置:HuBERT-base第9层表示,分段宽度N取8档(20/40/80/120/160/200/240/280 ms),K-means簇数K取8档(128到16384)。uLM使用OPT,在LibriSpeech 960小时训练集上训练;K-means在LibriSpeech 100小时clean子集上训练。u2s分别采用Tacotron2+Parallel WaveGAN和VITS,在LJSpeech上训练。评估中,重建任务使用Whisper-large-v3转写,指标包括WER、UTMOS、MCD、LogF0 RMSE;续写任务用LJSpeech开发集,输入前3秒、生成后7秒,共10秒音频,在10个温度上计算PPL和VERT,并用GPT-4.1-mini做成对比较。人评包括21个Tacotron2设置的MMOS(每设置50样本、每样本10名评审)以及4个设置之间的AB测试(20样本、每对6名评审)。
局限性
研究主要停留在单一语料与单一单位抽取范式上,训练与评估都集中在LibriSpeech/LJSpeech,外推到更嘈杂、更开放域或多语种场景的证据不足。论文没有提出新的建模方法,核心贡献是配置扫描与经验归纳,因此更像系统性实验报告而非方法学突破。续写评估仍高度依赖ASR转写和LLM裁判,而这些自动指标与MMOS的相关性有限,说明结论虽有参考价值,但评价体系本身仍不够稳固。