自然语言处理★ 评分 5.0

On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models

Shunsuke Kando, Wataru Nakata, Shinnosuke Takamichi, Yusuke Miyao
2026年6月25日
关键词
GSLM语音续写语音重建比特率离散语音单位

核心发现

  1. 语音重建对分段宽度更敏感,但将N从20 ms放宽到40/80 ms时,WER、UTMOS等指标仍能接近基线,说明较低比特率并不必然损害可懂度与自然度。
  2. 语音续写的最优配置与重建任务不一致:部分较大N、较大K的设置在PPL、VERT、LLM判分和MMOS上接近或优于基线,说明续写更偏向语义连续性而非极致声学保真。
  3. Tacotron2与VITS在重建指标上各有优势,但续写内容质量在两种TTS之间具有较高相关性,表明u2s模型选择对语义层面的影响有限。
  4. LLM-as-a-Judge比PPL和VERT更贴近人类MMOS,但相关性仍然偏低,说明当前自动评价语音续写仍不足以可靠替代人工判断。
  5. 论文的核心结论不是提出新模型,而是用系统性扫参证明:GSLM常用的高比特率单位表示存在冗余,较低比特率即可支撑有效生成。

实验规模

实验覆盖64种s2u配置:HuBERT-base第9层表示,分段宽度N取8档(20/40/80/120/160/200/240/280 ms),K-means簇数K取8档(128到16384)。uLM使用OPT,在LibriSpeech 960小时训练集上训练;K-means在LibriSpeech 100小时clean子集上训练。u2s分别采用Tacotron2+Parallel WaveGAN和VITS,在LJSpeech上训练。评估中,重建任务使用Whisper-large-v3转写,指标包括WER、UTMOS、MCD、LogF0 RMSE;续写任务用LJSpeech开发集,输入前3秒、生成后7秒,共10秒音频,在10个温度上计算PPL和VERT,并用GPT-4.1-mini做成对比较。人评包括21个Tacotron2设置的MMOS(每设置50样本、每样本10名评审)以及4个设置之间的AB测试(20样本、每对6名评审)。

局限性

研究主要停留在单一语料与单一单位抽取范式上,训练与评估都集中在LibriSpeech/LJSpeech,外推到更嘈杂、更开放域或多语种场景的证据不足。论文没有提出新的建模方法,核心贡献是配置扫描与经验归纳,因此更像系统性实验报告而非方法学突破。续写评估仍高度依赖ASR转写和LLM裁判,而这些自动指标与MMOS的相关性有限,说明结论虽有参考价值,但评价体系本身仍不够稳固。

Paper ID: 2606.23285