自然语言处理★ 评分 5.4

LLM-Based Multi-Reference Evaluation for Efficient and Robust Assessment of Phrase Break Annotations

Younghan Park, Hoyeon Lee, Hawon Jeong, Jong-Hwan Kim
2026年6月25日
关键词
短语边界预测多参考评估大语言模型韩语语音合成人工判断

核心发现

  1. 单参考评估把同一句子的合法韵律切分压成唯一答案,遇到多种都合理的标注时会系统性误拒,问题不是阈值调参能解决的,而是评估假设本身过窄。
  2. LMRE 先用LLM构造多参考集合,再采用“命中任一参考即接受”的判定,因此能把原本被单参考漏掉的有效标注找回来,更接近人工判断的接受模式。
  3. 在1,356条韩语标注上,LMRE相较单参考在EM和F1下都提升了与人工分数的Pearson/Spearman相关,且在长句和高质量样本上收益更明显,说明多参考对韵律变体确有帮助。
  4. F1普遍优于EM,表明短语断句评估需要容忍部分边界重叠,而不是要求序列完全一致;LMRE与F1结合时相关性最好,但提升幅度仍受限于参考生成质量和任务语言范围。

实验规模

实验基于一个韩语测试床,共300个句子、1,356条短语断句标注,覆盖短/中/长三类长度、5种标注策略和11种配置。人工评审包含4名独立评审者,其中2名给二值判断、2名给1-5分,作为对齐基准。单参考基线使用两套人类专家参考集T_H1和T_H2;LMRE使用GPT-4.1-mini、GPT-4.1和claude-sonnet-4-20250514生成多参考,few-shot池规模为32/64/128,默认迭代20次,部分消融到40次,批量提示大小为32。评估指标包括EM和F1下的接受率,以及与人工五分制的Pearson和Spearman相关。

局限性

方法的核心改进主要发生在评估协议层面,而不是提出新的短语断句建模能力,因此属于实用型增量工作,议题价值有限。实验只在韩语、300个句子的受控测试床上验证,跨语言、跨标注体系和更大规模真实场景下是否仍成立,证据不足。LMRE依赖LLM生成参考,容易继承提示和示例池偏差;论文主要报告相关性和接受率,缺少对系统性误差、错误参考污染以及下游任务影响的更严格分析。

Paper ID: 2606.21098