Arxiv Insights - Curated Research Intelligence

核心发现

单参考评估把同一句子的合法韵律切分压成唯一答案，遇到多种都合理的标注时会系统性误拒，问题不是阈值调参能解决的，而是评估假设本身过窄。
LMRE 先用LLM构造多参考集合，再采用“命中任一参考即接受”的判定，因此能把原本被单参考漏掉的有效标注找回来，更接近人工判断的接受模式。
在1,356条韩语标注上，LMRE相较单参考在EM和F1下都提升了与人工分数的Pearson/Spearman相关，且在长句和高质量样本上收益更明显，说明多参考对韵律变体确有帮助。
F1普遍优于EM，表明短语断句评估需要容忍部分边界重叠，而不是要求序列完全一致；LMRE与F1结合时相关性最好，但提升幅度仍受限于参考生成质量和任务语言范围。

实验规模

实验基于一个韩语测试床，共300个句子、1,356条短语断句标注，覆盖短/中/长三类长度、5种标注策略和11种配置。人工评审包含4名独立评审者，其中2名给二值判断、2名给1-5分，作为对齐基准。单参考基线使用两套人类专家参考集T_H1和T_H2；LMRE使用GPT-4.1-mini、GPT-4.1和claude-sonnet-4-20250514生成多参考，few-shot池规模为32/64/128，默认迭代20次，部分消融到40次，批量提示大小为32。评估指标包括EM和F1下的接受率，以及与人工五分制的Pearson和Spearman相关。

局限性

方法的核心改进主要发生在评估协议层面，而不是提出新的短语断句建模能力，因此属于实用型增量工作，议题价值有限。实验只在韩语、300个句子的受控测试床上验证，跨语言、跨标注体系和更大规模真实场景下是否仍成立，证据不足。LMRE依赖LLM生成参考，容易继承提示和示例池偏差；论文主要报告相关性和接受率，缺少对系统性误差、错误参考污染以及下游任务影响的更严格分析。