自然语言处理★ 评分 6.5
S-VoCAL: A Dataset and Evaluation Framework for Inferring Speaking Voice Character Attributes in Literature
Abigail Berthe-Pardo, Gaspard Michel, Elena V. Epure, Christophe Cerisara
2026年3月3日
关键词
语音属性推断S-VoCAL数据集RAGLLM评估有声读物合成
核心发现
- 问题识别与解决方案:现有TTS系统在角色拟人化方面存在不足,通过为虚构角色分配与其属性相符的声音可增强角色识别,这需要从文本中提取年龄、性别、出身等语音相关属性。S-VoCAL数据集旨在解决这一属性推断任务的数据和评估空白。
- 数据集构建与特点:S-VoCAL包含8种基于社会语音学研究的语音相关属性,涵盖来自Project Gutenberg的192部小说中的952个角色-书籍对。数据主要通过Wikidata映射获取,其中“年龄”属性进行了大量人工标注并验证了标注一致性。
- 创新评估框架:针对属性异构性(封闭类、半封闭类、开放类),设计了定制化评估指标,包括加权F1、软F1和基于Qwen3-8b嵌入的新型语义相似度指标。该语义相似度指标经人类判断验证,显示出比BERTScore更高的相关性。
- RAG方法验证与性能分析:使用RAG(检索增强生成)管道在S-VoCAL上进行属性推断,结果表明该方法在封闭类属性(如年龄、性别)上表现良好,但在开放类属性(如出身、身体健康)上仍面临挑战。
实验规模
S-VoCAL数据集包含来自Project Gutenberg的192部小说中的952个角色-书籍对。实验采用RAG(检索增强生成)管道,其中检索部分使用E5-large模型生成200词窗口的段落嵌入,推断部分使用Qwen3-8B和Phi-4 14B(均进行4比特量化Q4_K_M)作为LLM骨干。评估方面,封闭类属性使用加权F1和软F1;半封闭类属性使用Micro F1;开放类属性使用基于Qwen3-8b嵌入的语义相似度(Human-Aligned Score, mHAS),并通过3名人工标注员对子集进行评估验证。
局限性
- 数据集主要来源于Project Gutenberg,其内容可能已被LLM预训练模型记忆,导致评估结果可能无法完全泛化到未见过的或近期文学作品。
- 除了“年龄”属性进行了大量人工标注外,其他开放类属性的标注覆盖率相对较低,可能影响评估的全面性和可靠性。
- 当前数据集中的属性均为静态描述,未能捕捉角色属性(如年龄、健康状况)在故事发展中的动态变化,这限制了对角色声音演变建模的能力。