Arxiv Insights - Curated Research Intelligence

核心发现

问题识别与解决方案：现有TTS系统在角色拟人化方面存在不足，通过为虚构角色分配与其属性相符的声音可增强角色识别，这需要从文本中提取年龄、性别、出身等语音相关属性。S-VoCAL数据集旨在解决这一属性推断任务的数据和评估空白。
数据集构建与特点：S-VoCAL包含8种基于社会语音学研究的语音相关属性，涵盖来自Project Gutenberg的192部小说中的952个角色-书籍对。数据主要通过Wikidata映射获取，其中“年龄”属性进行了大量人工标注并验证了标注一致性。
创新评估框架：针对属性异构性（封闭类、半封闭类、开放类），设计了定制化评估指标，包括加权F1、软F1和基于Qwen3-8b嵌入的新型语义相似度指标。该语义相似度指标经人类判断验证，显示出比BERTScore更高的相关性。
RAG方法验证与性能分析：使用RAG（检索增强生成）管道在S-VoCAL上进行属性推断，结果表明该方法在封闭类属性（如年龄、性别）上表现良好，但在开放类属性（如出身、身体健康）上仍面临挑战。

实验规模

S-VoCAL数据集包含来自Project Gutenberg的192部小说中的952个角色-书籍对。实验采用RAG（检索增强生成）管道，其中检索部分使用E5-large模型生成200词窗口的段落嵌入，推断部分使用Qwen3-8B和Phi-4 14B（均进行4比特量化Q4_K_M）作为LLM骨干。评估方面，封闭类属性使用加权F1和软F1；半封闭类属性使用Micro F1；开放类属性使用基于Qwen3-8b嵌入的语义相似度（Human-Aligned Score, mHAS），并通过3名人工标注员对子集进行评估验证。

局限性

数据集主要来源于Project Gutenberg，其内容可能已被LLM预训练模型记忆，导致评估结果可能无法完全泛化到未见过的或近期文学作品。
除了“年龄”属性进行了大量人工标注外，其他开放类属性的标注覆盖率相对较低，可能影响评估的全面性和可靠性。
当前数据集中的属性均为静态描述，未能捕捉角色属性（如年龄、健康状况）在故事发展中的动态变化，这限制了对角色声音演变建模的能力。