Arxiv Insights - Curated Research Intelligence

核心发现

首次对S2S系统进行大规模图灵测试，收集了2,968份人类判断，涉及9个SOTA S2S系统和28名人类参与者。
所有评估的S2S系统均未能通过图灵测试，成功率远低于人类对话，表明当前系统在类人对话方面存在显著差距。
人类判断能力受AI熟悉度影响，而非人口统计学特征，预示未来通过图灵测试将更难。
S2S系统的主要瓶颈不在于语义理解（如记忆一致性、逻辑连贯性、发音准确性接近人类水平）。
S2S系统在副语言特征（如韵律僵硬、缺乏语调变化和语流不流畅）、情感表达（文本和声学情感分数低）和对话人设（过度奉承、表达正式）方面存在明显缺陷。
现有通用AI模型作为图灵测试评委表现不佳，准确率远低于人类，且存在系统性偏差。
提出了一种可解释的AI评判模型，通过学习18个细粒度类人维度评分，实现了对人机对话的准确（总体准确率0.9605）和透明判断。
该可解释AI评判模型在域外数据集上表现出强大的泛化能力，并能提供细粒度的诊断归因。

实验规模

人类图灵测试：构建了一个包含1,486个对话（17.7小时）的高质量数据集，包括669个人机对话（H-M）、673个人人对话（H-H）和144个伪人对话（PH）。H-M对话由28名来自10个国家/地区的参与者与9个SOTA S2S系统（如GPT-4o, Gemini2.5-Pro, Qwen3）在专业录音室录制。通过在线游戏平台收集了397名参与者的2,968份人类判断。细粒度标注：开发了包含18个维度的类人诊断分类法，由36名研究生进行众包标注，并经过3名专家进行交叉验证和修订（29.44%的标签被修订）。 AI评委模型：基于Qwen2.5-Omni-7B骨干模型，在8块A40 GPU集群上进行训练和评估。模型在内部测试集（430个对话，4.7小时）上进行评估，并在CosyVoice2、Fisher和MultiDialog三个域外数据集上进行了泛化能力测试。

局限性

论文评估的S2S系统表现出的“奉承”和“正式”人设可能随着LLM技术的快速迭代而迅速改变，使得这些诊断结果具有时效性。
尽管数据集规模较大且经过精心设计，但人类图灵测试的“游戏化”设置以及专业录音室环境可能无法完全捕捉日常、非受限对话的自然复杂性，从而引入潜在偏差。
虽然AI评判模型表现出色，但其可解释性主要体现在维度评分的线性组合上，对于更深层次的决策机制仍需进一步探究。