人工智能★ 评分 8.5

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

Xiang Li, Jiabao Gao, Sipei Lin, Xuan Zhou, Chi Zhang, Bo Cheng, Jiale Han, Benyou Wang
2026年3月3日
关键词
S2S系统图灵测试类人对话情感表达AI评判模型

核心发现

  1. 首次对S2S系统进行大规模图灵测试,收集了2,968份人类判断,涉及9个SOTA S2S系统和28名人类参与者。
  2. 所有评估的S2S系统均未能通过图灵测试,成功率远低于人类对话,表明当前系统在类人对话方面存在显著差距。
  3. 人类判断能力受AI熟悉度影响,而非人口统计学特征,预示未来通过图灵测试将更难。
  4. S2S系统的主要瓶颈不在于语义理解(如记忆一致性、逻辑连贯性、发音准确性接近人类水平)。
  5. S2S系统在副语言特征(如韵律僵硬、缺乏语调变化和语流不流畅)、情感表达(文本和声学情感分数低)和对话人设(过度奉承、表达正式)方面存在明显缺陷。
  6. 现有通用AI模型作为图灵测试评委表现不佳,准确率远低于人类,且存在系统性偏差。
  7. 提出了一种可解释的AI评判模型,通过学习18个细粒度类人维度评分,实现了对人机对话的准确(总体准确率0.9605)和透明判断。
  8. 该可解释AI评判模型在域外数据集上表现出强大的泛化能力,并能提供细粒度的诊断归因。

实验规模

人类图灵测试:构建了一个包含1,486个对话(17.7小时)的高质量数据集,包括669个人机对话(H-M)、673个人人对话(H-H)和144个伪人对话(PH)。H-M对话由28名来自10个国家/地区的参与者与9个SOTA S2S系统(如GPT-4o, Gemini2.5-Pro, Qwen3)在专业录音室录制。通过在线游戏平台收集了397名参与者的2,968份人类判断。 细粒度标注:开发了包含18个维度的类人诊断分类法,由36名研究生进行众包标注,并经过3名专家进行交叉验证和修订(29.44%的标签被修订)。 AI评委模型:基于Qwen2.5-Omni-7B骨干模型,在8块A40 GPU集群上进行训练和评估。模型在内部测试集(430个对话,4.7小时)上进行评估,并在CosyVoice2、Fisher和MultiDialog三个域外数据集上进行了泛化能力测试。

局限性

  1. 论文评估的S2S系统表现出的“奉承”和“正式”人设可能随着LLM技术的快速迭代而迅速改变,使得这些诊断结果具有时效性。
  2. 尽管数据集规模较大且经过精心设计,但人类图灵测试的“游戏化”设置以及专业录音室环境可能无法完全捕捉日常、非受限对话的自然复杂性,从而引入潜在偏差。
  3. 虽然AI评判模型表现出色,但其可解释性主要体现在维度评分的线性组合上,对于更深层次的决策机制仍需进一步探究。
Paper ID: 2602.24080v2