自然语言处理★ 评分 5.1

Inverse Turing Bench: Evaluating Language Models as Judges of Human vs. AI Dialogue

William Hager, Ishika Rathi, Masum Hasan, Cameron Jones
2026年6月25日
关键词
反图灵测试多轮对话检测人工与AI区分LLM裁判AI生成文本检测

核心发现

  1. 在557组对话对上,商业检测器GPTZero取得最高准确率(witness-only 89.41%,full-dialogue 86.18%),说明统计型检测在该数据分布上确实有效,但主要依赖与训练分布相近的LLM痕迹。
  2. 以Claude Opus-4.6和GPT-5.5为代表的LLM裁判整体优于人类与部分旧模型,表明语义级判断能利用跨轮一致性、语用和上下文线索,但并未形成稳定碾压优势。
  3. TF-IDF仅47.04%,而DistilBERT达78.46%,说明该任务存在可学习的浅层与语义模式;但这也意味着基准容易被特定数据偏差和监督信号吸收,零样本可迁移性未被充分证明。
  4. persona prompt会显著削弱LLM裁判和人类判断,而GPTZero相对稳定,说明语义判断对提示注入更脆弱,统计检测对这类攻击更鲁棒。
  5. Eliza上GPTZero表现明显下降,而Opus-4.6与GPT-5.5仍能保持高识别率,提示该工具更像“特定LLM检测器”而非真正通用的AI检测器。

实验规模

数据来自Jones and Bergen (2026b)的三方图灵测试语料,筛选出长度不少于50轮的557组对话对;每组包含一段人类-人类对话和一段人类-AI对话。AI witness覆盖6类来源:Eliza、GPT-4.5、GPT-4o、LLaMA-405B及其persona变体;人为标签A/B近乎均衡。基线包括TF-IDF与DistilBERT(10折交叉验证)、GPTZero(witness-only与full-dialogue两种设置)、DetectGPT(以OPT-125M为打分模型),以及多种LLM裁判:Claude Opus-4.6、Claude Sonnet-4.6、Claude Haiku-4.5、GPT-5.5、GPT-5.4、GPT-5.1、GPT-5.4-mini、Kimi-k2.6、Qwen-3.6-35b、GPT-4-0613、GPT-3.5-Turbo-1106,并报告了人类裁判结果。

局限性

样本规模只有557组,而且来源高度集中于一次三方图灵测试,AI witness也主要是少数几个模型及其persona变体,外推到真实在线对话、更新模型或不同语言/领域时可信度有限。作者虽然报告了部分基线,但缺少更强的对照、稳健性消融和跨分布测试,尤其没有证明该基准不会被后续针对性训练迅速“刷题”失效。另一个关键问题是,部分高分模型可能在预训练中见过相关输出风格,导致结果混入了训练污染与时代先验,而不完全是“反图灵”能力本身。

Paper ID: 2606.21844