Arxiv Insights - Curated Research Intelligence

核心发现

在557组对话对上，商业检测器GPTZero取得最高准确率（witness-only 89.41%，full-dialogue 86.18%），说明统计型检测在该数据分布上确实有效，但主要依赖与训练分布相近的LLM痕迹。
以Claude Opus-4.6和GPT-5.5为代表的LLM裁判整体优于人类与部分旧模型，表明语义级判断能利用跨轮一致性、语用和上下文线索，但并未形成稳定碾压优势。
TF-IDF仅47.04%，而DistilBERT达78.46%，说明该任务存在可学习的浅层与语义模式；但这也意味着基准容易被特定数据偏差和监督信号吸收，零样本可迁移性未被充分证明。
persona prompt会显著削弱LLM裁判和人类判断，而GPTZero相对稳定，说明语义判断对提示注入更脆弱，统计检测对这类攻击更鲁棒。
Eliza上GPTZero表现明显下降，而Opus-4.6与GPT-5.5仍能保持高识别率，提示该工具更像“特定LLM检测器”而非真正通用的AI检测器。

实验规模

数据来自Jones and Bergen (2026b)的三方图灵测试语料，筛选出长度不少于50轮的557组对话对；每组包含一段人类-人类对话和一段人类-AI对话。AI witness覆盖6类来源：Eliza、GPT-4.5、GPT-4o、LLaMA-405B及其persona变体；人为标签A/B近乎均衡。基线包括TF-IDF与DistilBERT（10折交叉验证）、GPTZero（witness-only与full-dialogue两种设置）、DetectGPT（以OPT-125M为打分模型），以及多种LLM裁判：Claude Opus-4.6、Claude Sonnet-4.6、Claude Haiku-4.5、GPT-5.5、GPT-5.4、GPT-5.1、GPT-5.4-mini、Kimi-k2.6、Qwen-3.6-35b、GPT-4-0613、GPT-3.5-Turbo-1106，并报告了人类裁判结果。

局限性

样本规模只有557组，而且来源高度集中于一次三方图灵测试，AI witness也主要是少数几个模型及其persona变体，外推到真实在线对话、更新模型或不同语言/领域时可信度有限。作者虽然报告了部分基线，但缺少更强的对照、稳健性消融和跨分布测试，尤其没有证明该基准不会被后续针对性训练迅速“刷题”失效。另一个关键问题是，部分高分模型可能在预训练中见过相关输出风格，导致结果混入了训练污染与时代先验，而不完全是“反图灵”能力本身。