Arxiv Insights - Curated Research Intelligence

核心发现

通过8代ChatGPT、92个法律写作提示和8000+条引文的纵向实验，发现法律引文幻觉率并未随模型代际稳定下降，GPT-5.1 甚至高于部分 2024 年的 GPT-4o 版本。
真实法院文件中的幻觉引文数量逐年增长，同时新模型每篇生成的引文更多、来源更分散，意味着即使单条错误率下降，整体核验负担仍会持续上升。
构建了 LePhantomCite：245 份联邦上诉状、13 个巡回区、1300 个摘录、4499 个引文实例，其中 1107 个带有注入式幻觉，覆盖非真实引文、案名不匹配、错误 pincite、逐字误引和内容误表述。
BOED 代理式检验显著优于非代理基线；GPT-5 在代理模式下达到 82.8% 召回和 60.5% F1，但对错误 pincite、误引和内容篡改仍然薄弱，说明信息可得性和分页数据缺失是核心瓶颈。

实验规模

纵向实验覆盖8代 ChatGPT 模型，在92个法律文书生成提示上共生成8000+条引文，并用 CourtListener 与 Westlaw 验证；基准数据集 LePhantomCite 包含1300个样本，其中1000个来自2012-2021年间13个联邦上诉法院的245份 briefs 片段并注入幻觉，300个来自 Dahl et al. (2024) 的 holding 样本人工复核后重标注。总计4499个 citation instance，1107个为幻觉实例。评测模型包括 GPT-5、GPT-OSS-120B、Qwen3-8B、Qwen3.5-27B、Gemini 2.5 Flash，以及 Claude Code/Opus 4.8；代理式设置使用 BOED 框架，最大步数30，测试集390个样本。

局限性

数据集以注入式半合成为主，错误分布未必贴近真实庭审文件中的自然幻觉，因此结论更适合作为受控下界而不是野外分布上的真实表现。评测对象是短摘录而非完整 brief，无法覆盖长文档中的跨段一致性、长程依赖和更复杂的上下文干扰。另一个问题是部分标签依赖 LLM 抽取与宽松的子串匹配标准，且 pincite 验证受制于商业数据库可得性，容易把信息缺失与模型失败混在一起。