自然语言处理★ 评分 5.6
Who Checks the Citations? Benchmarking Legal Hallucination Detection
Patty Liu, Dominik Stammbach, Peter Henderson
2026年6月25日
关键词
法律引文幻觉代理式验证Bluebook引注法律基准数据集Westlaw/CourtListener
核心发现
- 通过8代ChatGPT、92个法律写作提示和8000+条引文的纵向实验,发现法律引文幻觉率并未随模型代际稳定下降,GPT-5.1 甚至高于部分 2024 年的 GPT-4o 版本。
- 真实法院文件中的幻觉引文数量逐年增长,同时新模型每篇生成的引文更多、来源更分散,意味着即使单条错误率下降,整体核验负担仍会持续上升。
- 构建了 LePhantomCite:245 份联邦上诉状、13 个巡回区、1300 个摘录、4499 个引文实例,其中 1107 个带有注入式幻觉,覆盖非真实引文、案名不匹配、错误 pincite、逐字误引和内容误表述。
- BOED 代理式检验显著优于非代理基线;GPT-5 在代理模式下达到 82.8% 召回和 60.5% F1,但对错误 pincite、误引和内容篡改仍然薄弱,说明信息可得性和分页数据缺失是核心瓶颈。
实验规模
纵向实验覆盖8代 ChatGPT 模型,在92个法律文书生成提示上共生成8000+条引文,并用 CourtListener 与 Westlaw 验证;基准数据集 LePhantomCite 包含1300个样本,其中1000个来自2012-2021年间13个联邦上诉法院的245份 briefs 片段并注入幻觉,300个来自 Dahl et al. (2024) 的 holding 样本人工复核后重标注。总计4499个 citation instance,1107个为幻觉实例。评测模型包括 GPT-5、GPT-OSS-120B、Qwen3-8B、Qwen3.5-27B、Gemini 2.5 Flash,以及 Claude Code/Opus 4.8;代理式设置使用 BOED 框架,最大步数30,测试集390个样本。
局限性
数据集以注入式半合成为主,错误分布未必贴近真实庭审文件中的自然幻觉,因此结论更适合作为受控下界而不是野外分布上的真实表现。评测对象是短摘录而非完整 brief,无法覆盖长文档中的跨段一致性、长程依赖和更复杂的上下文干扰。另一个问题是部分标签依赖 LLM 抽取与宽松的子串匹配标准,且 pincite 验证受制于商业数据库可得性,容易把信息缺失与模型失败混在一起。