自然语言处理★ 评分 5.8
MedHal-Loc: Are "Explainable-by-Architecture" Medical Hallucination Detectors Faithful Localizers? A Localization Benchmark
Minmin Chen, Daojian Lu, Yining Dai, Jvyu Cai, Fengdan Chen
2026年6月25日
关键词
医疗幻觉检测错误定位可信度知识图谱三元组自然语言推理医学问答基准
核心发现
- 论文把“是否能指出错误具体位置”从检测问题中拆出来,提出MedHal-Loc与hit@1、hit@3、lift等指标,解决了以往只看F1却默认可解释性的评估盲区。
- 在300条单错误注入的控制样本上,NLI-per-clause、SelfCheckGPT-NLI和FAVA都能显著优于随机基线,说明细粒度定位本身是可学、可测的。
- AdaTriple作为KG三元组“架构可解释”方法,检测F1仍然较强,但定位lift仅+3.3pp且不显著,根因是三元组抽取覆盖率只有约59%,说明抽不到错误就谈不上定位。
- 自然样本上只有1/18个候选span被人类专家接受,表明真实医疗幻觉多为整体结论翻转,天然不适合强行做span级定位,控制式注入因此更像必要条件测试而非真实分布评估。
实验规模
在MedHallu/PubMedQA基础上构建MedHal-Loc:控制子集300条(4类可定位错误,每类75条,单错误注入,最终295条有有效gold span),自然子集40条真实幻觉。评估4个细粒度方法(AdaTriple、NLI-per-clause、SelfCheckGPT-NLI、FAVA)和3个响应级方法(NLI-DeBERTa、HHEM、LLM-Judge);定位实验在单张NVIDIA RTX 4090上完成。检测性能则在5个数据集(MedHallu、PubMedQA、MedQA、SciFact、MMLU-Med)上用3个随机种子做pooled bootstrap,AdaTriple使用DeBERTa-v3-base-MNLI、FAVA为7B span detector,另有Sentence/Clause切分与SapBERT+Hetionet实体地面化管线。
局限性
核心结论主要建立在单错误注入的合成控制集上,gold span“正确”是由构造保证的,但这也显著弱化了对真实临床幻觉分布的覆盖。自然子集虽然揭示了结论翻转类幻觉难以span定位,但只有18条被人类复核,证据仍偏弱。方法覆盖面也有限,KG三元组部分只测了AdaTriple一个实现,难以把“架构可解释性失真”推广到所有KG式定位器;同时数据域集中在英文生物医学QA,外推性有限。