Arxiv Insights - Curated Research Intelligence

核心发现

论文把“是否能指出错误具体位置”从检测问题中拆出来，提出MedHal-Loc与hit@1、hit@3、lift等指标，解决了以往只看F1却默认可解释性的评估盲区。
在300条单错误注入的控制样本上，NLI-per-clause、SelfCheckGPT-NLI和FAVA都能显著优于随机基线，说明细粒度定位本身是可学、可测的。
AdaTriple作为KG三元组“架构可解释”方法，检测F1仍然较强，但定位lift仅+3.3pp且不显著，根因是三元组抽取覆盖率只有约59%，说明抽不到错误就谈不上定位。
自然样本上只有1/18个候选span被人类专家接受，表明真实医疗幻觉多为整体结论翻转，天然不适合强行做span级定位，控制式注入因此更像必要条件测试而非真实分布评估。

实验规模

在MedHallu/PubMedQA基础上构建MedHal-Loc：控制子集300条（4类可定位错误，每类75条，单错误注入，最终295条有有效gold span），自然子集40条真实幻觉。评估4个细粒度方法（AdaTriple、NLI-per-clause、SelfCheckGPT-NLI、FAVA）和3个响应级方法（NLI-DeBERTa、HHEM、LLM-Judge）；定位实验在单张NVIDIA RTX 4090上完成。检测性能则在5个数据集（MedHallu、PubMedQA、MedQA、SciFact、MMLU-Med）上用3个随机种子做pooled bootstrap，AdaTriple使用DeBERTa-v3-base-MNLI、FAVA为7B span detector，另有Sentence/Clause切分与SapBERT+Hetionet实体地面化管线。

局限性

核心结论主要建立在单错误注入的合成控制集上，gold span“正确”是由构造保证的，但这也显著弱化了对真实临床幻觉分布的覆盖。自然子集虽然揭示了结论翻转类幻觉难以span定位，但只有18条被人类复核，证据仍偏弱。方法覆盖面也有限，KG三元组部分只测了AdaTriple一个实现，难以把“架构可解释性失真”推广到所有KG式定位器；同时数据域集中在英文生物医学QA，外推性有限。