自然语言处理★ 评分 5.7

Finetuning with Scientific Data Increases Hallucinations: A Multi-domain Factuality Evaluation of LLMs

Raia Abu Ahmad, Nikolas Rauscher, Ekaterina Borisova, Fabio Barth, Georg Rehm, Sebastian Möller
2026年6月25日
关键词
科学事实性评测大模型幻觉科学微调引用幻觉人工验证

核心发现

  1. 以2500个科学概念、5个学科领域和18个模型构成的对照实验显示,科学微调模型在OFS、VeriScore和CiteHal上普遍低于对应通用底座模型,说明“懂科学语料”不等于“更少幻觉”。
  2. 科学模型呈现出“语言更肯定、内部更不自信”的分离:linguistic certainty更高、parametric certainty更低,支持其更像学到了科学写作语气,而不是更可靠的知识。
  3. 三类事实性问题彼此相关性很弱,说明不可验证、过度断言和引用幻觉是不同故障模式,不能用单一指标概括。
  4. 人工验证只得到有限一致性,VeriScore与专家判断仅中等一致,而OFS更弱,说明当前通用事实核验工具迁移到科学场景时仍然不稳,且“科学上可核查”本身就存在标注分歧。

实验规模

构建了SciFactCheck基准:从ORKG五个领域各抽取500个科学概念,共2500个概念,基于综述/评论论文生成200词开放式段落,再生成APA格式参考文献;评测18个模型,包括Qwen2.5、Llama-2/Tulu-2、Qwen3/S1-Base、Llama-3.1/OpenScholar,以及GPT-4o-mini和Sonar。自动评测覆盖VER/OVR/ATR三类幻觉,其中OFS与CiteHal全量评测,VeriScore受算力限制仅在8个模型上运行;相关性分析使用6个完整评测模型。人工验证部分抽取50个概念、958条claims,5个领域各2名标注者,验证check-worthiness与 factuality。

局限性

论文最强的结论依赖于一组并不完全同构的科学微调模型,微调数据、训练目标、是否带检索、参数规模都混杂在一起,因此“科学微调导致幻觉增加”更像相关性结论,而不是严格因果结论。VER指标也明显受证据源影响:一个用综述全文,一个用Google Search片段,且Web检索会混入低权威来源,导致不同指标之间可比性有限。 OVR只用语言确定性和参数置信度做代理,ATR只做CrossRef题名/DOI匹配,二者都不是针对开放式科学生成的专用判别器。人工验证规模也偏小,只覆盖两个模型、958条claim,而且每个领域仅两名、学历门槛为本科水平,足以暴露任务难度,但不足以支撑强泛化结论。

Paper ID: 2606.21359