Arxiv Insights - Curated Research Intelligence

核心发现

以2500个科学概念、5个学科领域和18个模型构成的对照实验显示，科学微调模型在OFS、VeriScore和CiteHal上普遍低于对应通用底座模型，说明“懂科学语料”不等于“更少幻觉”。
科学模型呈现出“语言更肯定、内部更不自信”的分离：linguistic certainty更高、parametric certainty更低，支持其更像学到了科学写作语气，而不是更可靠的知识。
三类事实性问题彼此相关性很弱，说明不可验证、过度断言和引用幻觉是不同故障模式，不能用单一指标概括。
人工验证只得到有限一致性，VeriScore与专家判断仅中等一致，而OFS更弱，说明当前通用事实核验工具迁移到科学场景时仍然不稳，且“科学上可核查”本身就存在标注分歧。

实验规模

构建了SciFactCheck基准：从ORKG五个领域各抽取500个科学概念，共2500个概念，基于综述/评论论文生成200词开放式段落，再生成APA格式参考文献；评测18个模型，包括Qwen2.5、Llama-2/Tulu-2、Qwen3/S1-Base、Llama-3.1/OpenScholar，以及GPT-4o-mini和Sonar。自动评测覆盖VER/OVR/ATR三类幻觉，其中OFS与CiteHal全量评测，VeriScore受算力限制仅在8个模型上运行；相关性分析使用6个完整评测模型。人工验证部分抽取50个概念、958条claims，5个领域各2名标注者，验证check-worthiness与 factuality。

局限性

论文最强的结论依赖于一组并不完全同构的科学微调模型，微调数据、训练目标、是否带检索、参数规模都混杂在一起，因此“科学微调导致幻觉增加”更像相关性结论，而不是严格因果结论。VER指标也明显受证据源影响：一个用综述全文，一个用Google Search片段，且Web检索会混入低权威来源，导致不同指标之间可比性有限。 OVR只用语言确定性和参数置信度做代理，ATR只做CrossRef题名/DOI匹配，二者都不是针对开放式科学生成的专用判别器。人工验证规模也偏小，只覆盖两个模型、958条claim，而且每个领域仅两名、学历门槛为本科水平，足以暴露任务难度，但不足以支撑强泛化结论。