自然语言处理★ 评分 7.8

Reasoning or Rationalization? The Role of Justifications in Masked Diffusion Models for Fact Verification

Jacob Devasier
2026年3月3日
关键词
掩码扩散语言模型事实核查精炼漂移理由生成早期决策

核心发现

  1. 掩码扩散语言模型(MDLMs)LLaDA-8B在事实核查任务中,无论提示顺序如何,都会在扩散过程的早期阶段确定最终判断(verdict),而非先生成完整理由。
  2. 强制延迟判断(即要求模型在生成大部分理由后再给出判断)会显著降低模型准确性(从86.2%降至71.9%),作者将此现象命名为“精炼漂移”(refinement drift)。
  3. “精炼漂移”的机制在于,模型在早期做出正确判断后,在生成理由的过程中引入了局部不一致的噪声,这些噪声反过来影响并推翻了模型最初的正确判断。
  4. 干预实验表明,模型对判断的依赖性极强:当被强制给出错误判断时,56%的情况下模型会通过逻辑错误或事实幻觉来合理化该错误判断;当基于这些被破坏的理由进行判断时,准确率从97.1%(使用真实理由)急剧下降到57.3%。

实验规模

实验在包含500个样本的AVeriTeC开发集上进行,主要评估模型为LLaDA-8B,并与LLaMA 3.1 8B和Qwen3-8B(开启扩展思考模式)进行对比。理由生成长度固定为64个token。干预实验包括延迟判断unmasking(从0%到90%理由生成)和基于损坏理由的判断,其中Qwen3-30B-A3B被用作理由分类的判官。

局限性

论文的发现主要基于LLaDA-8B模型和AVeriTeC数据集,其结论在模型规模、预训练数据、其他扩散模型类型以及更复杂的、需要严格多步推理的任务上的泛化性有待验证。此外,尽管论文诊断了“精炼漂移”现象,但并未提出有效的缓解策略。

Paper ID: 2603.01190v1