Arxiv Insights - Curated Research Intelligence

核心发现

掩码扩散语言模型（MDLMs）LLaDA-8B在事实核查任务中，无论提示顺序如何，都会在扩散过程的早期阶段确定最终判断（verdict），而非先生成完整理由。
强制延迟判断（即要求模型在生成大部分理由后再给出判断）会显著降低模型准确性（从86.2%降至71.9%），作者将此现象命名为“精炼漂移”（refinement drift）。
“精炼漂移”的机制在于，模型在早期做出正确判断后，在生成理由的过程中引入了局部不一致的噪声，这些噪声反过来影响并推翻了模型最初的正确判断。
干预实验表明，模型对判断的依赖性极强：当被强制给出错误判断时，56%的情况下模型会通过逻辑错误或事实幻觉来合理化该错误判断；当基于这些被破坏的理由进行判断时，准确率从97.1%（使用真实理由）急剧下降到57.3%。

实验规模

实验在包含500个样本的AVeriTeC开发集上进行，主要评估模型为LLaDA-8B，并与LLaMA 3.1 8B和Qwen3-8B（开启扩展思考模式）进行对比。理由生成长度固定为64个token。干预实验包括延迟判断unmasking（从0%到90%理由生成）和基于损坏理由的判断，其中Qwen3-30B-A3B被用作理由分类的判官。

局限性

论文的发现主要基于LLaDA-8B模型和AVeriTeC数据集，其结论在模型规模、预训练数据、其他扩散模型类型以及更复杂的、需要严格多步推理的任务上的泛化性有待验证。此外，尽管论文诊断了“精炼漂移”现象，但并未提出有效的缓解策略。