Arxiv Insights - Curated Research Intelligence

核心发现

关键位置的 surprisal 基本复现人类加工模式：一致条件最低、完全不一致最高，而“目标不一致但有匹配干扰项”的 MIMA 明显低于完全不一致，说明模型也会被上下文中的相似干扰项“误导”。
surprisal 与眼动数据对齐：在 GEITje 和 GPT-Neo-125M 上，关键区及部分溢出区的 surprisal 能预测首注视、总凝视和总注视时长，说明它不仅是语言建模分数，也能反映加工难度。
attention entropy 能定位少数在一致/不一致条件下分歧最大的头，而且这些差异主要集中在中后层；但作者只能证明相关性和可迁移性，不能证明这些头就是因果机制。
以 Hopfield/associative memory 为动机定义的 energy 在不同条件间也有分离，且头消融与线性 probe 都表明模型内部确实编码了语篇一致性，但这些结果更像“可检测的表征”，离稳健机制解释还差一截。

实验规模

实验基于 5 个荷兰语心理语言学实验的刺激材料，论文明确展示了 'Again' Study 1（36 组×4 条语篇=144 条）和 'Again' Study 2（36 组×8 条语篇=288 条），并说明 'Too' 实验采用平行构造。模型方面共评估 10 个开放模型：6 个荷兰语单语模型和 4 个多语模型，包括 GPT-2/GPT-neo 系列、GroNLP、GEITje、EuroLLM、Aya Expanse、Qwen3 和 Llama-3.1-8B。人类对齐实验使用 GEITje 与 GPT-Neo-125M 做眼动回归；attention entropy 与 energy 主要在 GPT-2 medium/large 和 EuroLLM 上分析；头消融最多移除 25 个头；线性 probe 用 80%/20% 刺激集划分、10 个随机种子训练，最佳测试准确率为 71.88%。

局限性

研究对象非常窄，几乎完全锁定在荷兰语、短篇三句式语篇和少数预设触发词上，外推到其他语言、体裁或更长上下文并没有直接证据。很多结论停留在相关层面：attention entropy、energy 和 probing 都能区分条件，但缺少更强的因果验证和对照基线来证明这些内部量真正解释了 coherence illusion，而不是仅仅反映了表层词汇相似性。实验规模也不算大，虽然刺激材料来自多项人类研究，但真正用于机制分析的模型和条件组合仍然有限，离“范式级”贡献还有距离。