自然语言处理★ 评分 5.4
When Context Misleads: Surprisal, Energy and Attention Entropy as Metrics of Coherence Illusions in LLMs
Ece Takmaz, Nitin Kumar, Li Kloostra, Jakub Dotlacil
2026年6月25日
关键词
语篇一致性错觉Surprisal注意力熵能量函数荷兰语大语言模型
核心发现
- 关键位置的 surprisal 基本复现人类加工模式:一致条件最低、完全不一致最高,而“目标不一致但有匹配干扰项”的 MIMA 明显低于完全不一致,说明模型也会被上下文中的相似干扰项“误导”。
- surprisal 与眼动数据对齐:在 GEITje 和 GPT-Neo-125M 上,关键区及部分溢出区的 surprisal 能预测首注视、总凝视和总注视时长,说明它不仅是语言建模分数,也能反映加工难度。
- attention entropy 能定位少数在一致/不一致条件下分歧最大的头,而且这些差异主要集中在中后层;但作者只能证明相关性和可迁移性,不能证明这些头就是因果机制。
- 以 Hopfield/associative memory 为动机定义的 energy 在不同条件间也有分离,且头消融与线性 probe 都表明模型内部确实编码了语篇一致性,但这些结果更像“可检测的表征”,离稳健机制解释还差一截。
实验规模
实验基于 5 个荷兰语心理语言学实验的刺激材料,论文明确展示了 'Again' Study 1(36 组×4 条语篇=144 条)和 'Again' Study 2(36 组×8 条语篇=288 条),并说明 'Too' 实验采用平行构造。模型方面共评估 10 个开放模型:6 个荷兰语单语模型和 4 个多语模型,包括 GPT-2/GPT-neo 系列、GroNLP、GEITje、EuroLLM、Aya Expanse、Qwen3 和 Llama-3.1-8B。人类对齐实验使用 GEITje 与 GPT-Neo-125M 做眼动回归;attention entropy 与 energy 主要在 GPT-2 medium/large 和 EuroLLM 上分析;头消融最多移除 25 个头;线性 probe 用 80%/20% 刺激集划分、10 个随机种子训练,最佳测试准确率为 71.88%。
局限性
研究对象非常窄,几乎完全锁定在荷兰语、短篇三句式语篇和少数预设触发词上,外推到其他语言、体裁或更长上下文并没有直接证据。很多结论停留在相关层面:attention entropy、energy 和 probing 都能区分条件,但缺少更强的因果验证和对照基线来证明这些内部量真正解释了 coherence illusion,而不是仅仅反映了表层词汇相似性。实验规模也不算大,虽然刺激材料来自多项人类研究,但真正用于机制分析的模型和条件组合仍然有限,离“范式级”贡献还有距离。