自然语言处理★ 评分 5.8
Factual Retrieval in LLMs Is a Redundant, Distributed and Non-Contiguous Process
Hail Hochman, Natalie Shapira, Yoav Goldberg
2026年6月25日
关键词
事实检索机制可解释性激活补丁冗余路径语言模型
核心发现
- 事实属性可在早中层被“锁定”后稳定输出,说明属性检索在到达某一充分层后就不再依赖后续层继续加工。
- 最小计算路径通常不是单层,而是由多个必要层组成,且大量路径跳过中间层,支持“分布式而非局部化”的属性计算。
- 同一事实往往存在多个功能等价的最小路径,且替代路径更深、更长、更稀疏,说明模型内部存在显著冗余与备份机制。
- 路径终点层的表示并不总是独立充分,很多情况下仍需前序路径层共同参与,表明属性读取是一个多步组合过程而非单点读取。
实验规模
在 LLaMA 3.1 8B(32层)和 Qwen3 8B(36层)两种开源解码器模型上实验;从 CounterFact 数据集中各筛选 2000 条单 token、且模型本身能正确预测的事实问答 prompt。使用 NNsight 实现 lock、isolate、representation knockout、downstream injection、global broadcast 等干预,并在多 token 实体子集上用 Patchscopes 进一步分析实体解析,样本量分别为 LLaMA 1972 条、Qwen 1945 条。
局限性
方法本质上是基于贪心搜索的下界估计,不是穷举搜索,因此发现的“最小路径”和“替代路径”都只能说明存在性,不能量化真实冗余的上界。实验只覆盖两个 8B 级开源模型和 CounterFact 中可被正确预测的单 token 子集,外推到更大模型、闭源模型或多 token/复杂事实时的稳定性仍不清楚。另一个潜在问题是,替代路径与深层终止现象可能部分受 counterfactual 噪声和补丁策略影响,作者也没有给出足够强的独立机制证据来排除这种干预诱导效应。