自然语言处理★ 评分 7.6

Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Hamed Damirchi, Ignacio Meza De la Jara, Ehsan Abbasnejad, Afshar Shamsi, Zhen Zhang, Javen Shi
2026年3月3日
关键词
LLM可解释性轨迹分析内部表示泛化能力推理有效性

核心发现

  1. 现有LLM可解释性方法(如线性探针)将隐藏状态视为静态点,易受多义性特征影响,常学习到表面词汇模式而非深层推理结构,导致泛化性差。
  2. Truth as a Trajectory (TaT) 框架将LLM推理建模为层间激活位移的动态轨迹,通过分析几何位移而非静态激活,有效减弱静态词汇和内容特征的影响,隔离推理机制。
  3. TaT在多种LLM架构和推理、问答、毒性检测等多样化基准测试上,展现出强大的跨数据集泛化能力,显著优于传统线性探针和基线模型的零/少样本性能。
  4. 实验证明,使用层间位移向量(displacement)训练的TaT在OOD泛化上显著优于使用原始激活向量训练的模型,这支持了位移能有效隔离推理过程机制的假设。
  5. 轨迹的序列顺序对于捕获推理的鉴别信号至关重要,采用LSTM处理有序轨迹的TaT在OOD泛化上显著优于简单的无序聚合(Set MLP)方法。

实验规模

实验在Llama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B和Qwen2.5-30B MoE等多种LLM架构上进行。评估任务涵盖9个推理基准(ARC-Easy/Challenge, BoolQ, Hellaswag, OpenBookQA, StoryCloze, CommonsenseQA, CosmosQA, SocialIQA)和2个毒性检测数据集(RealToxicityPrompts, ToxiGen)。对比方法包括TaT(基于位移和原始激活的LSTM分类器)、线性探针、LoRA以及基线模型的零样本/少样本性能。TaT分类器通过LSTM训练,隐藏维度128-512,层数1-3,并进行多种子平均。

局限性

TaT虽然泛化性强,但相比线性探针计算成本更高,需要提取并处理完整的轨迹激活。其次,LSTM分类器学习到的具体几何特征仍是隐式的,缺乏对模型内部机制的直接可解释性。最后,该方法仍需训练数据,尽管其泛化能力降低了对大量特定任务数据的依赖。

Paper ID: 2603.01326v1