Arxiv Insights - Curated Research Intelligence

核心发现

现有LLM可解释性方法（如线性探针）将隐藏状态视为静态点，易受多义性特征影响，常学习到表面词汇模式而非深层推理结构，导致泛化性差。
Truth as a Trajectory (TaT) 框架将LLM推理建模为层间激活位移的动态轨迹，通过分析几何位移而非静态激活，有效减弱静态词汇和内容特征的影响，隔离推理机制。
TaT在多种LLM架构和推理、问答、毒性检测等多样化基准测试上，展现出强大的跨数据集泛化能力，显著优于传统线性探针和基线模型的零/少样本性能。
实验证明，使用层间位移向量（displacement）训练的TaT在OOD泛化上显著优于使用原始激活向量训练的模型，这支持了位移能有效隔离推理过程机制的假设。
轨迹的序列顺序对于捕获推理的鉴别信号至关重要，采用LSTM处理有序轨迹的TaT在OOD泛化上显著优于简单的无序聚合（Set MLP）方法。

实验规模

实验在Llama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B和Qwen2.5-30B MoE等多种LLM架构上进行。评估任务涵盖9个推理基准（ARC-Easy/Challenge, BoolQ, Hellaswag, OpenBookQA, StoryCloze, CommonsenseQA, CosmosQA, SocialIQA）和2个毒性检测数据集（RealToxicityPrompts, ToxiGen）。对比方法包括TaT（基于位移和原始激活的LSTM分类器）、线性探针、LoRA以及基线模型的零样本/少样本性能。TaT分类器通过LSTM训练，隐藏维度128-512，层数1-3，并进行多种子平均。

局限性

TaT虽然泛化性强，但相比线性探针计算成本更高，需要提取并处理完整的轨迹激活。其次，LSTM分类器学习到的具体几何特征仍是隐式的，缺乏对模型内部机制的直接可解释性。最后，该方法仍需训练数据，尽管其泛化能力降低了对大量特定任务数据的依赖。