自然语言处理★ 评分 3.9
Beyond Hooking Onto the World: Referential Profiles and the Numerical Structure of LLM Grounding
Joo Yull Rhee
2026年6月25日
关键词
大语言模型地面化指称理论参照画像机械可解释性分布式表示
核心发现
- 传统的“hooking onto the world”过于原子化:人类指称不是私有的词-物体挂钩,而是由区分、纠正、重识别、推理和语境延续共同构成的参照画像。
- LLM若存在任何指称,也不是来自感知或理解,而是来自语言中沉积的人类世界指向实践,经优化后被转化为权重、激活、注意力和logits中的数值结构。
- 向量 grounding 不能只谈因果-信息联系,必须说明这些语言关系如何在有限维参数空间中分布、叠加并在上下文里被选择和重激活。
- 作者用现有机械可解释性结果作间接佐证:实体特征、知识神经元和情绪方向说明,模型内部确实存在可干预、可恢复的机器特定参照结构,但这不等于人类理解。
- 全文结论是:LLM不具有人类式 reference,但可能具备依赖语言、由数值结构承载的派生式指称;其“grounding”是数值化的、上下文敏感的、而非感知式的。
实验规模
无作者自有实验、无新数据集、无模型训练或消融对比。论文主要是哲学与理论论证,借用既有机械可解释性工作作为间接证据,包括 Templeton et al. 2024 的 Claude 3 Sonnet 特征可解释性案例、Dai et al. 2022 的 knowledge neurons、Sofroniew et al. 2026 的情绪概念方向,以及若干关于参考与向量 grounding 的文献讨论;未报告参数量、样本规模或与强基线的定量比较。
局限性
论文的核心贡献是概念重构,而不是可检验的经验结果,因此“参照画像”与“数值结构化指称”更多停留在解释框架层面,缺少直接可证伪的实验设计。作者引用的机械可解释性案例主要来自既有研究,无法单独支撑其更强的哲学结论,尤其不能证明模型真的拥有某种派生式 reference。整体上,这篇文章对术语和层次的澄清有价值,但对争议性主张的经验约束很弱,结论仍偏推演性。