自然语言处理★ 评分 6.3

Test-Time Training with Next-Token Prediction

Xuan Ouyang, Zefan Cai, Junjie Hu
2026年6月25日
关键词
测试时训练下一词预测长上下文建模Fast WeightRidge回归

核心发现

  1. 论文的核心结论是:把 TTT 的监督信号改成下一位置的同层上下文状态,而不是学习到的局部卷积代理,能更稳定地提升长上下文利用,因为写入目标与模型内部的预测轨迹一致。
  2. 在 RULER Full-13 上,TTT-NTP 在四个骨干模型、四个上下文长度上都优于对应 Released/Base,而 CPT、In-Place TTT 和 qTTT 经常退化,说明提升不是来自更多训练 token 或 rank-one 机械结构,而是来自目标对齐本身。
  3. LongBench-v2 结果表明,这种 next-position 写入不仅对合成针插检索有效,也能迁移到真实长文 QA;尤其在单文档、多文档和结构化数据任务上收益最明显,说明方法确实在增强长文信息保持与检索。
  4. 消融实验把因果链拆开了:目标消融显示单一 next-position 监督优于 Past-5、Next-5、Bi-dir-5 卷积聚合;推理写入消融显示没有 Gram whitening 的 Hebbian 写会严重崩溃,说明性能依赖于“正确目标 + 稳定的闭式求解”,而不是简单外积写入。

实验规模

在 4 个开源骨干上验证:Llama-3.1-8B-Base、Mistral-7B-v0.3、Qwen3-4B-Base、Qwen3-0.6B-Base,覆盖约 0.6B 到 8B 参数规模。持续预训练使用 Long-Data-Collections,序列长度 32,768,global batch size 64,token budget 分别为 0.4B、0.1B、2B、0.2B;与 CPT、In-Place TTT 共享同一数据、优化器、算力、fast-weight 位置、chunk size 和学习率。评估包括 RULER Full-13 在 4k/8k/16k/32k 四种上下文长度上的平均准确率,LongBench-v2 medium split 215 道多项选择题(33k–128k words,32k token budget,head+tail truncation),以及 HellaSwag、ARC-e、ARC-c、PIQA、MMLU 五项通识能力测试;另做了 RULER 上的目标消融和闭式推理写入消融。

局限性

方法的主要收益集中在长上下文检索与长文 QA,证据覆盖面仍偏窄,尚不能说明它对更广泛的推理、事实性或鲁棒性问题同样有效。训练阶段依赖额外的 continual pretraining,推理阶段还要做 prompt 级闭式回归和缓存管理,工程复杂度并不低,向更大模型、滑窗/线性注意力架构扩展的可行性也只是推测。虽然作者做了较完整的消融,但总体仍是对 TTT 目标函数的增量改造,不是新的建模范式;部分骨干上通用能力还有小幅回退,说明“无代价提升”并不成立。

Paper ID: 2606.21803