自然语言处理★ 评分 7.8

LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

Guanzheng Chen, Michael Qizhe Shieh, Lidong Bing
2026年3月3日
关键词
长上下文强化学习可验证奖励上下文接地梯度消失

核心发现

  1. 问题识别:标准RLVR在长上下文场景中,由于仅依赖最终答案的稀疏奖励,导致上下文接地过程出现“梯度消失”问题,使得模型难以有效识别和利用相关证据,从而限制了推理性能。
  2. 理论证明:论文通过形式化证明(命题1),指出最终答案奖励的梯度被一个极小的激活事件概率所缩放,导致接地头部的学习信号微弱甚至消失。
  3. 解决方案:LongRLVR引入了一种密集且可验证的上下文奖励,该奖励基于F-beta分数衡量模型选择正确证据块的质量,并与最终答案奖励协同作用。
  4. 理论支撑:通过形式化证明(命题2),该上下文奖励为接地头部提供了独立的、非消失的梯度信号,有效解决了梯度消失问题。
  5. 实验验证:LongRLVR在LLaMA和Qwen模型上,于RULER-QA、LongBench v2和LongReason等挑战性长上下文基准测试中,持续且显著优于监督微调(SFT)和朴素RLVR基线,甚至超越了部分更大或专门优化的模型。
  6. 关键因素:消融实验表明,上下文奖励与答案奖励的协同作用、高质量且具有挑战性的合成训练数据(通过LLM生成和筛选)以及适当的超参数(如$\eta=0.1, \beta=2$)是LongRLVR成功的关键。

实验规模

实验在LLaMA-3.1-8B、Qwen2.5-7B-1M和Qwen2.5-14B-1M模型上进行。训练数据包含46K个长上下文问答对,上下文长度在8K到64K tokens之间,由Qwen3-235B-A22B模型生成并进行质量筛选。评估基准包括RULER-QA、LongBench v2和LongReason,测试上下文长度涵盖32K、64K和128K tokens。对比基线包括SFT、朴素RLVR(GRPO),以及LLaMA-3.1-70B、Qwen2.5-72B-YaRN、Qwen3系列(思考模式)和QwenLong-L1-32B等领先模型。

局限性

该研究高度依赖强大的LLM(Qwen3-235B-A22B)来生成和评估合成训练数据,这可能引入数据偏差,并限制模型在真实世界或更广泛的长上下文任务中的泛化能力。此外,论文主要关注问答任务,其方法在其他长上下文推理任务(如摘要、代码生成)上的有效性尚未充分验证。尽管提及与Agentic框架的互补性,但未深入探讨与现有Agentic方法的具体集成和比较。

Paper ID: 2603.02146v1