Arxiv Insights - Curated Research Intelligence

核心发现

问题识别：标准RLVR在长上下文场景中，由于仅依赖最终答案的稀疏奖励，导致上下文接地过程出现“梯度消失”问题，使得模型难以有效识别和利用相关证据，从而限制了推理性能。
理论证明：论文通过形式化证明（命题1），指出最终答案奖励的梯度被一个极小的激活事件概率所缩放，导致接地头部的学习信号微弱甚至消失。
解决方案：LongRLVR引入了一种密集且可验证的上下文奖励，该奖励基于F-beta分数衡量模型选择正确证据块的质量，并与最终答案奖励协同作用。
理论支撑：通过形式化证明（命题2），该上下文奖励为接地头部提供了独立的、非消失的梯度信号，有效解决了梯度消失问题。
实验验证：LongRLVR在LLaMA和Qwen模型上，于RULER-QA、LongBench v2和LongReason等挑战性长上下文基准测试中，持续且显著优于监督微调（SFT）和朴素RLVR基线，甚至超越了部分更大或专门优化的模型。
关键因素：消融实验表明，上下文奖励与答案奖励的协同作用、高质量且具有挑战性的合成训练数据（通过LLM生成和筛选）以及适当的超参数（如$\eta=0.1, \beta=2$）是LongRLVR成功的关键。

实验规模

实验在LLaMA-3.1-8B、Qwen2.5-7B-1M和Qwen2.5-14B-1M模型上进行。训练数据包含46K个长上下文问答对，上下文长度在8K到64K tokens之间，由Qwen3-235B-A22B模型生成并进行质量筛选。评估基准包括RULER-QA、LongBench v2和LongReason，测试上下文长度涵盖32K、64K和128K tokens。对比基线包括SFT、朴素RLVR（GRPO），以及LLaMA-3.1-70B、Qwen2.5-72B-YaRN、Qwen3系列（思考模式）和QwenLong-L1-32B等领先模型。

局限性

该研究高度依赖强大的LLM（Qwen3-235B-A22B）来生成和评估合成训练数据，这可能引入数据偏差，并限制模型在真实世界或更广泛的长上下文任务中的泛化能力。此外，论文主要关注问答任务，其方法在其他长上下文推理任务（如摘要、代码生成）上的有效性尚未充分验证。尽管提及与Agentic框架的互补性，但未深入探讨与现有Agentic方法的具体集成和比较。