自然语言处理★ 评分 7.8
How RL Unlocks the Aha Moment in Geometric Interleaved Reasoning
Xiangxiang Zhang, Caijun Jia, Siyuan Li, Dingyu He, Xiya Xiong, Zheng Sun, Honghao He, Yuchen Wu, Bihui Yu, Linzhuang Sun, Cheng Tan, Jingxuan Wei
2026年3月3日
关键词
几何推理强化学习多模态大语言模型功能性对齐交错推理
核心发现
- SFT悖论: 在几何交错推理任务中,对高质量图解-解题数据进行监督微调(SFT)反而导致推理性能下降,甚至不如纯文本基线,原因是SFT仅诱导分布对齐,未能内化图表与推理步骤之间的因果依赖。
- 功能性对齐: 提出强化学习(RL)是实现功能性对齐的关键,即让模型理解图表作为推理的因果中介作用,而非仅仅是表面形式的模仿。
- 三重视角验证系统: 设计了由客观验证器(几何正确性)、主观验证器(视觉可感知性)和语义验证器(图表与推理一致性)组成的三重视角验证系统,以强制执行图表作为推理中介的结构完整性。
- Faire框架的有效性: Faire框架通过优化基于这些验证器的奖励函数,显著提升了几何推理性能,并在挑战性基准测试中达到SOTA,同时其验证分数与人类判断高度一致,表明模型真正内化了绘图-推理范式。
- “顿悟时刻”的行为转变: RL训练后,模型在绘图、数值和代码生成token上的熵显著增加,表明模型从模板式生成转向主动计算和验证,绘图成为主动决策过程,并能有效促进后续推理,从“格式伪迹”转变为“承重支架”。
实验规模
该研究引入了Faire-Bench数据集,包含7,989个K12几何交错推理实例,分为SFT (4,643)、RL (2,321) 和评估 (1,025) 分割。实验评估了广泛的多模态大语言模型(MLLMs),包括专有模型(GPT-4o, GPT-5.1, GPT-5.2, Gemini-2.5-Pro)和开源模型(GLM-4.1V-9B, Gemma3-12B, InternVL3.5-8B, Kimi-VL-A3B, Qwen2.5-VL-7B, Qwen3-VL-8B)。Faire模型以Qwen3-VL-8B为基础进行SFT初始化,在单个8-GPU节点上训练2个epoch,随后通过GRPO强化学习进行微调,使用vLLM加速采样,每个提示生成7个候选。评估指标包括答案准确率、三重视角验证分数、代码相似性、图像相似性,并在GenExam和GGBench上进行了额外评估。
局限性
尽管Faire在功能性对齐和可验证性方面表现出色,但在最终答案准确率上并非对所有基线模型都具有绝对优势,例如Gemini-2.5-Pro在某些情况下仍能取得更高的准确率,这可能表明模型仍存在通过非功能性对齐路径解决问题的能力。Faire-Bench数据集的通用性和多样性仍需进一步验证,尤其是在更广泛的几何问题类型和复杂性上,以确保其结论的普适性。强化学习训练的复杂性和稳定性,包括奖励函数中各验证器权重的敏感性、超参数调优的难度等,在论文中讨论较少,可能影响方法的实际应用和复现。