Arxiv Insights - Curated Research Intelligence

核心发现

SFT悖论: 在几何交错推理任务中，对高质量图解-解题数据进行监督微调（SFT）反而导致推理性能下降，甚至不如纯文本基线，原因是SFT仅诱导分布对齐，未能内化图表与推理步骤之间的因果依赖。
功能性对齐: 提出强化学习（RL）是实现功能性对齐的关键，即让模型理解图表作为推理的因果中介作用，而非仅仅是表面形式的模仿。
三重视角验证系统: 设计了由客观验证器（几何正确性）、主观验证器（视觉可感知性）和语义验证器（图表与推理一致性）组成的三重视角验证系统，以强制执行图表作为推理中介的结构完整性。
Faire框架的有效性: Faire框架通过优化基于这些验证器的奖励函数，显著提升了几何推理性能，并在挑战性基准测试中达到SOTA，同时其验证分数与人类判断高度一致，表明模型真正内化了绘图-推理范式。
“顿悟时刻”的行为转变: RL训练后，模型在绘图、数值和代码生成token上的熵显著增加，表明模型从模板式生成转向主动计算和验证，绘图成为主动决策过程，并能有效促进后续推理，从“格式伪迹”转变为“承重支架”。

实验规模

该研究引入了Faire-Bench数据集，包含7,989个K12几何交错推理实例，分为SFT (4,643)、RL (2,321) 和评估 (1,025) 分割。实验评估了广泛的多模态大语言模型（MLLMs），包括专有模型（GPT-4o, GPT-5.1, GPT-5.2, Gemini-2.5-Pro）和开源模型（GLM-4.1V-9B, Gemma3-12B, InternVL3.5-8B, Kimi-VL-A3B, Qwen2.5-VL-7B, Qwen3-VL-8B）。Faire模型以Qwen3-VL-8B为基础进行SFT初始化，在单个8-GPU节点上训练2个epoch，随后通过GRPO强化学习进行微调，使用vLLM加速采样，每个提示生成7个候选。评估指标包括答案准确率、三重视角验证分数、代码相似性、图像相似性，并在GenExam和GGBench上进行了额外评估。

局限性

尽管Faire在功能性对齐和可验证性方面表现出色，但在最终答案准确率上并非对所有基线模型都具有绝对优势，例如Gemini-2.5-Pro在某些情况下仍能取得更高的准确率，这可能表明模型仍存在通过非功能性对齐路径解决问题的能力。Faire-Bench数据集的通用性和多样性仍需进一步验证，尤其是在更广泛的几何问题类型和复杂性上，以确保其结论的普适性。强化学习训练的复杂性和稳定性，包括奖励函数中各验证器权重的敏感性、超参数调优的难度等，在论文中讨论较少，可能影响方法的实际应用和复现。