Arxiv Insights - Curated Research Intelligence

核心发现

仅做SFT就能明显提升数学辅导质量，但再叠加DPO后，模型在事实正确性和部分教学维度上继续改善，说明“偏好对齐”比单纯模仿更能约束 tutor 行为。
向模型显式提供学生答案是否正确、以及金标准解答，能显著提高事实正确性，尤其是同时提供两者的 V4 配置效果最好，说明错题诊断与反馈生成这两个子任务是可以拆开的。
用GPT-5与LoMTL做自动评估时，两者对“教学性”的判断分歧很大，尤其在Actionability上差异显著，表明当前LLM-as-judge并不能稳定刻画辅导质量。
人工评测中，Qwen3-8B经SFT和DPO后相较base模型更受偏好，且DPO版在与GPT-5的对比中也获得了多数偏好，说明该流程在小规模主观评审下有一定实际收益。
论文自己也暴露出一个关键问题：GPT-5生成的高质量答案常常“讲太满”，把最终答案直接说出来，从教学角度未必更好，这解释了为何事实正确不等于高教学价值。

实验规模

使用MathDial与SocraTeach做SFT，共约52,728个tutor turns；再用MR-GSM8K与PRM800K构造29,390个偏好对，并额外生成3,769个“学生答对”样本。基座模型包括Qwen3-4B-Instruct-2507、Qwen3-8B、GPT-4.1-nano，以及对比基线SocraticLM、TutorRL-7B、GPT-5；训练采用LoRA，先SFT再DPO，并对Qwen3-8B做了V1-V4四种输入配置和数值扰动扩展数据的再训练。自动评测随机抽取1,000个测试响应，人工评测抽取35个对话、10名标注者，共105次成对比较。

局限性

主要局限是研究重点放在“响应质量”而不是“真实学习收益”，因此不能证明这些对齐策略会让学生学得更好。第二，自动评估强依赖GPT-5和LoMTL，而两者分歧明显，说明教学质量的自动判别仍不可靠。第三，合成偏好数据主要由同一家族的两种闭源模型生成，容易引入风格偏置，且GPT-4.1-nano的训练流程与Qwen并不完全一致，横向结论的可比性有限。