自然语言处理★ 评分 5.6

Towards Pedagogically Aligned LLM Tutors for Math Mistake Remediation

Kseniia Petukhova, Tien Dat Nguyen, Ekaterina Kochmar
2026年6月25日
关键词
数学错题纠正教学对齐SFTDPO合成偏好数据

核心发现

  1. 仅做SFT就能明显提升数学辅导质量,但再叠加DPO后,模型在事实正确性和部分教学维度上继续改善,说明“偏好对齐”比单纯模仿更能约束 tutor 行为。
  2. 向模型显式提供学生答案是否正确、以及金标准解答,能显著提高事实正确性,尤其是同时提供两者的 V4 配置效果最好,说明错题诊断与反馈生成这两个子任务是可以拆开的。
  3. 用GPT-5与LoMTL做自动评估时,两者对“教学性”的判断分歧很大,尤其在Actionability上差异显著,表明当前LLM-as-judge并不能稳定刻画辅导质量。
  4. 人工评测中,Qwen3-8B经SFT和DPO后相较base模型更受偏好,且DPO版在与GPT-5的对比中也获得了多数偏好,说明该流程在小规模主观评审下有一定实际收益。
  5. 论文自己也暴露出一个关键问题:GPT-5生成的高质量答案常常“讲太满”,把最终答案直接说出来,从教学角度未必更好,这解释了为何事实正确不等于高教学价值。

实验规模

使用MathDial与SocraTeach做SFT,共约52,728个tutor turns;再用MR-GSM8K与PRM800K构造29,390个偏好对,并额外生成3,769个“学生答对”样本。基座模型包括Qwen3-4B-Instruct-2507、Qwen3-8B、GPT-4.1-nano,以及对比基线SocraticLM、TutorRL-7B、GPT-5;训练采用LoRA,先SFT再DPO,并对Qwen3-8B做了V1-V4四种输入配置和数值扰动扩展数据的再训练。自动评测随机抽取1,000个测试响应,人工评测抽取35个对话、10名标注者,共105次成对比较。

局限性

主要局限是研究重点放在“响应质量”而不是“真实学习收益”,因此不能证明这些对齐策略会让学生学得更好。第二,自动评估强依赖GPT-5和LoMTL,而两者分歧明显,说明教学质量的自动判别仍不可靠。第三,合成偏好数据主要由同一家族的两种闭源模型生成,容易引入风格偏置,且GPT-4.1-nano的训练流程与Qwen并不完全一致,横向结论的可比性有限。

Paper ID: 2606.21502