自然语言处理★ 评分 6.8

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

Li Lucy, Albert Zhang, Nathan Anderson, Ryan Knight, Kyle Lo
2026年3月3日
关键词
视觉语言模型数学教育学生错误错误诊断多模态基准

核心发现

  1. 视觉语言模型(VLMs)在处理包含数学错误的学生作业时,其性能显著低于处理无错误作业,这一差距主要体现在内容描述类问题上。
  2. 即使在控制了数学问题本身的难度后,VLMs在错误学生作业上的性能下降依然显著。
  3. 图像噪声并非导致性能差距的主要原因;即使将学生手写作业重新绘制为清晰的数字图像,VLMs在错误作业上的性能差距仍然存在。
  4. VLMs倾向于默认数学解决方案是正确的,当学生作业包含错误时,模型给出的错误答案常与正确解决方案的真实答案相匹配。
  5. 尽管提供黄金标准自然语言描述可以改善VLMs对学生错误评估的性能,但其表现仍落后于模型在其他类型问题上的开箱即用性能。
  6. VLMs在评估学生正确性方面的挑战依然存在,即使是二元判断(如“学生是否正确完成了某部分?”)的问题,部分模型的表现也接近随机水平。

实验规模

本研究评估了11个于2025年发布的视觉语言模型,包括来自OpenAI (GPT-4.1, GPT-4.5 Preview, o4-mini, GPT-5)、Anthropic (Claude Sonnet 3.7, Claude Sonnet 4, Claude Sonnet 4.5)、Google (Gemini 2.0 Flash, Gemini 2.5 Pro, Gemini 2.5 Pro Preview) 和 Meta AI (Llama 4 Scout) 的模型。评估基于DrawEduMath数据集,该数据集包含2,030张K-12学生手写数学作业图像,以及由教师标注的自由文本描述、合成QA对(44.4k+)和教师编写的QA对(11.6k+)。模型性能通过由Claude Sonnet 4.5、Gemini 2.5 Pro和GPT-4o组成的多数投票LLM评判器进行评估,该评判器与人工判断的相关性为0.808。部分实验(如图像重绘)使用了336张图像的子集。GPT-5-mini被用作辅助标注器,用于学生错误分类(F1=0.984)、QA类型分类(F1=0.975)和二元正确性判断(F1=0.925)。

局限性

本研究的发现可能受限于单一英语基准数据集(DrawEduMath)和特定在线学习平台(ASSISTments)的数据代表性,且可能存在Title I学校的偏向。部分实验(如图像重绘)因资源限制使用了较小的样本量,且某些分析依赖于现有标注和数据过滤,可能无法全面反映DrawEduMath的所有情况。此外,研究主要关注模型输出的技术性危害,未能涵盖AI与学生、教师和学校系统互动可能产生的更广泛社会危害。

Paper ID: 2603.00925v1