Arxiv Insights - Curated Research Intelligence

核心发现

视觉语言模型（VLMs）在处理包含数学错误的学生作业时，其性能显著低于处理无错误作业，这一差距主要体现在内容描述类问题上。
即使在控制了数学问题本身的难度后，VLMs在错误学生作业上的性能下降依然显著。
图像噪声并非导致性能差距的主要原因；即使将学生手写作业重新绘制为清晰的数字图像，VLMs在错误作业上的性能差距仍然存在。
VLMs倾向于默认数学解决方案是正确的，当学生作业包含错误时，模型给出的错误答案常与正确解决方案的真实答案相匹配。
尽管提供黄金标准自然语言描述可以改善VLMs对学生错误评估的性能，但其表现仍落后于模型在其他类型问题上的开箱即用性能。
VLMs在评估学生正确性方面的挑战依然存在，即使是二元判断（如“学生是否正确完成了某部分？”）的问题，部分模型的表现也接近随机水平。

实验规模

本研究评估了11个于2025年发布的视觉语言模型，包括来自OpenAI (GPT-4.1, GPT-4.5 Preview, o4-mini, GPT-5)、Anthropic (Claude Sonnet 3.7, Claude Sonnet 4, Claude Sonnet 4.5)、Google (Gemini 2.0 Flash, Gemini 2.5 Pro, Gemini 2.5 Pro Preview) 和 Meta AI (Llama 4 Scout) 的模型。评估基于DrawEduMath数据集，该数据集包含2,030张K-12学生手写数学作业图像，以及由教师标注的自由文本描述、合成QA对（44.4k+）和教师编写的QA对（11.6k+）。模型性能通过由Claude Sonnet 4.5、Gemini 2.5 Pro和GPT-4o组成的多数投票LLM评判器进行评估，该评判器与人工判断的相关性为0.808。部分实验（如图像重绘）使用了336张图像的子集。GPT-5-mini被用作辅助标注器，用于学生错误分类（F1=0.984）、QA类型分类（F1=0.975）和二元正确性判断（F1=0.925）。

局限性

本研究的发现可能受限于单一英语基准数据集（DrawEduMath）和特定在线学习平台（ASSISTments）的数据代表性，且可能存在Title I学校的偏向。部分实验（如图像重绘）因资源限制使用了较小的样本量，且某些分析依赖于现有标注和数据过滤，可能无法全面反映DrawEduMath的所有情况。此外，研究主要关注模型输出的技术性危害，未能涵盖AI与学生、教师和学校系统互动可能产生的更广泛社会危害。