自然语言处理★ 评分 5.0
PeerMathDial: A Middle School Dialogue Dataset for Student Collaborative Math Problem Solving
Murong Yue, Desmond Alexander Mcglone, Emily Slutz, Wenhan Lyu, Yixuan Zhang, Jennifer Suh, Ziyu Yao
2026年6月25日
关键词
协作问题解决同伴对话数据集初中数学对话行为标注LLM辅助语篇分析
核心发现
- 数据集层面,PeerMathDial补足了现有教育对话资源偏向“师生互动”的空缺,提供55段真实小组讨论、27名学生、6406轮转写,能够直接观察同伴协作中的提问、解释、监控、修正与协调。
- 通过LLM辅助的自底向上归纳,再结合教育专家复核,作者得到了一套6大类、细粒度的CPS对话行为体系;专家对50个随机样本全部认可,说明该体系对语料中的主要互动类型有较强覆盖。
- 对话行为随时间演化呈现明确阶段性:前期偏任务澄清与协作组织,中期偏计算与错误诊断,后期偏结果检验与修正,支持“协作求解是动态过程而非静态答案生产”的判断。
- 教师介入后,学生后续几轮更倾向于把表述转向表征映射、模式复用和候选解推进,同时减少对约束的再识别,说明教师干预会重塑局部认知轨迹而不仅是提供答案。
- 基于问卷的人格/角色分组与真实话语行为并不一一对应,领导型、合作型、焦虑型学生在对话行为上表现出功能差异而非单一参与度差异,提示仅靠自陈量表不足以刻画协作行为。
- 在100个样本上的LLM动作预测准确率仅16%到20%,说明现阶段通用大模型即使结合身份与上下文,也难以复现真实学生的细粒度协作决策。
实验规模
数据集规模为55段对话、27名学生、6406轮转写,平均每段116.5轮、每轮11.6词;角色分布为学生71.7%、教师20.7%、未知7.6%。对话行为体系通过GPT-5.4分批归纳、低置信样本回溯修订,并由2名具有数学教育背景的专家对100个片段进行人工评审(50个随机样本、50个低置信样本)。应用实验包括:按6个相对进度阶段分析全语料时序变化;以教师连续发言为一次介入事件、比较介入前后各3轮学生话语;按问卷分组比较行为分布;以及在100个随机转轮上评估5个模型的下一动作预测,模型包括OpenAI GPT-5.4 Mini、GPT-5.4、Claude Sonnet 4.6、Gemini 3 Flash Preview、Qwen3.5-35B-A3B,匹配率为16.0%到20.0%。
局限性
数据来源高度集中于一个数学夏令营,样本只有27名带完整问卷与转写的学生,代表性有限,难以外推到更广泛的K-12课堂或其他学科场景。论文的核心标注体系又依赖LLM辅助归纳,且专家评审只覆盖100个片段,规模较小,仍存在 taxonomy 过拟合该语料的风险。LLM学生模拟部分只做了100个样本的精确匹配,没有看到更强的基线、消融或跨场景验证,因此结论更像是探索性展示而不是稳固的性能证明。