自然语言处理★ 评分 5.0

PeerMathDial: A Middle School Dialogue Dataset for Student Collaborative Math Problem Solving

Murong Yue, Desmond Alexander Mcglone, Emily Slutz, Wenhan Lyu, Yixuan Zhang, Jennifer Suh, Ziyu Yao
2026年6月25日
关键词
协作问题解决同伴对话数据集初中数学对话行为标注LLM辅助语篇分析

核心发现

  1. 数据集层面,PeerMathDial补足了现有教育对话资源偏向“师生互动”的空缺,提供55段真实小组讨论、27名学生、6406轮转写,能够直接观察同伴协作中的提问、解释、监控、修正与协调。
  2. 通过LLM辅助的自底向上归纳,再结合教育专家复核,作者得到了一套6大类、细粒度的CPS对话行为体系;专家对50个随机样本全部认可,说明该体系对语料中的主要互动类型有较强覆盖。
  3. 对话行为随时间演化呈现明确阶段性:前期偏任务澄清与协作组织,中期偏计算与错误诊断,后期偏结果检验与修正,支持“协作求解是动态过程而非静态答案生产”的判断。
  4. 教师介入后,学生后续几轮更倾向于把表述转向表征映射、模式复用和候选解推进,同时减少对约束的再识别,说明教师干预会重塑局部认知轨迹而不仅是提供答案。
  5. 基于问卷的人格/角色分组与真实话语行为并不一一对应,领导型、合作型、焦虑型学生在对话行为上表现出功能差异而非单一参与度差异,提示仅靠自陈量表不足以刻画协作行为。
  6. 在100个样本上的LLM动作预测准确率仅16%到20%,说明现阶段通用大模型即使结合身份与上下文,也难以复现真实学生的细粒度协作决策。

实验规模

数据集规模为55段对话、27名学生、6406轮转写,平均每段116.5轮、每轮11.6词;角色分布为学生71.7%、教师20.7%、未知7.6%。对话行为体系通过GPT-5.4分批归纳、低置信样本回溯修订,并由2名具有数学教育背景的专家对100个片段进行人工评审(50个随机样本、50个低置信样本)。应用实验包括:按6个相对进度阶段分析全语料时序变化;以教师连续发言为一次介入事件、比较介入前后各3轮学生话语;按问卷分组比较行为分布;以及在100个随机转轮上评估5个模型的下一动作预测,模型包括OpenAI GPT-5.4 Mini、GPT-5.4、Claude Sonnet 4.6、Gemini 3 Flash Preview、Qwen3.5-35B-A3B,匹配率为16.0%到20.0%。

局限性

数据来源高度集中于一个数学夏令营,样本只有27名带完整问卷与转写的学生,代表性有限,难以外推到更广泛的K-12课堂或其他学科场景。论文的核心标注体系又依赖LLM辅助归纳,且专家评审只覆盖100个片段,规模较小,仍存在 taxonomy 过拟合该语料的风险。LLM学生模拟部分只做了100个样本的精确匹配,没有看到更强的基线、消融或跨场景验证,因此结论更像是探索性展示而不是稳固的性能证明。

Paper ID: 2606.21557