Arxiv Insights - Curated Research Intelligence

核心发现

大型语言模型在多轮对话中的可靠性显著下降，且这种下降具有统计学意义，表明多轮交互引入了实质性挑战。
指令遵循任务在多轮对话中表现出最大的可靠性下降，即使是大型商业模型也难以维持全局约束，小型模型下降尤为剧烈。
工具选择任务对大型商业模型相对鲁棒，但小型开源模型在多轮复杂意图切换下表现出显著性能下降，揭示了模型容量对上下文理解和意图路由的重要性。
实体抽取任务在多轮对话中表现出相对较好的鲁棒性，这可能得益于目标字段的结构化特性，但日期槽位和“改变主意”场景仍是主要挑战。
错误模式并非单纯由对话长度引起，而是源于指令漂移、意图混淆和上下文覆盖等特定上下文冲突和记忆干扰，这些问题在定性分析中得到证实。

实验规模

本研究设计了三项代表性任务（指令遵循、工具选择、实体抽取），每项任务均包含单轮和多轮设置。使用GPT-5合成对话数据，每项任务每个条件生成约100个对话，总计约600个评估案例，并控制对话长度、话题转移和干扰密度等因素。评估模型包括商业LLM（GPT-4o, GPT-4o-mini, Gemini-2.5-Flash）和开源SLM（Qwen-8B, Qwen-32B, Ministral-8B, Mistral-small-24B, Gemma-3-12B），共9个模型。采用准确率作为主要指标，并通过McNemar检验对单轮与多轮性能差异进行统计显著性验证，每项任务使用900个配对样本。

局限性

该研究主要依赖GPT-5生成的合成对话数据，这虽然有助于控制实验变量，但可能无法完全捕捉真实用户交互的复杂性和不可预测性。评估任务虽然具有代表性，但未能涵盖多轮对话中所有潜在的可靠性挑战。此外，论文主要侧重于量化性能下降和识别错误模式，对模型内部机制如何导致这些可靠性问题缺乏更深层次的探讨。