自然语言处理★ 评分 6.8

Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction

Jiyoon Myung
2026年3月3日
关键词
多轮对话LLM可靠性指令遵循工具选择实体抽取

核心发现

  1. 大型语言模型在多轮对话中的可靠性显著下降,且这种下降具有统计学意义,表明多轮交互引入了实质性挑战。
  2. 指令遵循任务在多轮对话中表现出最大的可靠性下降,即使是大型商业模型也难以维持全局约束,小型模型下降尤为剧烈。
  3. 工具选择任务对大型商业模型相对鲁棒,但小型开源模型在多轮复杂意图切换下表现出显著性能下降,揭示了模型容量对上下文理解和意图路由的重要性。
  4. 实体抽取任务在多轮对话中表现出相对较好的鲁棒性,这可能得益于目标字段的结构化特性,但日期槽位和“改变主意”场景仍是主要挑战。
  5. 错误模式并非单纯由对话长度引起,而是源于指令漂移、意图混淆和上下文覆盖等特定上下文冲突和记忆干扰,这些问题在定性分析中得到证实。

实验规模

本研究设计了三项代表性任务(指令遵循、工具选择、实体抽取),每项任务均包含单轮和多轮设置。使用GPT-5合成对话数据,每项任务每个条件生成约100个对话,总计约600个评估案例,并控制对话长度、话题转移和干扰密度等因素。评估模型包括商业LLM(GPT-4o, GPT-4o-mini, Gemini-2.5-Flash)和开源SLM(Qwen-8B, Qwen-32B, Ministral-8B, Mistral-small-24B, Gemma-3-12B),共9个模型。采用准确率作为主要指标,并通过McNemar检验对单轮与多轮性能差异进行统计显著性验证,每项任务使用900个配对样本。

局限性

该研究主要依赖GPT-5生成的合成对话数据,这虽然有助于控制实验变量,但可能无法完全捕捉真实用户交互的复杂性和不可预测性。评估任务虽然具有代表性,但未能涵盖多轮对话中所有潜在的可靠性挑战。此外,论文主要侧重于量化性能下降和识别错误模式,对模型内部机制如何导致这些可靠性问题缺乏更深层次的探讨。

Paper ID: 2603.01423v1