自然语言处理★ 评分 6.8
Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction
Jiyoon Myung
2026年3月3日
关键词
多轮对话LLM可靠性指令遵循工具选择实体抽取
核心发现
- 大型语言模型在多轮对话中的可靠性显著下降,且这种下降具有统计学意义,表明多轮交互引入了实质性挑战。
- 指令遵循任务在多轮对话中表现出最大的可靠性下降,即使是大型商业模型也难以维持全局约束,小型模型下降尤为剧烈。
- 工具选择任务对大型商业模型相对鲁棒,但小型开源模型在多轮复杂意图切换下表现出显著性能下降,揭示了模型容量对上下文理解和意图路由的重要性。
- 实体抽取任务在多轮对话中表现出相对较好的鲁棒性,这可能得益于目标字段的结构化特性,但日期槽位和“改变主意”场景仍是主要挑战。
- 错误模式并非单纯由对话长度引起,而是源于指令漂移、意图混淆和上下文覆盖等特定上下文冲突和记忆干扰,这些问题在定性分析中得到证实。
实验规模
本研究设计了三项代表性任务(指令遵循、工具选择、实体抽取),每项任务均包含单轮和多轮设置。使用GPT-5合成对话数据,每项任务每个条件生成约100个对话,总计约600个评估案例,并控制对话长度、话题转移和干扰密度等因素。评估模型包括商业LLM(GPT-4o, GPT-4o-mini, Gemini-2.5-Flash)和开源SLM(Qwen-8B, Qwen-32B, Ministral-8B, Mistral-small-24B, Gemma-3-12B),共9个模型。采用准确率作为主要指标,并通过McNemar检验对单轮与多轮性能差异进行统计显著性验证,每项任务使用900个配对样本。
局限性
该研究主要依赖GPT-5生成的合成对话数据,这虽然有助于控制实验变量,但可能无法完全捕捉真实用户交互的复杂性和不可预测性。评估任务虽然具有代表性,但未能涵盖多轮对话中所有潜在的可靠性挑战。此外,论文主要侧重于量化性能下降和识别错误模式,对模型内部机制如何导致这些可靠性问题缺乏更深层次的探讨。