智能体系统★ 评分 5.4

Towards Self-Improving Error Diagnosis in Multi-Agent Systems

Jiazheng Li, Emine Yilmaz, Bei Chen, Dieu-Thu Le
2026年4月26日
关键词
多智能体系统故障归因决策步定位反向追踪验证记忆

核心发现

  1. 长交互里,单次 judge 最难的是起始错误步定位;先用 MAST 异常标签做结构先验,再用反向追踪剪掉无关分支,能把诊断焦点压缩到真正的因果链上。
  2. 让 Investigator 必须用代码重跑或条件检查为假设提供证据,再由 Arbiter 按证据与置信度裁决,可以减少幻觉式归因,因而同时提升 agent 级与 step 级判断。
  3. 只有通过验证门写入的 episodic memory 才会被复用;这种记忆在重复故障模式和跨域场景中继续带来增益,说明提升主要来自可验证错误模式的检索,而不是简单堆上下文。
  4. 论文最稳定的收益来自 step-level localization,而非 agent identification 本身,表明多智能体失败分析的核心瓶颈仍是“何时出错”而不是“谁参与了”。

实验规模

主实验覆盖 3 个失败归因基准:TracerTraj 代码生成子集 127 条、Who&When-Algo 127 条、Who&When-Hand 58 条;在 agent 归因与 step 定位两项任务上,分别对比 LLM-as-a-Judge、Agent-as-a-Judge 基线、去记忆版 ErrorProbe 和带验证记忆版 ErrorProbe。实验使用 3 个 backbone:Claude 3.7 Sonnet、GPT-OSS-120B、Qwen3 32B;每个设置重复 5 次独立运行,超参在 TracerTraj 的 10% 留出集上调节并跨数据集复用。附加在 MBPP、KodCode、GSM8K、MATH 四个领域做记忆增量实验,并在 Who&When 的 all-at-once、step-by-step、binary-search 三种协议上做补充比较;单次诊断平均推理约 45 秒。

局限性

强依赖显式异常、可执行证据和工具复现,静默错误或仅语义偏差但无异常触发的失败基本不在处理范围内。主实验规模不大,且包含合成注入故障与特定系统采集的轨迹,超参又在 TracerTraj 10% 留出集上调节后跨集固定,外推到更杂乱的真实生产环境仍缺少硬证据。记忆模块与多代理工具链还引入明显推理时延,论文也没有给出与更强、预算对齐的检索式或训练式定位器的全面对照。

Paper ID: 2604.17658