Arxiv Insights - Curated Research Intelligence

核心发现

长交互里，单次 judge 最难的是起始错误步定位；先用 MAST 异常标签做结构先验，再用反向追踪剪掉无关分支，能把诊断焦点压缩到真正的因果链上。
让 Investigator 必须用代码重跑或条件检查为假设提供证据，再由 Arbiter 按证据与置信度裁决，可以减少幻觉式归因，因而同时提升 agent 级与 step 级判断。
只有通过验证门写入的 episodic memory 才会被复用；这种记忆在重复故障模式和跨域场景中继续带来增益，说明提升主要来自可验证错误模式的检索，而不是简单堆上下文。
论文最稳定的收益来自 step-level localization，而非 agent identification 本身，表明多智能体失败分析的核心瓶颈仍是“何时出错”而不是“谁参与了”。

实验规模

主实验覆盖 3 个失败归因基准：TracerTraj 代码生成子集 127 条、Who&When-Algo 127 条、Who&When-Hand 58 条；在 agent 归因与 step 定位两项任务上，分别对比 LLM-as-a-Judge、Agent-as-a-Judge 基线、去记忆版 ErrorProbe 和带验证记忆版 ErrorProbe。实验使用 3 个 backbone：Claude 3.7 Sonnet、GPT-OSS-120B、Qwen3 32B；每个设置重复 5 次独立运行，超参在 TracerTraj 的 10% 留出集上调节并跨数据集复用。附加在 MBPP、KodCode、GSM8K、MATH 四个领域做记忆增量实验，并在 Who&When 的 all-at-once、step-by-step、binary-search 三种协议上做补充比较；单次诊断平均推理约 45 秒。

局限性

强依赖显式异常、可执行证据和工具复现，静默错误或仅语义偏差但无异常触发的失败基本不在处理范围内。主实验规模不大，且包含合成注入故障与特定系统采集的轨迹，超参又在 TracerTraj 10% 留出集上调节后跨集固定，外推到更杂乱的真实生产环境仍缺少硬证据。记忆模块与多代理工具链还引入明显推理时延，论文也没有给出与更强、预算对齐的检索式或训练式定位器的全面对照。