智能体系统★ 评分 4.8
Evaluating Tool-Using Language Agents: Judge Reliability, Propagation Cascades, and Runtime Mitigation in AgentProp-Bench
Bhaskar Gurram
2026年4月26日
关键词
工具调用代理LLM裁判幻觉传播运行时拦截人工校验
核心发现
- 子串式启发判分与100条人工标签的Cohen's κ仅为0.049,几乎是随机水平;三LLM多数投票提升到κ=0.432,但仍只是中等一致,且明显偏保守,说明常见自动评测会系统性低估正确率。
- 在1350条P2 semantic-wrong注入轨迹上,参数级错误并非总会传到终点,但最终错答的人工校准概率约为0.62,模型间约0.46–0.73,说明错误传播是常见而非偶发现象。
- 把鲁棒性拆成“拒绝坏参数”和“接受后恢复”两项后,9个模型上的Spearman ρ=0.126、p=0.747,未见显著相关,表明代理鲁棒性至少是二维的,不能用单一分数概括。
- 运行时Interceptor在GPT-4o-mini上以600对600并发对照将幻觉率从55.8%降到32.8%(-23.0个百分点),但对Gemini-2.0-Flash无显著效果,因为后者本身在参数层面就拒绝了大多数注入。
实验规模
构建了2000个核心任务和300个留出Retail任务,覆盖Calendar、Weather、Medical、Knowledge四个主域;共收集2300条轨迹,评测9个生产LLM(OpenAI、Google、DeepSeek)。评测方法比较了子串启发式、三模型LLM裁判集成(GPT-4o、Gemini-2.5-Flash、GPT-4o-mini)以及100条人工标注;传播实验基于1350条P2 semantic-wrong轨迹;拦截实验对GPT-4o-mini和Gemini-2.0-Flash各做600条并发对照;工具环境为确定性Python模拟器,默认temperature=0。
局限性
人工标注只有100条,而且主要由第一作者完成,第二标注者只重叠了7条,因而κ和“人工校准”本身的稳定性并不强。 核心任务与工具都是确定性模拟器,不是真实API环境;传播与拦截结论在真实噪声、限流和多轮记忆场景中的外推性有限。 不少分模型统计的S2样本极小(最低只有2条),9个模型点上的Spearman检验功效很弱;此外,拦截器的绝对幻觉率也未做人工复核,只能说明相对差值而不能完全证明真实改进幅度。