自然语言处理★ 评分 5.8

CalVerT: Augmenting Agents with Calibrated Verifier Telemetry Improves Action and Learning in Knowledge-Intensive Tasks

Ashwin Vinod, Ying Ding, Elias Stengel-Eskin
2026年6月25日
关键词
校准自信度证据支撑度代理动作选择多跳问答自适应检索

核心发现

  1. 单一信号不足以指导动作选择:仅看自信度会混淆“自信但错误”和“自信且已验证”,仅看 grounding 又分不清“证据不足需要继续检索”与“证据与答案冲突需要修订”,因此必须联合两类 telemetry。
  2. 将 CalVerT 作为每轮状态输入后,代理会更早停止无效检索、也会在低置信/低 grounding 时转向继续检索或 refine;在 HotpotQA、2Wiki、MuSiQue、WiTQA 上,F1 总体提升且多数字段的 turn 数下降,说明它在纠正过度依赖参数记忆和过度检索两类失败模式。
  3. CalVerT 不只适用于提示词控制,也能替换现有自适应检索框架的单信号 gate;在 TARG、SeaKR、Verify-and-Edit、Self-Ask、SUGAR 上,4/5 框架 F1 提升,且部分方法显著减少动作次数,表明该 telemetry 具有较强可迁移性。
  4. 在 GRPO 训练场景中,把同样的 telemetry 加入状态后,训练出来的策略明显优于不带 telemetry 的同训练基线,说明该信号不仅能“推理时提示”,还会改善策略学习的样本效率与最终策略质量。

实验规模

在 4 个开放域 QA 基准上评估:HotpotQA-distractor、2WikiMultihopQA、MuSiQue、WiTQA;每个基准抽样 300 个开发集问题,使用 BM25 检索,WiTQA 额外加 cross-encoder reranker。提示词方法比较 Mistral-Small-24B-Instruct 与 Qwen3-32B 的 +tel/-tel;可迁移性实验覆盖 5 个现成框架(Self-Ask、TARG、SUGAR、Verify-and-Edit、SeaKR),在 HotpotQA 上做 100 对 paired 样本;训练实验用 1,600 个 HotpotQA-distractor dev 问题训练 GRPO/LoRA,分别在 Qwen3-8B 与 Qwen3-30B-A3B 上训练 200 步,并在 200 个留出样本上评估;另外还做了 gpt-4o 与 gpt-4.1 的 100 样本闭源模型验证,以及单一 telemetry 组件消融。

局限性

这项工作本质上是把两个已有外部信号做了更系统的组合与注入,方法增量明显,离“新范式”仍有距离。实验主要集中在开放域多跳 QA,样本规模虽不小但仍偏任务局部,且多为开发集抽样;对真实长程代理、工具链复杂环境、以及不同检索系统的泛化证据还不够强。作者自己的结论也承认该设计偏向“单答案、可提交即停”的任务形态,对答案召回型任务并不适配。

Paper ID: 2606.21777