Arxiv Insights - Curated Research Intelligence

核心发现

单一信号不足以指导动作选择：仅看自信度会混淆“自信但错误”和“自信且已验证”，仅看 grounding 又分不清“证据不足需要继续检索”与“证据与答案冲突需要修订”，因此必须联合两类 telemetry。
将 CalVerT 作为每轮状态输入后，代理会更早停止无效检索、也会在低置信/低 grounding 时转向继续检索或 refine；在 HotpotQA、2Wiki、MuSiQue、WiTQA 上，F1 总体提升且多数字段的 turn 数下降，说明它在纠正过度依赖参数记忆和过度检索两类失败模式。
CalVerT 不只适用于提示词控制，也能替换现有自适应检索框架的单信号 gate；在 TARG、SeaKR、Verify-and-Edit、Self-Ask、SUGAR 上，4/5 框架 F1 提升，且部分方法显著减少动作次数，表明该 telemetry 具有较强可迁移性。
在 GRPO 训练场景中，把同样的 telemetry 加入状态后，训练出来的策略明显优于不带 telemetry 的同训练基线，说明该信号不仅能“推理时提示”，还会改善策略学习的样本效率与最终策略质量。

实验规模

在 4 个开放域 QA 基准上评估：HotpotQA-distractor、2WikiMultihopQA、MuSiQue、WiTQA；每个基准抽样 300 个开发集问题，使用 BM25 检索，WiTQA 额外加 cross-encoder reranker。提示词方法比较 Mistral-Small-24B-Instruct 与 Qwen3-32B 的 +tel/-tel；可迁移性实验覆盖 5 个现成框架（Self-Ask、TARG、SUGAR、Verify-and-Edit、SeaKR），在 HotpotQA 上做 100 对 paired 样本；训练实验用 1,600 个 HotpotQA-distractor dev 问题训练 GRPO/LoRA，分别在 Qwen3-8B 与 Qwen3-30B-A3B 上训练 200 步，并在 200 个留出样本上评估；另外还做了 gpt-4o 与 gpt-4.1 的 100 样本闭源模型验证，以及单一 telemetry 组件消融。

局限性

这项工作本质上是把两个已有外部信号做了更系统的组合与注入，方法增量明显，离“新范式”仍有距离。实验主要集中在开放域多跳 QA，样本规模虽不小但仍偏任务局部，且多为开发集抽样；对真实长程代理、工具链复杂环境、以及不同检索系统的泛化证据还不够强。作者自己的结论也承认该设计偏向“单答案、可提交即停”的任务形态，对答案召回型任务并不适配。