自然语言处理★ 评分 6.1

Denoising Iterative Self-Correction: Structured Verification Loops for Reliable LLM Reasoning

Shen Yin, David Ken, Joel Stremmel
2026年6月25日
关键词
LLM自纠错迭代验证判断门控推理可靠性证据驱动修正

核心发现

  1. 显式判断门控是精度核心:与CoVe、Self-Refine相比,DISC在多数基准上显著降低误改正确答案的比例,I:D普遍更高,说明“先判错再改写”比无条件修订更稳。
  2. 迭代循环主要提升修复率:在GPQA的迭代消融中,K=1到K=3带来主要收益,之后进入平台期,说明多轮验证能继续捞回错误,但边际收益迅速递减。
  3. 验证与判决能力是瓶颈:同模型自纠错常被自我确认偏差限制;把验证和判决交给更强模型后,尤其在GPQA上,修复能力明显增强,说明问题不只是“会不会改”,而是“能否识别并执行修正”。
  4. 低能力模型会出现“看出矛盾但不会改”的失败模式:nano judge在强验证证据下仍频繁输出No_Mistake,表明自纠错存在能力下限,低于阈值时门控会让系统几乎失效。

实验规模

在三类可验证任务上评估:BIG-Bench Mistake(共1792条,五个子任务:Tracking Shuffled Objects 300、Logical Deduction 300、Multistep Arithmetic 300、Word Sorting 300、Dyck Languages 592)、HotpotQA验证集(7405条)、GPQA Diamond(198条)。使用四个模型/角色组合:Claude Sonnet 4.5、GPT-4o、gpt-5.2、gpt-4.1-nano;主实验多采用K=3,另在GPQA上做K=1/2/3/5/7/8迭代预算消融,以及5种跨模型角色分配配置、门控去除消融和提示词替换消融。对比基线包括Chain-of-Verification和Self-Refine,并报告准确率/F1、Improvement、Degradation、I:D和Repair Rate及其95% bootstrap置信区间。

局限性

方法主要建立在“答案可客观判定对错”的任务上,对总结、创作、开放式推理等主观评估场景的有效性没有证明。DISC对验证器和判决器能力高度敏感,低能力模型即使拿到正确证据也可能无法触发修正,因此适用范围受模型门槛约束。实验虽比单点工作更完整,但核心对比仍集中在少数基准和少数闭源模型上,尚不足以证明这是一种普适的新范式。

Paper ID: 2606.21724