Arxiv Insights - Curated Research Intelligence

核心发现

显式判断门控是精度核心：与CoVe、Self-Refine相比，DISC在多数基准上显著降低误改正确答案的比例，I:D普遍更高，说明“先判错再改写”比无条件修订更稳。
迭代循环主要提升修复率：在GPQA的迭代消融中，K=1到K=3带来主要收益，之后进入平台期，说明多轮验证能继续捞回错误，但边际收益迅速递减。
验证与判决能力是瓶颈：同模型自纠错常被自我确认偏差限制；把验证和判决交给更强模型后，尤其在GPQA上，修复能力明显增强，说明问题不只是“会不会改”，而是“能否识别并执行修正”。
低能力模型会出现“看出矛盾但不会改”的失败模式：nano judge在强验证证据下仍频繁输出No_Mistake，表明自纠错存在能力下限，低于阈值时门控会让系统几乎失效。

实验规模

在三类可验证任务上评估：BIG-Bench Mistake（共1792条，五个子任务：Tracking Shuffled Objects 300、Logical Deduction 300、Multistep Arithmetic 300、Word Sorting 300、Dyck Languages 592）、HotpotQA验证集（7405条）、GPQA Diamond（198条）。使用四个模型/角色组合：Claude Sonnet 4.5、GPT-4o、gpt-5.2、gpt-4.1-nano；主实验多采用K=3，另在GPQA上做K=1/2/3/5/7/8迭代预算消融，以及5种跨模型角色分配配置、门控去除消融和提示词替换消融。对比基线包括Chain-of-Verification和Self-Refine，并报告准确率/F1、Improvement、Degradation、I:D和Repair Rate及其95% bootstrap置信区间。

局限性

方法主要建立在“答案可客观判定对错”的任务上，对总结、创作、开放式推理等主观评估场景的有效性没有证明。DISC对验证器和判决器能力高度敏感，低能力模型即使拿到正确证据也可能无法触发修正，因此适用范围受模型门槛约束。实验虽比单点工作更完整，但核心对比仍集中在少数基准和少数闭源模型上，尚不足以证明这是一种普适的新范式。