智能体系统★ 评分 5.0

Preregistered Belief Revision Contracts

Saad Alqithami
2026年4月26日
关键词
预注册信念修正动态认知逻辑多智能体系统证据令牌审计可追溯

核心发现

  1. PBRC把通信层与认知更新层分开:预先登记触发器、修正算子、优先级和回退规则,非回退更新必须携带非空且已验证的证据见证集。
  2. 在证据型合同加保守回退下,社交空轮次只能走回退,因此置信度不增;若回退还保持argmax,则纯从众驱动的“错而自信”级联被排除。
  3. 任意可审计触发协议都可编译成PBRC规范形:空见证的“理由”在审计上被归为回退,同时保持信念轨迹与审计轨迹等价。
  4. 若合同、算子、见证器与路由器都只依赖验证后的令牌,则更新只由令牌暴露轨迹决定;在 flooding 下,轨迹等价于截断可达性,证据闭包时间等于图直径。
  5. Sound enforcement 使 top-hypothesis 变化可追溯到具体验证令牌,且 replay、forge、freshness、collusion 等风险被定位到证据有效性层而非“社会推理”本身;CDDL 则提供了一个可写可检的运行时不变量语言。

实验规模

主要是形式化证明加一组仿真与基准适配实验,没有训练型数据集或模型参数量。Simulation I:n=20、二元假设、T=10、每种拓扑500次试验,拓扑包括 ring、ER(p=0.3)、complete,对比 baseline(social pooling + sharpening)与 PBRC fallback;Simulation I(b):对回退参数λ∈{0,0.02,0.05,0.1,0.2,0.4}做消融。Simulation II:生成2000对 token-equivalent 事件,检验语义修辞变化不影响更新。Simulation III:在 ring、ER、star、complete、grid 上做 flooding,每个节点一个唯一 token,验证闭包时间与图直径一致。Simulation IV:单智能体、持续有效证据 token、路由器假阴性率q,考察可用性/延迟。Simulation V:token 数N的验证开销压力测试,比较全验证与短路验证。Simulation VI:n=25、ER图p=0.15、T=8、初始证据持有比例ρ=0.2、400次试验、verifier noise ε、k∈{1,3,5} 的多见证触发。基准适配还包含 KAIROS 全测试集 n=3000,使用 gpt-4o、temperature=0.7、reflection mode,对比 Raw、Social、Social_reflected 与 PBRC token-empty gate。

局限性

大量定理建立在强前提上:令牌有效性、见证可提取、token-invariance、token-determined 路由器、argmax-preserving 回退以及 flooding 传播;一旦证据层或路由层失真,很多保证立即失效。实证部分主要是小规模仿真和一次 KAIROS 基准适配,没有看到对更强社会推理或多智能体编排基线的系统性对比,也缺少足够独立的消融来支撑“工业级”主张。更关键的是,若把“非空证据触发才能更新”作为定义,许多核心结论在逻辑上更像规则展开而不是经验发现,因此外推到真实开放式任务的能力仍未被证明。

Paper ID: 2604.15558