Arxiv Insights - Curated Research Intelligence

核心发现

PBRC把通信层与认知更新层分开：预先登记触发器、修正算子、优先级和回退规则，非回退更新必须携带非空且已验证的证据见证集。
在证据型合同加保守回退下，社交空轮次只能走回退，因此置信度不增；若回退还保持argmax，则纯从众驱动的“错而自信”级联被排除。
任意可审计触发协议都可编译成PBRC规范形：空见证的“理由”在审计上被归为回退，同时保持信念轨迹与审计轨迹等价。
若合同、算子、见证器与路由器都只依赖验证后的令牌，则更新只由令牌暴露轨迹决定；在 flooding 下，轨迹等价于截断可达性，证据闭包时间等于图直径。
Sound enforcement 使 top-hypothesis 变化可追溯到具体验证令牌，且 replay、forge、freshness、collusion 等风险被定位到证据有效性层而非“社会推理”本身；CDDL 则提供了一个可写可检的运行时不变量语言。

实验规模

主要是形式化证明加一组仿真与基准适配实验，没有训练型数据集或模型参数量。Simulation I：n=20、二元假设、T=10、每种拓扑500次试验，拓扑包括 ring、ER(p=0.3)、complete，对比 baseline（social pooling + sharpening）与 PBRC fallback；Simulation I(b)：对回退参数λ∈{0,0.02,0.05,0.1,0.2,0.4}做消融。Simulation II：生成2000对 token-equivalent 事件，检验语义修辞变化不影响更新。Simulation III：在 ring、ER、star、complete、grid 上做 flooding，每个节点一个唯一 token，验证闭包时间与图直径一致。Simulation IV：单智能体、持续有效证据 token、路由器假阴性率q，考察可用性/延迟。Simulation V：token 数N的验证开销压力测试，比较全验证与短路验证。Simulation VI：n=25、ER图p=0.15、T=8、初始证据持有比例ρ=0.2、400次试验、verifier noise ε、k∈{1,3,5} 的多见证触发。基准适配还包含 KAIROS 全测试集 n=3000，使用 gpt-4o、temperature=0.7、reflection mode，对比 Raw、Social、Social_reflected 与 PBRC token-empty gate。

局限性

大量定理建立在强前提上：令牌有效性、见证可提取、token-invariance、token-determined 路由器、argmax-preserving 回退以及 flooding 传播；一旦证据层或路由层失真，很多保证立即失效。实证部分主要是小规模仿真和一次 KAIROS 基准适配，没有看到对更强社会推理或多智能体编排基线的系统性对比，也缺少足够独立的消融来支撑“工业级”主张。更关键的是，若把“非空证据触发才能更新”作为定义，许多核心结论在逻辑上更像规则展开而不是经验发现，因此外推到真实开放式任务的能力仍未被证明。