Arxiv Insights - Curated Research Intelligence

核心发现

将 Wolpert-Tumer 的 Aristocrat Utility 推广到序贯协作场景，定义 SeqAU，并证明在所有前缀条件基线中，它唯一地最大化每个智能体的 learnability。
在团队期望奖励近似可加的前提下，用 ridge 回归从组奖励拟合各智能体分量，再利用 upstream cancellation 将 SeqAU 分解为可闭式计算的直接效应和需用 fictitious sampling 估计的间接效应。
理论上，CAPO 的偏差由非加性残差和策略漂移共同决定，方差在加性奖励/因子化策略下可与 K 脱钩；实验上，它只在合成序贯 bandit 上做到了较系统验证，且小团队 K=2 时并不优于最强基线。

实验规模

实验全部在一个受控的序贯合作 bandit 测试床上完成：动作空间大小 A=4，团队规模 K 取 2、4、6、8、10、16；奖励由加性项加 pairwise interaction 组成，交互强度 λ_int∈{0,0.25,0.5,0.75,1.0}，非平稳参数 ρ∈{0,1,2}（优化主实验）或 ρ∈{0,5,10,20}（消融）。优势估计 MSE 实验使用 N=16 条 rollout、30 个随机种子；端到端优化实验使用 N=32、L=64 个 fictitious samples、300 个种子，并与 MA-GRPO、HA-GRPO、C3 对比。C3 由于 replay 成本只跑 25 次迭代，其余方法按等真实环境调用预算运行 25(K+2) 次迭代。

局限性

方法强依赖“奖励可加分解”这一假设；一旦交互项较强，CAPO 的优势估计会出现可观偏差，作者也明确承认这类场景可能需要更丰富的估计器。实验只在低维合成序贯 bandit 上验证，没有真实多智能体 MDP 或多 LLM pipeline 的实证，因此对实际部署价值的外推力度有限。另一个不小的问题是，部分理论结论与理想化的 on-policy / population-level 近似绑定，有限样本下 fictitious sampling 的完整分析并未给出。