智能体系统★ 评分 5.4
CAPO: Counterfactual Credit Assignment in Sequential Cooperative Teams
Shripad Deshmukh, Jayakumar Subramanian, Raghavendra Addanki, Nikos Vlassis
2026年4月26日
关键词
序贯多智能体强化学习反事实信用分配加性奖励分解虚构采样策略梯度优化
核心发现
- 将 Wolpert-Tumer 的 Aristocrat Utility 推广到序贯协作场景,定义 SeqAU,并证明在所有前缀条件基线中,它唯一地最大化每个智能体的 learnability。
- 在团队期望奖励近似可加的前提下,用 ridge 回归从组奖励拟合各智能体分量,再利用 upstream cancellation 将 SeqAU 分解为可闭式计算的直接效应和需用 fictitious sampling 估计的间接效应。
- 理论上,CAPO 的偏差由非加性残差和策略漂移共同决定,方差在加性奖励/因子化策略下可与 K 脱钩;实验上,它只在合成序贯 bandit 上做到了较系统验证,且小团队 K=2 时并不优于最强基线。
实验规模
实验全部在一个受控的序贯合作 bandit 测试床上完成:动作空间大小 A=4,团队规模 K 取 2、4、6、8、10、16;奖励由加性项加 pairwise interaction 组成,交互强度 λ_int∈{0,0.25,0.5,0.75,1.0},非平稳参数 ρ∈{0,1,2}(优化主实验)或 ρ∈{0,5,10,20}(消融)。优势估计 MSE 实验使用 N=16 条 rollout、30 个随机种子;端到端优化实验使用 N=32、L=64 个 fictitious samples、300 个种子,并与 MA-GRPO、HA-GRPO、C3 对比。C3 由于 replay 成本只跑 25 次迭代,其余方法按等真实环境调用预算运行 25(K+2) 次迭代。
局限性
方法强依赖“奖励可加分解”这一假设;一旦交互项较强,CAPO 的优势估计会出现可观偏差,作者也明确承认这类场景可能需要更丰富的估计器。实验只在低维合成序贯 bandit 上验证,没有真实多智能体 MDP 或多 LLM pipeline 的实证,因此对实际部署价值的外推力度有限。另一个不小的问题是,部分理论结论与理想化的 on-policy / population-level 近似绑定,有限样本下 fictitious sampling 的完整分析并未给出。