Arxiv Insights - Curated Research Intelligence

核心发现

将 K1 训练成只覆盖部分 convention 的“受限跟随者”，能逼迫 K2 在互动中先探测再决策，而不是见招拆招地被动模仿。
在均匀奖励任务里，ConventionPlay 对 K0 对手基本保持与基线相当的协调效率，说明新训练法没有明显破坏基础对齐能力。
在差异化奖励任务里，ConventionPlay 在 Matrix Game 和 PMR 的 K1 测试上都优于 BestResponse、FCP 和 SyKLRBR，表明其确实更擅长把团队推向更高收益的 convention。
论文把收益提升主要归因于“探测式 steering”行为，但这一机制更多是由结果间接支持，缺少足够强的消融来排除人口构造细节带来的贡献。

实验规模

实验只覆盖两个合成协调环境：Repeated Matrix Game 和 Point Mass Rendezvous（PMR），且各自包含均匀奖励与差异化奖励两种设置，共4个评测域。K0 population 通过在不同随机种子下训练 MAPPO 获得，K1 population 通过对 K0 的分层抽样并用 PPO+循环网络训练得到，最终 K2 作为对 K0+K1 的 best response 训练。评测基线包括 BestResponse、FCP 和 SyKLRBR；结果以3个随机种子的均值±标准差报告。论文未给出明确的训练步数、参数量、总交互样本数或各 population 的精确规模。

局限性

实验场景仍然是低维、结构化的玩具型协作任务，尚不足以证明方法能扩展到更复杂的部分可观测人机协作或真实多智能体环境。主要结论依赖3个随机种子的平均结果，且缺少系统性消融来验证提升究竟来自 K1 受限人口设计，还是来自其他训练细节。另一个隐患是 capability 仅用自博弈回报 J_SP 近似，无法区分“同分但不同策略结构”的 convention，方法对 population 构造的质量依赖较强。