智能体系统★ 评分 4.6

InfoChess: A Game of Adversarial Inference and a Laboratory for Quantifiable Information Control

Kieran A. Murphy
2026年4月26日
关键词
对抗推理部分可观测博弈信念建模信息增益强化学习

核心发现

  1. InfoChess把目标从“吃子/胜负”改成“持续推断对手王的位置”,从机制上剥离了物质收益,使信息竞争成为唯一驱动力。
  2. 仅靠更强的对手建模就能提升表现:VisMax→BeliefMax、HidingVisMax→HidingBeliefMax 都带来更高得分,说明在该环境里“看得更准”确实优于只做局部贪心。
  3. 同时建模“对手王位置”和“对手可见性”的策略最强,表明进攻性信息获取与防守性信息遮蔽是两条可叠加的有效维度。
  4. RL 代理在该自定义环境中超过全部启发式基线,说明纯手工贪心并未覆盖全部可行策略,但其优势仍是在作者构造的有限博弈内成立。
  5. 赛道上提出的 belief entropy、oracle cross entropy、observer cross entropy 能区分“真实不确定性”“校准误差”和“动作诱导的观测噪声”,比单看分数更能解释策略差异。

实验规模

实验在一个8×8的自定义 InfoChess 棋盘上进行,每方25回合;棋子除王外都只能走一步,且无吃子机制。信念模型使用2层Transformer(4头、隐藏维128)+ MLP,在1万局由Random与VisMax混合生成的游戏数据上监督训练15个epoch;RL代理使用冻结的共享编码器和MLP打分器,训练45,000个episode,batch size为10,对手分布为30%自博弈、5%Random、15%VisMax、15%BeliefMax、15%HidingVisMax、20%HidingBeliefMax。评估上,成对胜负分布用100局自博弈和200局跨代理对局统计,逐回合曲线用每个对局组合250局平均,走子类型分布则汇总了1,000局对战。

局限性

核心贡献更像是“构造一个有趣的玩具型研究环境”,而不是解决一个领域公认的难题;结论主要证明在作者自定义博弈里,信息贪心和对手建模有用,但外推到更复杂的部分可观测多智能体问题仍然很弱。基线几乎都是本文内部设计的启发式策略,缺少与更强、更新的通用 MARL/belief modeling 方法进行严格对照,也没有系统消融来证明每条规则设计的必要性。信念模型还依赖带特权全状态标签的监督数据,训练数据来源于有限的随机混合对手,存在明显的环境归纳偏置。

Paper ID: 2604.15373