Arxiv Insights - Curated Research Intelligence

核心发现

InfoChess把目标从“吃子/胜负”改成“持续推断对手王的位置”，从机制上剥离了物质收益，使信息竞争成为唯一驱动力。
仅靠更强的对手建模就能提升表现：VisMax→BeliefMax、HidingVisMax→HidingBeliefMax 都带来更高得分，说明在该环境里“看得更准”确实优于只做局部贪心。
同时建模“对手王位置”和“对手可见性”的策略最强，表明进攻性信息获取与防守性信息遮蔽是两条可叠加的有效维度。
RL 代理在该自定义环境中超过全部启发式基线，说明纯手工贪心并未覆盖全部可行策略，但其优势仍是在作者构造的有限博弈内成立。
赛道上提出的 belief entropy、oracle cross entropy、observer cross entropy 能区分“真实不确定性”“校准误差”和“动作诱导的观测噪声”，比单看分数更能解释策略差异。

实验规模

实验在一个8×8的自定义 InfoChess 棋盘上进行，每方25回合；棋子除王外都只能走一步，且无吃子机制。信念模型使用2层Transformer（4头、隐藏维128）+ MLP，在1万局由Random与VisMax混合生成的游戏数据上监督训练15个epoch；RL代理使用冻结的共享编码器和MLP打分器，训练45,000个episode，batch size为10，对手分布为30%自博弈、5%Random、15%VisMax、15%BeliefMax、15%HidingVisMax、20%HidingBeliefMax。评估上，成对胜负分布用100局自博弈和200局跨代理对局统计，逐回合曲线用每个对局组合250局平均，走子类型分布则汇总了1,000局对战。

局限性

核心贡献更像是“构造一个有趣的玩具型研究环境”，而不是解决一个领域公认的难题；结论主要证明在作者自定义博弈里，信息贪心和对手建模有用，但外推到更复杂的部分可观测多智能体问题仍然很弱。基线几乎都是本文内部设计的启发式策略，缺少与更强、更新的通用 MARL/belief modeling 方法进行严格对照，也没有系统消融来证明每条规则设计的必要性。信念模型还依赖带特权全状态标签的监督数据，训练数据来源于有限的随机混合对手，存在明显的环境归纳偏置。