智能体系统★ 评分 5.3
SocialGrid: A Benchmark for Planning and Social Reasoning in Embodied Multi-Agent Systems
Hikaru Shindo, Hanzhao Lin, Lukas Helff, Patrick Schramowski, Kristian Kersting
2026年4月26日
关键词
具身多智能体基准路径规划社会推理社交欺骗检测信任校准
核心发现
- SocialGrid 把社交推理问题落到具身 GridWorld 中,并引入 Planning Oracle 将“导航能力”与“识骗能力”解耦,否则社交推理评估会被规划失败严重污染。
- 在无辅助导航条件下,8 个模型的任务完成率与规划成功率普遍低于 60%,说明当前 LLM 的具身规划仍不稳,参数规模增大并不能自动补齐这一缺口。
- 即使开启高强度规划辅助,36 个对战配对的检测准确率仍均值 29.9%,接近 33% 随机基线,表明模型识别 impostor 主要依赖浅层启发式,而不是跨回合证据累积。
- 失败分析显示,证据稀缺时模型会随机投票,证据不足时依赖“动作异常/靠近尸体”等弱线索;PPO+LoRA 在简化 1 人环境中也几乎没有实质提升,说明该瓶颈不易靠小规模 RL 直接修复。
实验规模
在默认 GridWorld 配置下评测:4 个房间的 2×2 布局、每房间 10×10、共 7 名玩家(5 个 crewmates、2 个 impostors)、每局最多 500 个 macro-step(2500 个环境步)、局部视野半径 4。导航实验覆盖 8 个开源模型/变体,包括 Qwen3-30B、Qwen3-next-80B、Llama3.1-70B、GPT-OSS-120B、Gemma3-27B、DeepSeek-R1-70B、Phi4-Reasoning-14B,以及 Qwen3-4B 的 RL 版本;每个模型做 20 局。对抗 league 用 6 个模型、30 个 matchup,分别在 10×10 和 14×14 场景下共收集 952 局(486+466)。复杂度扫参覆盖房间数 4/6/9/16、地图尺寸从 10×10 到 18×18,每种配置 3 局。RL 部分使用 Qwen3-4B-Instruct-2507 + LoRA/PPO,在 1 人、7×7 的简化环境中训练 2500 次更新。
局限性
这是一个高度简化的离散网格世界,且取消了讨论阶段;因此,结论对真实世界多智能体社交互动和更丰富的具身场景外推有限。很多结果依赖较少的 episode 数(如每个配置 20 局或 3 局)以及启发式的失败模式分类、模型自报 trust 分数,稳健性仍不足。另一个问题是,impostor 优势和 33% 静态随机基线都带有较强的任务设定与基线定义色彩,不能完全排除 game balance 与提示词设计对结果的影响。