Arxiv Insights - Curated Research Intelligence

核心发现

SocialGrid 把社交推理问题落到具身 GridWorld 中，并引入 Planning Oracle 将“导航能力”与“识骗能力”解耦，否则社交推理评估会被规划失败严重污染。
在无辅助导航条件下，8 个模型的任务完成率与规划成功率普遍低于 60%，说明当前 LLM 的具身规划仍不稳，参数规模增大并不能自动补齐这一缺口。
即使开启高强度规划辅助，36 个对战配对的检测准确率仍均值 29.9%，接近 33% 随机基线，表明模型识别 impostor 主要依赖浅层启发式，而不是跨回合证据累积。
失败分析显示，证据稀缺时模型会随机投票，证据不足时依赖“动作异常/靠近尸体”等弱线索；PPO+LoRA 在简化 1 人环境中也几乎没有实质提升，说明该瓶颈不易靠小规模 RL 直接修复。

实验规模

在默认 GridWorld 配置下评测：4 个房间的 2×2 布局、每房间 10×10、共 7 名玩家（5 个 crewmates、2 个 impostors）、每局最多 500 个 macro-step（2500 个环境步）、局部视野半径 4。导航实验覆盖 8 个开源模型/变体，包括 Qwen3-30B、Qwen3-next-80B、Llama3.1-70B、GPT-OSS-120B、Gemma3-27B、DeepSeek-R1-70B、Phi4-Reasoning-14B，以及 Qwen3-4B 的 RL 版本；每个模型做 20 局。对抗 league 用 6 个模型、30 个 matchup，分别在 10×10 和 14×14 场景下共收集 952 局（486+466）。复杂度扫参覆盖房间数 4/6/9/16、地图尺寸从 10×10 到 18×18，每种配置 3 局。RL 部分使用 Qwen3-4B-Instruct-2507 + LoRA/PPO，在 1 人、7×7 的简化环境中训练 2500 次更新。

局限性

这是一个高度简化的离散网格世界，且取消了讨论阶段；因此，结论对真实世界多智能体社交互动和更丰富的具身场景外推有限。很多结果依赖较少的 episode 数（如每个配置 20 局或 3 局）以及启发式的失败模式分类、模型自报 trust 分数，稳健性仍不足。另一个问题是，impostor 优势和 33% 静态随机基线都带有较强的任务设定与基线定义色彩，不能完全排除 game balance 与提示词设计对结果的影响。