智能体系统★ 评分 4.7
Gated Coordination for Efficient Multi-Agent Collaboration in Minecraft Game
HuaDong Jian, Chenghao Li, Haoyu Wang, Jiajia Shuai, Jinyu Guo, Yang Yang, Chaoning Zhang
2026年4月26日
关键词
Minecraft多智能体门控通信私有-公共状态分离成本敏感决策长程协作规划
核心发现
- 通过把私有执行状态与公共协调状态分离,并让异常只在结构化触发时进入门控流程,模型能把大量可局部修复的问题留在本地处理,减少上下文污染和无效广播。
- 三层门控(规则→成本评分→灰区LLM)里,主要收益来自前两层的确定性筛选;把更多异常交给LLM,或扩大灰区,并不会单调提升效果,反而显著抬高token成本。
- 在MindCraft 200个自定义episode及VillagerAgent的高协作分割上,TSR提升、CS下降,LRR和ECR上升,说明该方法确实缓解了过早升级和协调死锁,但效果高度依赖资源隔离与依赖瓶颈这类人为强化的任务设置。
实验规模
在两个Minecraft多智能体平台上评估:MindCraft标准长程任务(7个原生任务)与VillagerBench/VillagerAgent标准蓝图任务;同时构造MindCraft自定义高协作集200个episode(40个模板×5个seed,2人任务120个、3人任务80个,四类场景A-D各50个),并在VillagerAgent上构造资源隔离、信息隔离的高协作自定义分割。主基线为MindCraft自由通信框架和VillagerAgent DAG规划框架;另做了门控裁决器骨干敏感性实验(GPT-4o、Claude 3.5 Sonnet、GPT-4o-mini、Llama-3-70B/8B),核心控制栈使用GPT-4o或GPT-4-1106-preview,并基于Mineflayer/Prismarine执行。
局限性
自定义数据集通过资源隔离、依赖瓶颈和失败脚本主动放大协作需求,因此结果可能部分反映了任务构造对方法的定向匹配,而不一定代表更一般的多智能体协作场景。对比基线主要是MindCraft自由通信和VillagerAgent DAG规划,缺少更强的最新通信路由、经济通信或跨框架多智能体基线,也没有看到严格的多随机种子方差或显著性检验。门控特征与阈值依赖人工设计和离线调参,跨环境迁移性目前只能靠少量零样本实验间接支持。