Arxiv Insights - Curated Research Intelligence

核心发现

通过把私有执行状态与公共协调状态分离，并让异常只在结构化触发时进入门控流程，模型能把大量可局部修复的问题留在本地处理，减少上下文污染和无效广播。
三层门控（规则→成本评分→灰区LLM）里，主要收益来自前两层的确定性筛选；把更多异常交给LLM，或扩大灰区，并不会单调提升效果，反而显著抬高token成本。
在MindCraft 200个自定义episode及VillagerAgent的高协作分割上，TSR提升、CS下降，LRR和ECR上升，说明该方法确实缓解了过早升级和协调死锁，但效果高度依赖资源隔离与依赖瓶颈这类人为强化的任务设置。

实验规模

在两个Minecraft多智能体平台上评估：MindCraft标准长程任务（7个原生任务）与VillagerBench/VillagerAgent标准蓝图任务；同时构造MindCraft自定义高协作集200个episode（40个模板×5个seed，2人任务120个、3人任务80个，四类场景A-D各50个），并在VillagerAgent上构造资源隔离、信息隔离的高协作自定义分割。主基线为MindCraft自由通信框架和VillagerAgent DAG规划框架；另做了门控裁决器骨干敏感性实验（GPT-4o、Claude 3.5 Sonnet、GPT-4o-mini、Llama-3-70B/8B），核心控制栈使用GPT-4o或GPT-4-1106-preview，并基于Mineflayer/Prismarine执行。

局限性

自定义数据集通过资源隔离、依赖瓶颈和失败脚本主动放大协作需求，因此结果可能部分反映了任务构造对方法的定向匹配，而不一定代表更一般的多智能体协作场景。对比基线主要是MindCraft自由通信和VillagerAgent DAG规划，缺少更强的最新通信路由、经济通信或跨框架多智能体基线，也没有看到严格的多随机种子方差或显著性检验。门控特征与阈值依赖人工设计和离线调参，跨环境迁移性目前只能靠少量零样本实验间接支持。