智能体系统★ 评分 4.8

Weak-Link Optimization for Multi-Agent Reasoning and Collaboration

Haoyu Bian, Chaoning Zhang, Jiaquan Zhang, Xingyao Li, Yuanfang Guo, Wei Dong, Yang Yang
2026年4月26日
关键词
弱链接优化多智能体推理任务签名元学习权重预测预算分配

核心发现

  1. 用少量任务样本经SIA搜索得到“最优代理权重”,再用任务签名+MLP做零样本权重预测,实现弱代理定位;但本质上仍是学习任务到权重的映射,方法论增量大于范式创新。
  2. 按低权重代理获得更多重复采样预算的规则,WORC在6个推理基准上平均达到82.2%,高于AgentChain基线77.4%,也优于AFlow、FoT等对比方法,说明“补弱”比单纯堆强代理更有效。
  3. WORC接入MetaGPT、HIMA、MAS2和AgentChain后均有稳定增益,且HO/PSO/GWO三种SIA结果接近;EvalAgent与人类评分的加权Kappa为0.72-0.78,支持其可用性,但也暴露出收益主要来自更高测试时算力而非复杂新机制。

实验规模

主实验覆盖6个推理基准:MATH、GSM8K、BBH、MMLU-CF、HotpotQA、LongBench;以AgentChain为核心框架,包含4个专门代理,统一使用API级大模型GPT-4o驱动,未披露模型参数量。对比基线包括CoT、CoT-SC、Self-Refine、Analogical Prompting、AFlow、FoT、AoT,并将WORC嵌入MetaGPT、HIMA、MAS2、AgentChain等4类MAS架构做泛化验证。权重知识库由HO、PSO、GWO三种群智能算法在每个数据集上以10个few-shot样本、种群大小5、迭代3次构建;另做100条GSM8K和100条HotpotQA的人类一致性评估,以及6个数据集的成本分析。

局限性

方法的核心收益很大程度来自测试时重复采样和预算重分配,成本几乎翻倍,单位算力收益并不漂亮。弱代理定位依赖少量few-shot样本、任务签名和LLM式EvalAgent,存在评估偏差与任务分布敏感性,难以证明对更大规模、更异构多智能体系统的稳定泛化。实验主要覆盖少数推理基准和API大模型,尚不足以支撑其“通用优化框架”的强结论。

Paper ID: 2604.15972