智能体系统★ 评分 5.2

SkillGraph: Self-Evolving Multi-Agent Collaboration with Multimodal Graph Topology

Zheng Nie, Ruolin Shen, Xinlei Yu, Bo Yin, Jiangning Zhang, Xiaobin Hu
2026年4月26日
关键词
多智能体系统多模态图Transformer动态通信拓扑技能库演化视觉语言模型

核心发现

  1. 现有VMAS的关键瓶颈不是单点模型能力,而是固定拓扑与冻结技能共同造成的路由失配;更合理的协作图必须同时条件化于图像、文本和当前技能状态。
  2. MMGT将图像patch、问题语义和技能嵌入联合编码,生成查询条件下的有向通信图,从而比静态Linear/Layered/Centralized/Random/Complete拓扑更适配OCR、空间与组合推理任务。
  3. Skill Designer把失败样本转化为技能修改或新增,并将更新后的技能文本重新编码回MMGT,形成技能-拓扑协同演化闭环;在4个基准、5种拓扑、4个VLM骨干上均带来稳定增益,但幅度多为1-3个百分点,属于稳健增量而非范式转移。

实验规模

在4个公开多模态基准上评测:MMBench、MathVista、RealWorldQA、InfoVQA;以Qwen3-VL-8B-Instruct/Thinking为主要骨干,比较单代理DirectAnswer与5种多智能体结构(Linear、Layered、Centralized、Random、Complete),并将SkillGraph扩展到Qwen3-VL-4B/32B、LLaVA-OneVision-Qwen2-7B、Qwen2.5-VL-7B-Instruct、InternVL3-2B/8B/38B。文中未明确披露训练或测试总样本数,主要依赖各公开基准的标准测试集,以及按K步进行的技能演化与多轮迭代评估。

局限性

论文只在4个公开基准和若干同系VLM上验证,缺少跨域任务、真实部署场景和统计显著性检验,也没有充分报告额外计算开销、延迟或失败分布。所谓技能进化本质上主要是对提示词、触发条件和检索排序的文本级修改,并未学习新的参数化推理能力,因此增益可能部分来自更强的提示工程而非真正的能力增长。另一个限制是拓扑搜索被预设候选边集和DAG约束收窄,自由度有限,和更开放的端到端协作图学习相比,方法上仍偏保守。

Paper ID: 2604.17503