Arxiv Insights - Curated Research Intelligence

核心发现

现有VMAS的关键瓶颈不是单点模型能力，而是固定拓扑与冻结技能共同造成的路由失配；更合理的协作图必须同时条件化于图像、文本和当前技能状态。
MMGT将图像patch、问题语义和技能嵌入联合编码，生成查询条件下的有向通信图，从而比静态Linear/Layered/Centralized/Random/Complete拓扑更适配OCR、空间与组合推理任务。
Skill Designer把失败样本转化为技能修改或新增，并将更新后的技能文本重新编码回MMGT，形成技能-拓扑协同演化闭环；在4个基准、5种拓扑、4个VLM骨干上均带来稳定增益，但幅度多为1-3个百分点，属于稳健增量而非范式转移。

实验规模

在4个公开多模态基准上评测：MMBench、MathVista、RealWorldQA、InfoVQA；以Qwen3-VL-8B-Instruct/Thinking为主要骨干，比较单代理DirectAnswer与5种多智能体结构（Linear、Layered、Centralized、Random、Complete），并将SkillGraph扩展到Qwen3-VL-4B/32B、LLaVA-OneVision-Qwen2-7B、Qwen2.5-VL-7B-Instruct、InternVL3-2B/8B/38B。文中未明确披露训练或测试总样本数，主要依赖各公开基准的标准测试集，以及按K步进行的技能演化与多轮迭代评估。

局限性

论文只在4个公开基准和若干同系VLM上验证，缺少跨域任务、真实部署场景和统计显著性检验，也没有充分报告额外计算开销、延迟或失败分布。所谓技能进化本质上主要是对提示词、触发条件和检索排序的文本级修改，并未学习新的参数化推理能力，因此增益可能部分来自更强的提示工程而非真正的能力增长。另一个限制是拓扑搜索被预设候选边集和DAG约束收窄，自由度有限，和更开放的端到端协作图学习相比，方法上仍偏保守。