Arxiv Insights - Curated Research Intelligence

核心发现

用少量任务样本经SIA搜索得到“最优代理权重”，再用任务签名+MLP做零样本权重预测，实现弱代理定位；但本质上仍是学习任务到权重的映射，方法论增量大于范式创新。
按低权重代理获得更多重复采样预算的规则，WORC在6个推理基准上平均达到82.2%，高于AgentChain基线77.4%，也优于AFlow、FoT等对比方法，说明“补弱”比单纯堆强代理更有效。
WORC接入MetaGPT、HIMA、MAS2和AgentChain后均有稳定增益，且HO/PSO/GWO三种SIA结果接近；EvalAgent与人类评分的加权Kappa为0.72-0.78，支持其可用性，但也暴露出收益主要来自更高测试时算力而非复杂新机制。

实验规模

主实验覆盖6个推理基准：MATH、GSM8K、BBH、MMLU-CF、HotpotQA、LongBench；以AgentChain为核心框架，包含4个专门代理，统一使用API级大模型GPT-4o驱动，未披露模型参数量。对比基线包括CoT、CoT-SC、Self-Refine、Analogical Prompting、AFlow、FoT、AoT，并将WORC嵌入MetaGPT、HIMA、MAS2、AgentChain等4类MAS架构做泛化验证。权重知识库由HO、PSO、GWO三种群智能算法在每个数据集上以10个few-shot样本、种群大小5、迭代3次构建；另做100条GSM8K和100条HotpotQA的人类一致性评估，以及6个数据集的成本分析。

局限性

方法的核心收益很大程度来自测试时重复采样和预算重分配，成本几乎翻倍，单位算力收益并不漂亮。弱代理定位依赖少量few-shot样本、任务签名和LLM式EvalAgent，存在评估偏差与任务分布敏感性，难以证明对更大规模、更异构多智能体系统的稳定泛化。实验主要覆盖少数推理基准和API大模型，尚不足以支撑其“通用优化框架”的强结论。