自然语言处理★ 评分 8.3
Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale
Hao Li, Chunjiang Mu, Jianhao Chen, Siyue Ren, Zhiyao Cui, Yiqun Zhang, Lei Bai, Shuyue Hu
2026年3月3日
关键词
AgentSkillOS大语言模型代理技能管理任务编排能力树
核心发现
- AgentSkillOS在所有测试的生态系统规模(200至20万技能)下,始终显著优于原生技能调用和无技能基线,表明其在技能管理和扩展方面的有效性。
- 树状检索机制能有效逼近预言机(oracle)级别的技能选择效果,即使在技能生态系统规模增长时,其性能差距也保持在较小范围。
- 基于DAG的技能编排显著优于扁平化技能调用,即使在给定相同技能集的情况下,也大幅提升了性能,强调了结构化组合对发挥技能潜力的重要性。
- 论文提出的三种编排策略(质量优先、效率优先、简洁优先)生成了结构上明显不同的技能图,忠实反映了其设计目标,为用户提供了可解释的配置选择。
实验规模
实验构建了三种规模的技能生态系统(200、1K、200K),技能来源于公共市场和GitHub仓库。基准测试包含30个跨越数据计算、文档创建、运动视频、视觉设计和网络交互五大类别的任务。评估采用基于LLM的配对比较(Claude Code Agent SDK与claude-opus-4.5作为评判模型),通过Bradley-Terry模型聚合结果并缓解位置偏差。对比方法包括AgentSkillOS的三个变体(质量优先、效率优先、简洁优先)、一个预言机编排版本、三个无编排的Claude Code Agent SDK变体(提供完整技能池、检索技能或预言机技能),以及一个无技能基线。AgentSkillOS的构建和编排使用claude-opus-4.5,执行使用claude-sonnet-4.5。能力树分支因子B设置为7或12,节点容量阈值C为1.5B,20万技能生态系统保留前1万个技能用于建树,技能检索后保留前8个技能。
局限性
该框架假设技能已预先收集和可用,尚未解决自动化技能收集、质量评估及持续集成等问题。此外,其基于LLM的递归分类和技能分配过程可能受限于LLM的幻觉或次优决策,尤其在技能描述模糊或冲突时,可能影响检索的准确性和效率。