Arxiv Insights - Curated Research Intelligence

核心发现

AgentSkillOS在所有测试的生态系统规模（200至20万技能）下，始终显著优于原生技能调用和无技能基线，表明其在技能管理和扩展方面的有效性。
树状检索机制能有效逼近预言机（oracle）级别的技能选择效果，即使在技能生态系统规模增长时，其性能差距也保持在较小范围。
基于DAG的技能编排显著优于扁平化技能调用，即使在给定相同技能集的情况下，也大幅提升了性能，强调了结构化组合对发挥技能潜力的重要性。
论文提出的三种编排策略（质量优先、效率优先、简洁优先）生成了结构上明显不同的技能图，忠实反映了其设计目标，为用户提供了可解释的配置选择。

实验规模

实验构建了三种规模的技能生态系统（200、1K、200K），技能来源于公共市场和GitHub仓库。基准测试包含30个跨越数据计算、文档创建、运动视频、视觉设计和网络交互五大类别的任务。评估采用基于LLM的配对比较（Claude Code Agent SDK与claude-opus-4.5作为评判模型），通过Bradley-Terry模型聚合结果并缓解位置偏差。对比方法包括AgentSkillOS的三个变体（质量优先、效率优先、简洁优先）、一个预言机编排版本、三个无编排的Claude Code Agent SDK变体（提供完整技能池、检索技能或预言机技能），以及一个无技能基线。AgentSkillOS的构建和编排使用claude-opus-4.5，执行使用claude-sonnet-4.5。能力树分支因子B设置为7或12，节点容量阈值C为1.5B，20万技能生态系统保留前1万个技能用于建树，技能检索后保留前8个技能。

局限性

该框架假设技能已预先收集和可用，尚未解决自动化技能收集、质量评估及持续集成等问题。此外，其基于LLM的递归分类和技能分配过程可能受限于LLM的幻觉或次优决策，尤其在技能描述模糊或冲突时，可能影响检索的准确性和效率。