Arxiv Insights - Curated Research Intelligence

核心发现

通过将VA开发拆为硬件、服务、编排、应用四层，并用Kubernetes、OpenAPI和CType把接口与约束写进系统，作者把复用、隔离、合规和设计时检查从“开发习惯”提升为“架构属性”。
通过Plan、Design、Monitor、Review四阶段，bonsai把人类负责目标与约束设定、AI负责分解与实现、系统负责记录委派与回滚，形成可追踪的代理链路，因此能把语义级 provenance 变成第一类对象。
两个案例只证明了可行性而非强证据：SCM复用任务中系统找到4个现成微服务，经过2轮迭代完成；PODIUM重建任务则在无现成服务时，从论文PDF生成前端和7个微服务并多轮修正，说明该工作流能跑通，但缺少大规模、量化、对照式验证。

实验规模

系统验证仅包含2个作者主导的案例：UC1 Semantic Color Mapping，复用服务目录中的4个现成微服务，主要做编排与适配，经历约2轮ADU迭代；UC2 PODIUM，从论文PDF重建完整VA应用，生成前端和7个微服务（含数据提供器、SVM求解器等），经历多轮人机反馈、阻塞处理和界面修订。论文未报告标准数据集规模、受试者数量、模型参数量，亦未给出与强基线的统一定量对比。

局限性

论文几乎没有提供可检验的量化证据：没有用户研究，没有任务完成时间、错误率、可维护性或复用成本等指标，也没有与现有Agentic coding平台或VA开发框架做系统对照。两项案例均由作者精心挑选，样本极小且任务高度定制，难以排除选择性展示偏差。大量关于生产力、可审计性和可扩展性的结论主要来自架构推演与演示，而不是严格消融或外部复现。