智能体系统★ 评分 4.4

Beyond Task Success: An Evidence-Synthesis Framework for Evaluating, Governing, and Orchestrating Agentic AI

Christopher Koch, Joshua Andreas Wellbrock
2026年4月26日
关键词
代理式AI运行时治理编排架构ODTA测试最小动作证据包

核心发现

  1. 代理式AI的可信部署不能只看任务成功;多步工具调用和外部副作用使“终点正确”与“全程合规”彻底分离。
  2. 现有研究被分成四个孤岛:评估量结果,治理定义务,编排做运行时控制,保障做事后证明,但缺少把义务绑定到具体动作的闭环。
  3. 核心缺口被命名为 governance-to-action closure gap:治理知道该允许什么,却说不清何时在何处拦截、改写或审批,也难以证明控制是否真正发生。
  4. 因此提出四层框架,分别回答“发生了什么、应发生什么、现在允许什么、如何证明”,避免把基准分数误当作可信性。
  5. ODTA(可观测性、可判定性、时效性、可证明性)用于决定要求应放在运行时、设计期、人工复核还是事后审计;低判定或低时效要求不应硬塞进运行时。
  6. MAEB要求对状态改变动作记录委托身份、策略ID、前置状态、拟执行参数、调解结果、外部副作用和trace/attestation,否则治理主张难以审计、复现和反驳。
  7. 采购代理示例表明:allowlist与审批阈值适合运行时强制,而公平、可争议性更适合治理、审计与人工判断,说明不同义务必须分层放置。

实验规模

没有新的算法训练或基准实验;论文是一次有边界的证据综合。作者在 2026-04-17 通过 arXiv、ACL Anthology、PMLR、NIST 和 ISO 的定向检索,按 8 组查询词手工筛选并编码了 24 个来源(15 篇研究论文 + 9 份官方框架/标准),并用 8 个维度进行归纳。另有 1 个企业采购代理的工作场景用于说明框架,但不构成真实实验;无数据集规模、无模型参数量、无强基线对比。

局限性

主要局限是证据综合而非实证研究:没有新的基准结果、消融实验或真实部署验证,因此 ODTA 和 MAEB 仍停留在概念与规范层。其次,语料是手工限定的 24 篇来源,选择标准带有主观性,可能遗漏同一时期的重要工作。最后,对 ISO 标准的讨论依赖公开摘要而非逐条条款交叉验证,因而更像标准导向的解释框架,而不是严格的合规映射。

Paper ID: 2604.19818