Arxiv Insights - Curated Research Intelligence

核心发现

代理式AI的可信部署不能只看任务成功；多步工具调用和外部副作用使“终点正确”与“全程合规”彻底分离。
现有研究被分成四个孤岛：评估量结果，治理定义务，编排做运行时控制，保障做事后证明，但缺少把义务绑定到具体动作的闭环。
核心缺口被命名为 governance-to-action closure gap：治理知道该允许什么，却说不清何时在何处拦截、改写或审批，也难以证明控制是否真正发生。
因此提出四层框架，分别回答“发生了什么、应发生什么、现在允许什么、如何证明”，避免把基准分数误当作可信性。
ODTA（可观测性、可判定性、时效性、可证明性）用于决定要求应放在运行时、设计期、人工复核还是事后审计；低判定或低时效要求不应硬塞进运行时。
MAEB要求对状态改变动作记录委托身份、策略ID、前置状态、拟执行参数、调解结果、外部副作用和trace/attestation，否则治理主张难以审计、复现和反驳。
采购代理示例表明：allowlist与审批阈值适合运行时强制，而公平、可争议性更适合治理、审计与人工判断，说明不同义务必须分层放置。

实验规模

没有新的算法训练或基准实验；论文是一次有边界的证据综合。作者在 2026-04-17 通过 arXiv、ACL Anthology、PMLR、NIST 和 ISO 的定向检索，按 8 组查询词手工筛选并编码了 24 个来源（15 篇研究论文 + 9 份官方框架/标准），并用 8 个维度进行归纳。另有 1 个企业采购代理的工作场景用于说明框架，但不构成真实实验；无数据集规模、无模型参数量、无强基线对比。

局限性

主要局限是证据综合而非实证研究：没有新的基准结果、消融实验或真实部署验证，因此 ODTA 和 MAEB 仍停留在概念与规范层。其次，语料是手工限定的 24 篇来源，选择标准带有主观性，可能遗漏同一时期的重要工作。最后，对 ISO 标准的讨论依赖公开摘要而非逐条条款交叉验证，因而更像标准导向的解释框架，而不是严格的合规映射。