Arxiv Insights - Curated Research Intelligence

核心发现

自主金融代理的风险不是单层漏洞，而是“提示/工具/身份/协议”向“托管/结算/市场/合规”级联传播，因此点状防御天然不够。
论文系统化整理出五维威胁分类，并将 12 个跨层攻击向量具体化为可追踪的层路径与触发机制，便于后续做安全建模与红队测试。
现有协议与接口（ERC-8004、AP2、x402、MPP、ACP、ERC-8183、MCP）各自只覆盖授权、结算、审计或工具访问的一部分，没有任何一个能端到端覆盖全部风险面。
论文的核心结论是：自治越强，安全控制必须越“分层”，需要把提示净化、执行上下文验证、签名/支付绑定、身份与声誉控制、市场级监测和合规审计联动起来。
作者的证据基础是系统性语料综述而非实证性能实验，因此贡献主要在于威胁抽象、协议对照和防御框架，而不在于算法优越性或基准分数。

实验规模

这是 SoK/系统化综述，没有训练模型或跑性能基准；方法上通过 Google Scholar 和 Web of Science 用 23 个检索短语收集文献，初始检索得到 1,373 条记录，去重后 1,237 条候选，最终数据库贡献 37 篇、回溯与定向纳入 105 篇，形成覆盖 1994–2026 的公共语料。作者还提供了一个 30 行的盲复现集，其中 17 行同时有 source 和 target 标注，双标注一致性 κ 分别为 0.850（source）、0.833（target）和 0.871（联合对）。论文未报告模型参数量、训练集规模或强基线对比。

局限性

论文的主要局限是缺乏可重复的系统实验：提出的 12 个跨层攻击向量和分层防御更多依赖文献归纳与规范分析，尚未在真实 agentic commerce 系统上做大规模验证。其次，语料虽然覆盖广，但很大一部分来自协议文档、行业报告和未充分审稿的材料，结论对具体协议成熟度与部署状态的依赖较强，存在样本与来源偏置。最后，防御架构停留在概念层，未证明各层控制组合后的实际误报、延迟和可用性代价。