智能体系统★ 评分 5.7

SoK: Security of Autonomous LLM Agents in Agentic Commerce

Qian'ang Mao, Jiaxin Wang, Ya Liu, Li Zhu, Cong Ma, Jiaqi Yan
2026年4月26日
关键词
自主LLM代理agentic commerce提示注入交易授权监管合规

核心发现

  1. 自主金融代理的风险不是单层漏洞,而是“提示/工具/身份/协议”向“托管/结算/市场/合规”级联传播,因此点状防御天然不够。
  2. 论文系统化整理出五维威胁分类,并将 12 个跨层攻击向量具体化为可追踪的层路径与触发机制,便于后续做安全建模与红队测试。
  3. 现有协议与接口(ERC-8004、AP2、x402、MPP、ACP、ERC-8183、MCP)各自只覆盖授权、结算、审计或工具访问的一部分,没有任何一个能端到端覆盖全部风险面。
  4. 论文的核心结论是:自治越强,安全控制必须越“分层”,需要把提示净化、执行上下文验证、签名/支付绑定、身份与声誉控制、市场级监测和合规审计联动起来。
  5. 作者的证据基础是系统性语料综述而非实证性能实验,因此贡献主要在于威胁抽象、协议对照和防御框架,而不在于算法优越性或基准分数。

实验规模

这是 SoK/系统化综述,没有训练模型或跑性能基准;方法上通过 Google Scholar 和 Web of Science 用 23 个检索短语收集文献,初始检索得到 1,373 条记录,去重后 1,237 条候选,最终数据库贡献 37 篇、回溯与定向纳入 105 篇,形成覆盖 1994–2026 的公共语料。作者还提供了一个 30 行的盲复现集,其中 17 行同时有 source 和 target 标注,双标注一致性 κ 分别为 0.850(source)、0.833(target)和 0.871(联合对)。论文未报告模型参数量、训练集规模或强基线对比。

局限性

论文的主要局限是缺乏可重复的系统实验:提出的 12 个跨层攻击向量和分层防御更多依赖文献归纳与规范分析,尚未在真实 agentic commerce 系统上做大规模验证。其次,语料虽然覆盖广,但很大一部分来自协议文档、行业报告和未充分审稿的材料,结论对具体协议成熟度与部署状态的依赖较强,存在样本与来源偏置。最后,防御架构停留在概念层,未证明各层控制组合后的实际误报、延迟和可用性代价。

Paper ID: 2604.15367