智能体系统★ 评分 4.2
Conjunctive Prompt Attacks in Multi-Agent LLM Systems
Nokimul Hasan Arif, Qian Lou, Mengxin Zheng
2026年4月26日
关键词
多智能体LLM提示注入联合触发攻击路由感知优化通信拓扑安全
核心发现
- 攻击并非靠单个恶意提示,而是靠“用户段携带触发键 + 路由到被攻陷代理 + 代理内隐藏模板”三者同时成立;任一组件单独看都可以保持表面 benign。
- 通过对触发位置、模板位置和路由偏置做 Gumbel-Softmax 优化,both regime 的 ASR 被显著抬高,而 clean/key_only/template_only 仍维持低位,说明优化放大的是条件共振而不是无差别越狱。
- 星型、链式、DAG 三种拓扑下的攻击强度差异明显,且优化后最差拓扑的成功率也明显上升,表明漏洞主要来自通信结构与路由机制,而不只是某个模型本体。
- PromptGuard 与多种 Llama-Guard 在 full optimization 下检测效果显著下降,原因是它们只看局部消息,无法感知跨代理组合后才出现的触发条件。
实验规模
在受控的 A2A 多智能体仿真环境中评估;主实验覆盖 3 个开源骨干模型(Gemma-2B、Mistral-7B、LLaMA3-8B)、3 种通信拓扑(star、chain、DAG)、4 个评估 regime(clean、key_only、template_only、both)和 3 个优化层级(routing、routing+key、full)。每个配置运行 50 个 episode,代理池含 20 种角色描述,且每轮仅设 1 个被攻陷远端代理。另在 Llama-4-Scout-17B-16E-Instruct 与 GPT-5-mini 上做迁移测试,并用 PromptGuard-86M 及多种 Llama-Guard 变体评估防御效果。
局限性
路由机制被抽象成概率分发器,而不是生产环境中的 classifier/router,因此对真实多智能体编排平台的外推力度有限。实验规模也偏小,每个配置只有 50 次 episode,ASR 以 0.1 为粒度波动,容易受小样本随机性影响;同时攻击成功依赖预设 marker 判定,衡量的是可控模拟中的激活,不等于真实下游危害。防御评估也相对窄,只覆盖少量 guard 模型和简单系统控制,尚不足以证明该攻击对更强的端到端安全栈同样稳健。