Arxiv Insights - Curated Research Intelligence

核心发现

攻击并非靠单个恶意提示，而是靠“用户段携带触发键 + 路由到被攻陷代理 + 代理内隐藏模板”三者同时成立；任一组件单独看都可以保持表面 benign。
通过对触发位置、模板位置和路由偏置做 Gumbel-Softmax 优化，both regime 的 ASR 被显著抬高，而 clean/key_only/template_only 仍维持低位，说明优化放大的是条件共振而不是无差别越狱。
星型、链式、DAG 三种拓扑下的攻击强度差异明显，且优化后最差拓扑的成功率也明显上升，表明漏洞主要来自通信结构与路由机制，而不只是某个模型本体。
PromptGuard 与多种 Llama-Guard 在 full optimization 下检测效果显著下降，原因是它们只看局部消息，无法感知跨代理组合后才出现的触发条件。

实验规模

在受控的 A2A 多智能体仿真环境中评估；主实验覆盖 3 个开源骨干模型（Gemma-2B、Mistral-7B、LLaMA3-8B）、3 种通信拓扑（star、chain、DAG）、4 个评估 regime（clean、key_only、template_only、both）和 3 个优化层级（routing、routing+key、full）。每个配置运行 50 个 episode，代理池含 20 种角色描述，且每轮仅设 1 个被攻陷远端代理。另在 Llama-4-Scout-17B-16E-Instruct 与 GPT-5-mini 上做迁移测试，并用 PromptGuard-86M 及多种 Llama-Guard 变体评估防御效果。

局限性

路由机制被抽象成概率分发器，而不是生产环境中的 classifier/router，因此对真实多智能体编排平台的外推力度有限。实验规模也偏小，每个配置只有 50 次 episode，ASR 以 0.1 为粒度波动，容易受小样本随机性影响；同时攻击成功依赖预设 marker 判定，衡量的是可控模拟中的激活，不等于真实下游危害。防御评估也相对窄，只覆盖少量 guard 模型和简单系统控制，尚不足以证明该攻击对更强的端到端安全栈同样稳健。