智能体系统★ 评分 5.3
SafeAgent: A Runtime Protection Architecture for Agentic Systems
Hailin Liu, Eugene Ilyushin, Jie Ni, Min Zhu
2026年4月26日
关键词
LLM智能体安全提示注入防御运行时保护架构状态化决策工具调用治理
核心发现
- 论文的核心判断是:智能体安全不是“当前输入是否危险”的单点分类,而是跨检索、工具调用、记忆更新持续传播的状态问题;因此需要把执行治理和语义风险判断拆开,在运行时对整条交互轨迹做拦截与修复。
- SafeAgent 的两层架构在 ASB 上明显优于无防护与文本级 guardrail:DPI/IPI/MP 的 ASR 分别降到 0.4186/0.2936/0.1858,同时 PNA 仍为 0.7451,说明状态化治理比纯文本过滤更能压制工具化注入。
- 在 InjecAgent 上,SafeAgent 将直接伤害任务的成功率压到 0.3157,并把两阶段数据窃取的 S1/S2 都降为 0,说明它能阻断“中间步骤先服从、后续再外泄”的链式攻击。
- 消融结果显示恢复置信度与策略权重决定安全-效用位置:更激进的修复对局部注入更有效,但对持续性记忆污染更脆弱;安全优先策略能进一步降低 ASR,却会明显牺牲 benign 任务完成率。
实验规模
在 ReAct 风格智能体上评估,底座模型为 DeepSeek-V3.2,SafeAgent Core 使用 gpt-oss-safeguard-20b。实验覆盖 ASB(51 个任务 × 40 个攻击工具,共 2040 例,包含 DPI/IPI/记忆污染 MP)和 InjecAgent(510 个 direct-harm 例 + 544 个 data-stealing 例,共 1054 例),对比 No Defense、Llama Guard、LLM Guard,并做 override confidence(0/0.5/1.0)与 policy weighting(safety-first/task-first)消融。
局限性
实验只覆盖 ASB 和 InjecAgent 两个基准,对比对象主要是文本级 guardrail,缺少与更强的系统级防御(如工具依赖图、显式层级记忆等)全面同台比较,因此零 ASR 的泛化性仍不足。论文没有给出明确的延迟、吞吐和资源开销数据,而 SafeAgent 额外引入决策核心、上下文同步与修复流程,实际部署成本与收益比仍不清楚;同时核心机制较抽象,难以严格区分架构贡献与所用 safeguard 模型本身的贡献。