Arxiv Insights - Curated Research Intelligence

核心发现

论文的核心判断是：智能体安全不是“当前输入是否危险”的单点分类，而是跨检索、工具调用、记忆更新持续传播的状态问题；因此需要把执行治理和语义风险判断拆开，在运行时对整条交互轨迹做拦截与修复。
SafeAgent 的两层架构在 ASB 上明显优于无防护与文本级 guardrail：DPI/IPI/MP 的 ASR 分别降到 0.4186/0.2936/0.1858，同时 PNA 仍为 0.7451，说明状态化治理比纯文本过滤更能压制工具化注入。
在 InjecAgent 上，SafeAgent 将直接伤害任务的成功率压到 0.3157，并把两阶段数据窃取的 S1/S2 都降为 0，说明它能阻断“中间步骤先服从、后续再外泄”的链式攻击。
消融结果显示恢复置信度与策略权重决定安全-效用位置：更激进的修复对局部注入更有效，但对持续性记忆污染更脆弱；安全优先策略能进一步降低 ASR，却会明显牺牲 benign 任务完成率。

实验规模

在 ReAct 风格智能体上评估，底座模型为 DeepSeek-V3.2，SafeAgent Core 使用 gpt-oss-safeguard-20b。实验覆盖 ASB（51 个任务 × 40 个攻击工具，共 2040 例，包含 DPI/IPI/记忆污染 MP）和 InjecAgent（510 个 direct-harm 例 + 544 个 data-stealing 例，共 1054 例），对比 No Defense、Llama Guard、LLM Guard，并做 override confidence（0/0.5/1.0）与 policy weighting（safety-first/task-first）消融。

局限性

实验只覆盖 ASB 和 InjecAgent 两个基准，对比对象主要是文本级 guardrail，缺少与更强的系统级防御（如工具依赖图、显式层级记忆等）全面同台比较，因此零 ASR 的泛化性仍不足。论文没有给出明确的延迟、吞吐和资源开销数据，而 SafeAgent 额外引入决策核心、上下文同步与修复流程，实际部署成本与收益比仍不清楚；同时核心机制较抽象，难以严格区分架构贡献与所用 safeguard 模型本身的贡献。