自然语言处理★ 评分 5.8
Scalable Hierarchical Attention Transformers for Multi-Turn Jailbreak Detection in Long Conversations
Chenhui Hu, Muhammed Salih, Sudipto Guha, Subramanian Srinivasan
2026年6月25日
关键词
多轮越狱检测层次化Transformer对话级分类交叉注意力安全对齐
核心发现
- 多轮越狱的关键信号主要存在于轮次间的演化关系,而不是单轮文本本身,因此把整段对话压成单一长序列并不是唯一选择。
- 先用TurnEncoder独立编码每轮,再用ConvTransformer在轮表示上做跨轮推理,并通过交叉注意力回看token细节,可以在保持较低计算开销的同时捕捉渐进式升级、角色操控和上下文重定向等模式。
- 在14,038条评测对话上,模型以0.9394 F1、95.9% precision、92.1% recall和2.8% FPR优于Claude Opus 4.7,说明该层次化结构在作者构造的基准上确实比强商业基线更敏感且更保守。
- 消融结果表明,跨轮self-attention与token级cross-attention存在互补:仅保留self-attention会显著抬高误报率,仅保留cross-attention会明显漏检,二者结合才得到最佳折中。
- 论文的注意力可视化支持了“后期轮次和用户轮次更可疑”的直觉,但这类分析只能作为相关性证据,不能证明模型真的学到了可解释的因果机制。
实验规模
训练集为98,626条多轮对话,约49%为jailbreak、51%为safe;评测集为14,038条对话,其中8,182条安全、5,856条越狱,覆盖真实语料与大量合成攻击。主模型使用intfloat/multilingual-e5-base作为TurnEncoder(278M参数,12层,768维),每轮最多256 token、最多24轮;ConvTransformer为4层、8头、FFN 2048,训练分两阶段进行,先冻结编码器训练2轮,再联合微调4轮。基线包括Mean Pool、Llama 3.3 70B的Concat/ToT、Claude Sonnet 4/4.5/Opus 4.7;另做了层数消融、注意力组件消融,以及在1,000条样本上的注意力模式分析。
局限性
主要局限是数据集强依赖作者自建的混合基准,包含大量合成攻击与硬负样本,性能可能部分反映对这些结构模板的拟合,而不一定代表对真实未知越狱的泛化能力。对比对象虽然包含Claude和Llama 70B,但这些商业/大模型基线的提示词、阈值、上下文截断策略是否完全公平并不透明,因而“碾压SOTA”的结论需要谨慎看待。注意力分析只能说明模型关注了哪些位置,不能证明这些权重具有因果解释力,也无法排除模型主要依赖数据集偏差或位置启发式。