自然语言处理★ 评分 6.0
SCOPE: Sequential Conformal Probing for Reliable OOD Rejection in LLM Services
Zhuoyun Li, Boxuan Wang, Changshun Wu, Xiaowei Huang, Yi Dong
2026年6月25日
关键词
LLM服务拒识OOD检测conformal predictione-process隐藏层探针
核心发现
- 只看最终输出或最后一层会错过服务边界信号:作者先在开发集上做层选择,再用该层的线性读出构建拒绝门,说明OOD信息并不稳定地集中在最后一层。
- 将选层读出做IND-only conformal校准后,能在保持IND误拒受控的同时提升OOD拒绝;主方法CLG在LLaMA2-7B的多组基准上优于MSP、Energy、Mahalanobis、Cosine和CDG。
- 仅有离线AUROC不够,e-process把逐样本拒绝流变成任意时刻有效的证据;远OOD和域迁移更容易跨过阈值,细粒度意图边界和同分布流则难以被持续证成。
- 不同边界在隐藏空间里呈现不同几何形态:P4这类近意图边界更像紧密纠缠的距离问题,P5这类保留意图的改写更像分布形变,说明“服务边界”定义本身决定了可读信号的形状。
实验规模
实验覆盖7个冻结LLM骨干:LLaMA2-7B为主对比骨干,另有Qwen2.5-1.5B/7B/14B、Mistral-7B、OLMo-2-7B和Falcon-7B。边界设置共6类:SST-2→RTE→WMT14 De-En、20 Newsgroups→TREC→MNLI、CLINC150 Travel→Banking、Banking77细粒度意图划分、Banking77意图保持改写500条、以及SST-2同分布null流。每个模型-边界配置跑5个随机种子,IND池按70%探针训练、10% conformal校准、20% held-out IND测试划分,OOD源按70%/30%切分;每个种子再评估20条打乱顺序的held-out流。主对比基线包括 Mahalanobis、Cosine、MSP、Energy、CDG 和 CLG;还做了Qwen2.5规模扩展、ε、p1、α 敏感性和部署延迟比较。额外在附录中给出500条Banking77改写样本、P4的38/39意图划分,以及SST-2的5000/5000 held-out拆分等细节。
局限性
方法本质上是representation-relative的门控证成,不是证明输入空间中的OOD边界可分,因此结论依赖于所选层、读出形式以及代表性开发OOD源是否足够贴近真实部署边界。实验主要是离线基准流与打乱顺序的受控评估,尚不能覆盖真实服务中的非平稳流量、反馈回路和自适应攻击场景。基线虽然包含常见OOD检测器,但还不算对更强的现代拒识/集成方法做了彻底排除式比较,因此“最优门控”的泛化结论仍需保留。