Arxiv Insights - Curated Research Intelligence

核心发现

只看最终输出或最后一层会错过服务边界信号：作者先在开发集上做层选择，再用该层的线性读出构建拒绝门，说明OOD信息并不稳定地集中在最后一层。
将选层读出做IND-only conformal校准后，能在保持IND误拒受控的同时提升OOD拒绝；主方法CLG在LLaMA2-7B的多组基准上优于MSP、Energy、Mahalanobis、Cosine和CDG。
仅有离线AUROC不够，e-process把逐样本拒绝流变成任意时刻有效的证据；远OOD和域迁移更容易跨过阈值，细粒度意图边界和同分布流则难以被持续证成。
不同边界在隐藏空间里呈现不同几何形态：P4这类近意图边界更像紧密纠缠的距离问题，P5这类保留意图的改写更像分布形变，说明“服务边界”定义本身决定了可读信号的形状。

实验规模

实验覆盖7个冻结LLM骨干：LLaMA2-7B为主对比骨干，另有Qwen2.5-1.5B/7B/14B、Mistral-7B、OLMo-2-7B和Falcon-7B。边界设置共6类：SST-2→RTE→WMT14 De-En、20 Newsgroups→TREC→MNLI、CLINC150 Travel→Banking、Banking77细粒度意图划分、Banking77意图保持改写500条、以及SST-2同分布null流。每个模型-边界配置跑5个随机种子，IND池按70%探针训练、10% conformal校准、20% held-out IND测试划分，OOD源按70%/30%切分；每个种子再评估20条打乱顺序的held-out流。主对比基线包括 Mahalanobis、Cosine、MSP、Energy、CDG 和 CLG；还做了Qwen2.5规模扩展、ε、p1、α 敏感性和部署延迟比较。额外在附录中给出500条Banking77改写样本、P4的38/39意图划分，以及SST-2的5000/5000 held-out拆分等细节。

局限性

方法本质上是representation-relative的门控证成，不是证明输入空间中的OOD边界可分，因此结论依赖于所选层、读出形式以及代表性开发OOD源是否足够贴近真实部署边界。实验主要是离线基准流与打乱顺序的受控评估，尚不能覆盖真实服务中的非平稳流量、反馈回路和自适应攻击场景。基线虽然包含常见OOD检测器，但还不算对更强的现代拒识/集成方法做了彻底排除式比较，因此“最优门控”的泛化结论仍需保留。