Arxiv Insights - Curated Research Intelligence

核心发现

子串式启发判分与100条人工标签的Cohen's κ仅为0.049，几乎是随机水平；三LLM多数投票提升到κ=0.432，但仍只是中等一致，且明显偏保守，说明常见自动评测会系统性低估正确率。
在1350条P2 semantic-wrong注入轨迹上，参数级错误并非总会传到终点，但最终错答的人工校准概率约为0.62，模型间约0.46–0.73，说明错误传播是常见而非偶发现象。
把鲁棒性拆成“拒绝坏参数”和“接受后恢复”两项后，9个模型上的Spearman ρ=0.126、p=0.747，未见显著相关，表明代理鲁棒性至少是二维的，不能用单一分数概括。
运行时Interceptor在GPT-4o-mini上以600对600并发对照将幻觉率从55.8%降到32.8%（-23.0个百分点），但对Gemini-2.0-Flash无显著效果，因为后者本身在参数层面就拒绝了大多数注入。

实验规模

构建了2000个核心任务和300个留出Retail任务，覆盖Calendar、Weather、Medical、Knowledge四个主域；共收集2300条轨迹，评测9个生产LLM（OpenAI、Google、DeepSeek）。评测方法比较了子串启发式、三模型LLM裁判集成（GPT-4o、Gemini-2.5-Flash、GPT-4o-mini）以及100条人工标注；传播实验基于1350条P2 semantic-wrong轨迹；拦截实验对GPT-4o-mini和Gemini-2.0-Flash各做600条并发对照；工具环境为确定性Python模拟器，默认temperature=0。

局限性

人工标注只有100条，而且主要由第一作者完成，第二标注者只重叠了7条，因而κ和“人工校准”本身的稳定性并不强。核心任务与工具都是确定性模拟器，不是真实API环境；传播与拦截结论在真实噪声、限流和多轮记忆场景中的外推性有限。不少分模型统计的S2样本极小（最低只有2条），9个模型点上的Spearman检验功效很弱；此外，拦截器的绝对幻觉率也未做人工复核，只能说明相对差值而不能完全证明真实改进幅度。