Arxiv Insights - Curated Research Intelligence

核心发现

固定压缩的增益随读者基线升高而单调下降，说明压缩效果强依赖读者能力，而不是可被当作读者无关的通用收益。
压缩会显著压缩真实升级幅度：例如HotpotQA上Qwen 7B到GPT-4.1-mini的原始提升为45.4pp，经RECOMP后只剩9.0pp，说明大量改进被压缩层吞掉。
固定压缩可直接扭曲模型比较，LongMemEval-S上通用摘要导致31%的两两排序翻转，表明压缩后评测测到的是“信息存活率”而不只是读者能力。
这种现象跨方法、跨数据集、跨读者规模都能复现：结构化编译、通用摘要、训练式压缩器、Token pruning、密集检索以及对9篇已发表工作的回看，方向一致但强度不同。
机制上存在两股相反力量：压缩会通过去噪帮助弱读者，同时通过丢失多跳线索、时间关系和细粒度细节伤害强读者，因此平均分可能上升，但真实尺度关系被压扁。

实验规模

在20个读者模型、12个模型家族、10组压缩-数据集设置上做系统评估，覆盖4个QA基准和1个摘要基准。主实验包括LongMemEval-S 500题、HotpotQA 500行、MuSiQue 500行、Natural Questions 324行、QMSum 244条查询式会议摘要；比较了SIEVE、SIEVE-NLP、LLM-Summarize、LLMLingua-2、RECOMP、EXIT、Provence等压缩器，并用DeepSeek V3和GPT-4o进行评分鲁棒性验证。论文还构建了约176,864条行级压缩转移矩阵，累计约1.38M次模型调用，并对9篇已发表压缩论文做了外部再分析；另引入4个2026年后发布的新模型做泛化检查。

局限性

这篇工作更像评测与诊断论文，而不是方法突破；它没有提出新的压缩算法，只证明固定压缩会扭曲评测，因此议题重要但创新形态偏工具化。主要结论高度依赖若干特定基准、检索设置和LLM判分器，虽然作者做了若干控制实验，但对更开放的生成任务、不同语言和不同检索质量下是否同样成立，仍缺少更强的外推证据。外部论文重分析属于诊断性证据而非严格可比的统一实验，能增强说服力，但不能完全替代一个更统一、更受控的跨方法因果验证。