自然语言处理★ 评分 6.1
Fixed RAG Compression Collapses Measured Reader Scaling
Sugam Panthi, Rabab Abdelfattah
2026年6月25日
关键词
RAG压缩读者尺度效应升级保留率上下文压缩评测模型排序扭曲
核心发现
- 固定压缩的增益随读者基线升高而单调下降,说明压缩效果强依赖读者能力,而不是可被当作读者无关的通用收益。
- 压缩会显著压缩真实升级幅度:例如HotpotQA上Qwen 7B到GPT-4.1-mini的原始提升为45.4pp,经RECOMP后只剩9.0pp,说明大量改进被压缩层吞掉。
- 固定压缩可直接扭曲模型比较,LongMemEval-S上通用摘要导致31%的两两排序翻转,表明压缩后评测测到的是“信息存活率”而不只是读者能力。
- 这种现象跨方法、跨数据集、跨读者规模都能复现:结构化编译、通用摘要、训练式压缩器、Token pruning、密集检索以及对9篇已发表工作的回看,方向一致但强度不同。
- 机制上存在两股相反力量:压缩会通过去噪帮助弱读者,同时通过丢失多跳线索、时间关系和细粒度细节伤害强读者,因此平均分可能上升,但真实尺度关系被压扁。
实验规模
在20个读者模型、12个模型家族、10组压缩-数据集设置上做系统评估,覆盖4个QA基准和1个摘要基准。主实验包括LongMemEval-S 500题、HotpotQA 500行、MuSiQue 500行、Natural Questions 324行、QMSum 244条查询式会议摘要;比较了SIEVE、SIEVE-NLP、LLM-Summarize、LLMLingua-2、RECOMP、EXIT、Provence等压缩器,并用DeepSeek V3和GPT-4o进行评分鲁棒性验证。论文还构建了约176,864条行级压缩转移矩阵,累计约1.38M次模型调用,并对9篇已发表压缩论文做了外部再分析;另引入4个2026年后发布的新模型做泛化检查。
局限性
这篇工作更像评测与诊断论文,而不是方法突破;它没有提出新的压缩算法,只证明固定压缩会扭曲评测,因此议题重要但创新形态偏工具化。主要结论高度依赖若干特定基准、检索设置和LLM判分器,虽然作者做了若干控制实验,但对更开放的生成任务、不同语言和不同检索质量下是否同样成立,仍缺少更强的外推证据。外部论文重分析属于诊断性证据而非严格可比的统一实验,能增强说服力,但不能完全替代一个更统一、更受控的跨方法因果验证。