自然语言处理★ 评分 7.5

Understanding the Physics of Key-Value Cache Compression for LLMs through Attention Dynamics

Samhruth Ananthanarayanan, Ayan Sengupta, Tanmoy Chakraborty
2026年3月3日
关键词
KV Cache CompressionAttention DynamicsLLMToken-Route SparsityPhase Transition

核心发现

  1. KV缓存压缩并非简单地移除冗余,而是对自注意力机制中令牌级路由的结构性扰动,其鲁棒性取决于稀疏令牌路由“彩票”(TR-LTs)子图的存活。
  2. 适度压缩会显著降低内部表示质量,但任务准确率基本保持不变,表明KV缓存存在大量冗余。
  3. 所有评估模型在约90%压缩率附近出现急剧的幻觉“安全悬崖”,这与关键答案令牌的全局驱逐率(GER)飙升强相关,标志着语义可达性的相变。
  4. LLaMA和Qwen模型展现出不同的路由动态(LLaMA早期共识晚期多样化,Qwen早期探索晚期收敛),导致不同的压缩弹性。
  5. 除了表示擦除(关键令牌被全局驱逐)外,还存在第二种失效模式:表示刚性,即令牌虽存活但过度头部共识导致路由灵活性丧失,性能下降。
  6. 通过线性探测发现,即使概念向量可解码,生成任务仍可能失败,表明路由可用性和灵活性而非仅仅表示存在是可靠性的关键。

实验规模

该研究使用了一套精心控制的合成数据集,旨在探测多实体追踪、实例消歧、共指一致性和多跳推理等路由敏感行为。数据集包括Base task(175词,6个查询)、Knowledge manipulation(32词,13个查询)、Multi presence(500词,10个查询)、Multi entity(500词,10个查询)、Long context(1100词,10个查询)、Coreference(44词,9个查询)和Hops(1100词,16个查询),总查询数从1000到72000不等。 实验评估了五种指令微调LLM:LLaMA-3.2 3B Instruct、LLaMA-3 8B Instruct、Qwen-2.5 3B Instruct、Qwen-2.5 7B Instruct和Qwen-2.5 14B Instruct。 KV压缩通过NVIDIA KVPress库在推理时进行,压缩率从10%到90%。采用了两种剪枝策略:FINCH (Chunk) Press(分块剪枝)和AdaKV Press(头部全局剪枝),并比较了问题无关(AGN)和问题感知(AWR)两种推理设置。性能通过F1分数在令牌级别评估,并引入了全局驱逐率(GER)和头部共识(Consensus)等结构性指标。

局限性

该研究主要依赖于受控的合成数据集,这虽然有助于机制分析,但可能无法完全捕捉自然语言的复杂性和真实世界语料库的异质性。未来的工作需要验证这些发现是否能在更广泛的应用场景(如长文档问答、RAG、代码推理或多模态上下文)中持续存在。此外,论文提出的结构性指标(GER和头部共识)虽与性能崩溃高度相关,但对注意力算子在结构性令牌移除下的更精细分析,例如通过谱特征或连接阈值,可能会提供更严格的理论保证。

Paper ID: 2603.01426v1