自然语言处理★ 评分 7.5

KVSlimmer: Theoretical Insights and Practical Optimizations for Asymmetric KV Merging

Lianjun Liu, Hongli An, Weiqi Yan, Xin Du, Shengchuan Zhang, Huazhong Liu, Yunshan Zhong
2026年3月3日
关键词
KV缓存长上下文LLM缓存压缩Hessian谱分析

核心发现

  1. QKV不对称性理论解释: 论文通过谱能量分布理论框架,揭示了LLM中Q/K和V投影权重的不对称性根源。Q/K权重谱能量集中导致特征同质性,而V权重谱能量分散则保持异质性,为非对称合并提供了理论基础。
  2. 精确Hessian推导: KVSlimmer为Key-Key耦合推导了精确的Hessian矩阵,包括了先前方法忽略的非对角线耦合项,从而更准确地捕捉了相邻Key之间的二阶交互信息。
  3. 无梯度闭式解: 论文基于对梯度方向一致性的经验观察(Eq. 32),将精确Hessian的计算简化为仅依赖前向传播变量的闭式解,实现了无梯度、内存和时间高效的Key合并算法。
  4. SOTA性能与效率: KVSlimmer在LongBench和LongBenchV2等长上下文基准测试中,持续超越现有SOTA方法,例如在Llama3.1-8B-Instruct上平均得分提升0.92,同时将内存和延迟分别降低29%和28%。

实验规模

实验在Llama3.1-8B-Instruct、Mistral-7B-Instruct-v0.3和Qwen2-1.5B-Instruct等多种模型上进行。基准测试包括LongBench(涵盖16个任务类别)和LongBenchV2(上下文长度从8K到2M)。对比基线包括StreamingLLM、LongCache、LLMLingua-2.0、H2O、CaM和AsymKV。默认压缩上下文预算为2048 token,块大小为512。所有实验均在NVIDIA A100 GPU(80GB)上完成。

局限性

KVSlimmer的谱分析和合并策略主要关注局部token序列,可能限制了捕捉长距离依赖和实现更高压缩比的潜力。当前实现采用跨所有层的统一压缩比,缺乏根据每层重要性动态调整合并强度的自适应策略。此外,无梯度闭式解的关键简化依赖于经验观察,其在更广泛模型、任务和训练阶段下的普适性及鲁棒性仍需进一步验证。

Paper ID: 2603.00907v1