Arxiv Insights - Curated Research Intelligence

核心发现

KV缓存压缩并非简单地移除冗余，而是对自注意力机制中令牌级路由的结构性扰动，其鲁棒性取决于稀疏令牌路由“彩票”（TR-LTs）子图的存活。
适度压缩会显著降低内部表示质量，但任务准确率基本保持不变，表明KV缓存存在大量冗余。
所有评估模型在约90%压缩率附近出现急剧的幻觉“安全悬崖”，这与关键答案令牌的全局驱逐率（GER）飙升强相关，标志着语义可达性的相变。
LLaMA和Qwen模型展现出不同的路由动态（LLaMA早期共识晚期多样化，Qwen早期探索晚期收敛），导致不同的压缩弹性。
除了表示擦除（关键令牌被全局驱逐）外，还存在第二种失效模式：表示刚性，即令牌虽存活但过度头部共识导致路由灵活性丧失，性能下降。
通过线性探测发现，即使概念向量可解码，生成任务仍可能失败，表明路由可用性和灵活性而非仅仅表示存在是可靠性的关键。

实验规模

该研究使用了一套精心控制的合成数据集，旨在探测多实体追踪、实例消歧、共指一致性和多跳推理等路由敏感行为。数据集包括Base task（175词，6个查询）、Knowledge manipulation（32词，13个查询）、Multi presence（500词，10个查询）、Multi entity（500词，10个查询）、Long context（1100词，10个查询）、Coreference（44词，9个查询）和Hops（1100词，16个查询），总查询数从1000到72000不等。实验评估了五种指令微调LLM：LLaMA-3.2 3B Instruct、LLaMA-3 8B Instruct、Qwen-2.5 3B Instruct、Qwen-2.5 7B Instruct和Qwen-2.5 14B Instruct。 KV压缩通过NVIDIA KVPress库在推理时进行，压缩率从10%到90%。采用了两种剪枝策略：FINCH (Chunk) Press（分块剪枝）和AdaKV Press（头部全局剪枝），并比较了问题无关（AGN）和问题感知（AWR）两种推理设置。性能通过F1分数在令牌级别评估，并引入了全局驱逐率（GER）和头部共识（Consensus）等结构性指标。

局限性

该研究主要依赖于受控的合成数据集，这虽然有助于机制分析，但可能无法完全捕捉自然语言的复杂性和真实世界语料库的异质性。未来的工作需要验证这些发现是否能在更广泛的应用场景（如长文档问答、RAG、代码推理或多模态上下文）中持续存在。此外，论文提出的结构性指标（GER和头部共识）虽与性能崩溃高度相关，但对注意力算子在结构性令牌移除下的更精细分析，例如通过谱特征或连接阈值，可能会提供更严格的理论保证。