自然语言处理★ 评分 5.4

Keyless Attention: Value-Space Routing and Value-Only Caching for Efficient Transformers

Xin Gao
2026年6月25日
关键词
Keyless AttentionValue-Only Cache自注意力重参数化KV缓存压缩值空间路由

核心发现

  1. Keyless Attention 将注意力打分从 QK^T 改写为 QV^T,因此推理时不再需要缓存 key,KV cache 直接减半,且不依赖量化或剪枝。
  2. 其理论等价性只在特定条件下成立:单头情形要求 value 投影满秩,多头情形还要求注意力得分矩阵的列空间落在 value 空间内;这说明“可替代 key”并非无条件成立。
  3. 作者用 QVV(3) 将 query 端拆成两层投影,使参数量与标准 QKV 持平,并把 routing 与 retrieval 耦合为同一 value 空间,作为额外归纳偏置。
  4. 实验显示该耦合在较小规模语言模型上通常不吃亏:5 个模型里 4 个困惑度优于或接近 QKV,36 层 GPT-2 上在 5 个零样本任务中赢下 4 个,但提升幅度整体不大且存在任务反例。
  5. 速度收益主要来自删除 key 投影和减少缓存读写,而非算法级复杂度跃迁;作者只在 batch size 1、单卡 A100 上测了 decode throughput,因而工程收益的外推范围有限。

实验规模

在 WikiText-103 的 3000 万 token 子集上从头训练并评估 5 个模型:GPT-2 280M、GPT-2 557M、Pythia 410M、Qwen2 1.5B、Llama 3.2 1B。主要对比标准 QKV 与 QVV(3);GPT-2 结果报告 3 个随机种子的均值和标准差。优化器为 AdamW,学习率 1e-4,权重衰减 0.01,单张 NVIDIA A100-SXM4-80GB 上训练。下游评测只在 36 层 GPT-2 557M 上做了 5 个零样本常识任务:HellaSwag、ARC-Challenge、StoryCloze、SciQ、BoolQ;推理吞吐和缓存大小则在 Qwen2-1.5B 架构上做了 batch size 1、预填充长度 512/2048/8192、每次生成 256 token 的 decode 测试。

局限性

论文的核心节省来自把 key cache 去掉,但理论等价性依赖较强的秩和子空间条件,多头场景并不是无条件成立;换言之,它更像一种可行重参数化,而不是已经被严格证明的普适替代方案。实验规模也偏窄,主要集中在 WikiText-103 的 3000 万 token 子集和少量零样本任务,缺少更大规模预训练、长上下文、真实在线服务负载以及更强基线的系统性比较。吞吐测试只在 batch size 1 下进行,cache 减半是确定的,但是否能在更高并发、受带宽限制的场景中稳定转化为显著端到端收益,证据不足。

Paper ID: 2606.21848