Arxiv Insights - Curated Research Intelligence

核心发现

Keyless Attention 将注意力打分从 QK^T 改写为 QV^T，因此推理时不再需要缓存 key，KV cache 直接减半，且不依赖量化或剪枝。
其理论等价性只在特定条件下成立：单头情形要求 value 投影满秩，多头情形还要求注意力得分矩阵的列空间落在 value 空间内；这说明“可替代 key”并非无条件成立。
作者用 QVV(3) 将 query 端拆成两层投影，使参数量与标准 QKV 持平，并把 routing 与 retrieval 耦合为同一 value 空间，作为额外归纳偏置。
实验显示该耦合在较小规模语言模型上通常不吃亏：5 个模型里 4 个困惑度优于或接近 QKV，36 层 GPT-2 上在 5 个零样本任务中赢下 4 个，但提升幅度整体不大且存在任务反例。
速度收益主要来自删除 key 投影和减少缓存读写，而非算法级复杂度跃迁；作者只在 batch size 1、单卡 A100 上测了 decode throughput，因而工程收益的外推范围有限。

实验规模

在 WikiText-103 的 3000 万 token 子集上从头训练并评估 5 个模型：GPT-2 280M、GPT-2 557M、Pythia 410M、Qwen2 1.5B、Llama 3.2 1B。主要对比标准 QKV 与 QVV(3)；GPT-2 结果报告 3 个随机种子的均值和标准差。优化器为 AdamW，学习率 1e-4，权重衰减 0.01，单张 NVIDIA A100-SXM4-80GB 上训练。下游评测只在 36 层 GPT-2 557M 上做了 5 个零样本常识任务：HellaSwag、ARC-Challenge、StoryCloze、SciQ、BoolQ；推理吞吐和缓存大小则在 Qwen2-1.5B 架构上做了 batch size 1、预填充长度 512/2048/8192、每次生成 256 token 的 decode 测试。

局限性

论文的核心节省来自把 key cache 去掉，但理论等价性依赖较强的秩和子空间条件，多头场景并不是无条件成立；换言之，它更像一种可行重参数化，而不是已经被严格证明的普适替代方案。实验规模也偏窄，主要集中在 WikiText-103 的 3000 万 token 子集和少量零样本任务，缺少更大规模预训练、长上下文、真实在线服务负载以及更强基线的系统性比较。吞吐测试只在 batch size 1 下进行，cache 减半是确定的，但是否能在更高并发、受带宽限制的场景中稳定转化为显著端到端收益，证据不足。