自然语言处理★ 评分 7.9
Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning
Jiebin Zhang, Zhenghan Yu, Liang Wang, Nan Yang, Eugene J. Yu, Zheng Li, Yifan Song, Dawei Zhu, Xingxing Zhang, Furu Wei, Sujian Li
2026年3月3日
关键词
推测解码强化学习LLM推理加速动态策略吞吐量优化
核心发现
- 问题识别与目标重定义:现有推测解码方法(如Eagle3)依赖静态配置或优化代理指标(如接受长度),忽略了草稿生成与验证的真实时间成本及其相互依赖性。LTD提出直接优化每个“草稿-验证”周期的吞吐量(接受令牌数/总时间)。
- 协同适应策略框架:LTD将问题建模为强化学习环境,训练两个轻量级MLP策略:深度策略(控制草稿深度)和大小策略(控制验证令牌数量)。这两个策略通过迭代优化实现协同适应,而非孤立优化。
- 直接吞吐量优化:以吞吐量作为RL的直接奖励信号,策略学会平衡接受长度和时间成本。消融实验证明,相比以接受长度或时间成本为奖励,吞吐量奖励能带来最高的加速比,即使有时接受长度并非最长。
- 显著的性能提升与鲁棒性:在5个LLM和4个任务上,LTD比SOTA的Eagle3基线实现了2.24x至4.32x的加速,最高提升达36.4%。在高温采样场景下,LTD仍能保持约5%的吞吐量增益,展现出优于其他动态方法的鲁棒性。
- 高效且泛化性强:策略本身的计算开销极低(总开销<1.5%),且在MMLU基准测试的57个子任务中,LTD在54个任务上超越Eagle3,并在另一个推测解码框架Griffin上同样有效,证明了其强大的泛化能力。
实验规模
实验在Llama-3.1-8B-Instruct、Vicuna-13B-v1.3、DeepSeek-R1-Distill-LLaMA 8B、Qwen3-14B和Qwen3-32B共五种大型语言模型上进行。评估任务包括MT-bench、GSM8K、Alpaca和Natural Questions,以及MMLU基准测试的57个子任务。基线方法包括Vanilla自回归解码、SOTA推测解码方法Eagle3(及其网格搜索优化版本),以及DDD、SVIP、Gammatune、Disco、SpecDec++、C2T等多种动态深度/大小调整方法。LTD策略在HumanEval数据集上使用PPO算法进行训练,深度策略训练1M步,大小策略训练100k步,总训练时间少于30 GPU小时。
局限性
尽管LTD在多任务上展现了良好的泛化性,但其强化学习策略主要在HumanEval代码数据集上训练,可能对特定领域或数据分布的适应性存在局限。此外,RL训练的超参数敏感性未深入探讨,虽然论文展示了高效的训练时间和收敛性,但在实际部署中可能需要细致调优。