Arxiv Insights - Curated Research Intelligence

核心发现

问题识别与目标重定义：现有推测解码方法（如Eagle3）依赖静态配置或优化代理指标（如接受长度），忽略了草稿生成与验证的真实时间成本及其相互依赖性。LTD提出直接优化每个“草稿-验证”周期的吞吐量（接受令牌数/总时间）。
协同适应策略框架：LTD将问题建模为强化学习环境，训练两个轻量级MLP策略：深度策略（控制草稿深度）和大小策略（控制验证令牌数量）。这两个策略通过迭代优化实现协同适应，而非孤立优化。
直接吞吐量优化：以吞吐量作为RL的直接奖励信号，策略学会平衡接受长度和时间成本。消融实验证明，相比以接受长度或时间成本为奖励，吞吐量奖励能带来最高的加速比，即使有时接受长度并非最长。
显著的性能提升与鲁棒性：在5个LLM和4个任务上，LTD比SOTA的Eagle3基线实现了2.24x至4.32x的加速，最高提升达36.4%。在高温采样场景下，LTD仍能保持约5%的吞吐量增益，展现出优于其他动态方法的鲁棒性。
高效且泛化性强：策略本身的计算开销极低（总开销<1.5%），且在MMLU基准测试的57个子任务中，LTD在54个任务上超越Eagle3，并在另一个推测解码框架Griffin上同样有效，证明了其强大的泛化能力。

实验规模

实验在Llama-3.1-8B-Instruct、Vicuna-13B-v1.3、DeepSeek-R1-Distill-LLaMA 8B、Qwen3-14B和Qwen3-32B共五种大型语言模型上进行。评估任务包括MT-bench、GSM8K、Alpaca和Natural Questions，以及MMLU基准测试的57个子任务。基线方法包括Vanilla自回归解码、SOTA推测解码方法Eagle3（及其网格搜索优化版本），以及DDD、SVIP、Gammatune、Disco、SpecDec++、C2T等多种动态深度/大小调整方法。LTD策略在HumanEval数据集上使用PPO算法进行训练，深度策略训练1M步，大小策略训练100k步，总训练时间少于30 GPU小时。

局限性

尽管LTD在多任务上展现了良好的泛化性，但其强化学习策略主要在HumanEval代码数据集上训练，可能对特定领域或数据分布的适应性存在局限。此外，RL训练的超参数敏感性未深入探讨，虽然论文展示了高效的训练时间和收敛性，但在实际部署中可能需要细致调优。