自然语言处理★ 评分 4.9

Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding

Xuanming Zhang, Sining Zhoubian, Yuxuan Chen, Tianyi Tang, An Yang, Sean Du, Chujie Zheng, Fei Huang, Dayiheng Liu, Gao Huang, Jingren Zhou
2026年6月25日
关键词
LLM解码熵谷回溯中间层选择对齐税推理增强

核心发现

  1. 论文把LLM前向传播概括为“Guess-Refine-Perturb”三阶段,认为最后几层可能把已精炼的推理轨迹拉回到更保守、通用的输出分布,因此“最后一层最优”并不总成立。
  2. 其核心方法 Confident Decoding 不是改模型,而是在近终层窗口内计算每层熵,向后扫描并选择第一个熵不再下降的层作为输出层;作者用熵谷作为“置信峰值”的代理来避开晚期扰动。
  3. 实验显示该策略在多个模型族和推理基准上通常优于最后一层解码,尤其在 GPQA-D、HLE、LCB-v6、Omni-MATH 上收益更明显,且对指令微调模型的提升大于 base 模型,作者据此把增益解释为“alignment tax”被削弱。

实验规模

主要在 Qwen3.5-27B、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Gemma-4-31B、gpt-oss-20B、gpt-oss-120B 上测试,覆盖 GPQA-Diamond、HLE、LiveCodeBench v6、LongBench v2、Omni-MATH、Air-Bench 2024、WritingBench 等 7 个基准。主实验使用 Qwen3.5-35B-A3B,回溯窗口 K=10,默认 p=1.0,温度 T=0;层动态分析中使用 GPQA/GSM8K,含 50 个 prompt、每个 4096 生成 token,分别统计 202,935 和 203,520 个 token。还做了 base vs instruct 对照、按难度分层的 MATH/Omni-MATH 子集,以及对 DoLa、SLED 的对比和 vLLM 端到端开销评估。

局限性

方法的新意主要在解码时“选中间层”而不是“用最后层”,但其理论叙述明显强于可证伪证据:所谓“alignment tax”与最终层扰动的因果关系并未被严格隔离,深度、架构类型、MoE 路由、任务难度和提示模板都可能共同影响结果。实验上也存在明显非普适性,作者自己给出的附录里就承认 Qwen3.5-9B 等模型在部分任务上出现回退,说明熵谷并非稳定的通用最优点。另有多处结果依赖 LLM-as-a-judge 或规则外评测,且若干提升幅度并不大,整体更像一个有用的推理时启发式,而不是足以改写解码范式的结论。

Paper ID: 2606.21906