Arxiv Insights - Curated Research Intelligence

核心发现

论文把LLM前向传播概括为“Guess-Refine-Perturb”三阶段，认为最后几层可能把已精炼的推理轨迹拉回到更保守、通用的输出分布，因此“最后一层最优”并不总成立。
其核心方法 Confident Decoding 不是改模型，而是在近终层窗口内计算每层熵，向后扫描并选择第一个熵不再下降的层作为输出层；作者用熵谷作为“置信峰值”的代理来避开晚期扰动。
实验显示该策略在多个模型族和推理基准上通常优于最后一层解码，尤其在 GPQA-D、HLE、LCB-v6、Omni-MATH 上收益更明显，且对指令微调模型的提升大于 base 模型，作者据此把增益解释为“alignment tax”被削弱。

实验规模

主要在 Qwen3.5-27B、Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Gemma-4-31B、gpt-oss-20B、gpt-oss-120B 上测试，覆盖 GPQA-Diamond、HLE、LiveCodeBench v6、LongBench v2、Omni-MATH、Air-Bench 2024、WritingBench 等 7 个基准。主实验使用 Qwen3.5-35B-A3B，回溯窗口 K=10，默认 p=1.0，温度 T=0；层动态分析中使用 GPQA/GSM8K，含 50 个 prompt、每个 4096 生成 token，分别统计 202,935 和 203,520 个 token。还做了 base vs instruct 对照、按难度分层的 MATH/Omni-MATH 子集，以及对 DoLa、SLED 的对比和 vLLM 端到端开销评估。

局限性

方法的新意主要在解码时“选中间层”而不是“用最后层”，但其理论叙述明显强于可证伪证据：所谓“alignment tax”与最终层扰动的因果关系并未被严格隔离，深度、架构类型、MoE 路由、任务难度和提示模板都可能共同影响结果。实验上也存在明显非普适性，作者自己给出的附录里就承认 Qwen3.5-9B 等模型在部分任务上出现回退，说明熵谷并非稳定的通用最优点。另有多处结果依赖 LLM-as-a-judge 或规则外评测，且若干提升幅度并不大，整体更像一个有用的推理时启发式，而不是足以改写解码范式的结论。