自然语言处理★ 评分 5.7

When Compression Helps and When It Hurts: Condition-Aware Analysis of Chain-of-Thought Distillation

Siyang Lyu, Zhijing Sun, Xinghao Chen, Tong Liu, Dawei Zhu, Xiaoyu Shen
2026年6月25日
关键词
链式思维蒸馏CoT压缩重要性准则重构层级推理长度效率

核心发现

  1. 压缩准则的有效性首先由粒度决定:步级 pruning 时 Entropy、NLL、LLMLingua2 的保留集合高度重叠,性能差异有限;一旦切到 token 级,Entropy/NLL 更容易删掉数学符号、算子和数字,导致 Math 任务崩塌,而 LLMLingua2 因更能保住符号锚点而更稳。
  2. 重构层级与任务域强交互:在 Math 上,结构扰动从 SP 到 FR 越强,准确率越单调下降;在 General 上,适度到激进的重写(SF/FR)反而可去噪并保持甚至超过结构保真方法。
  3. 训练端压缩不等于推理端省 token:Short-CoT 学生更容易内化简洁输出,推理长度与压缩后监督更接近;Long-CoT 学生会保留冗长习惯,导致实际 inference token ratio 明显高于训练压缩比。
  4. 压缩预算存在明显阈值效应:在一定范围内性能相对稳定,但超过临界压缩强度后会非线性下跌,因此 target ratio 只能算上界参考,不能直接当作部署成本预测。

实验规模

以 LLaMA-3.1-8B-Instruct 为主学生模型,并用 Qwen2.5 系列做交叉验证;训练数据包含 5k 条 Natural Reasoning 作为 Short-CoT,以及 LIMO 作为 Long-CoT。评测覆盖 GSM8K、MATH500、AMC23、AIME24、GPQA Diamond、MMLU-PRO 等数学/通用推理基准,比较了步级与 token 级 extraction pruning(LLMLingua2、Entropy、NLL)以及 Gemini 2.5 Flash 驱动的四档重写(SP/SE/SF/FR),并在 0.9/0.7/0.5 压缩目标下分析准确率、生成长度和推理 token 比例;另用 GPT-4o-mini、Qwen2.5-7B 和 100 组成对 coherence judge 做了补充验证。

局限性

主要局限是,这篇工作更像条件分析与经验归纳,而不是提出新的压缩算法,因此方法学增量有限。实验覆盖的任务域基本被压缩成 Math/General 两类,且高度依赖特定学生模型、特定重写器和提示词,外推到代码、检索或更复杂的多轮推理场景仍缺少证据。部分结论还建立在规则化 token/反思步骤分类之上,存在实现敏感性和可复现性风险。

Paper ID: 2606.21704