Arxiv Insights - Curated Research Intelligence

核心发现

压缩准则的有效性首先由粒度决定：步级 pruning 时 Entropy、NLL、LLMLingua2 的保留集合高度重叠，性能差异有限；一旦切到 token 级，Entropy/NLL 更容易删掉数学符号、算子和数字，导致 Math 任务崩塌，而 LLMLingua2 因更能保住符号锚点而更稳。
重构层级与任务域强交互：在 Math 上，结构扰动从 SP 到 FR 越强，准确率越单调下降；在 General 上，适度到激进的重写（SF/FR）反而可去噪并保持甚至超过结构保真方法。
训练端压缩不等于推理端省 token：Short-CoT 学生更容易内化简洁输出，推理长度与压缩后监督更接近；Long-CoT 学生会保留冗长习惯，导致实际 inference token ratio 明显高于训练压缩比。
压缩预算存在明显阈值效应：在一定范围内性能相对稳定，但超过临界压缩强度后会非线性下跌，因此 target ratio 只能算上界参考，不能直接当作部署成本预测。

实验规模

以 LLaMA-3.1-8B-Instruct 为主学生模型，并用 Qwen2.5 系列做交叉验证；训练数据包含 5k 条 Natural Reasoning 作为 Short-CoT，以及 LIMO 作为 Long-CoT。评测覆盖 GSM8K、MATH500、AMC23、AIME24、GPQA Diamond、MMLU-PRO 等数学/通用推理基准，比较了步级与 token 级 extraction pruning（LLMLingua2、Entropy、NLL）以及 Gemini 2.5 Flash 驱动的四档重写（SP/SE/SF/FR），并在 0.9/0.7/0.5 压缩目标下分析准确率、生成长度和推理 token 比例；另用 GPT-4o-mini、Qwen2.5-7B 和 100 组成对 coherence judge 做了补充验证。

局限性

主要局限是，这篇工作更像条件分析与经验归纳，而不是提出新的压缩算法，因此方法学增量有限。实验覆盖的任务域基本被压缩成 Math/General 两类，且高度依赖特定学生模型、特定重写器和提示词，外推到代码、检索或更复杂的多轮推理场景仍缺少证据。部分结论还建立在规则化 token/反思步骤分类之上，存在实现敏感性和可复现性风险。