自然语言处理★ 评分 6.8
Suffix-Constrained Greedy Search Algorithms for Causal Language Models
Ayoub Hammal, Pierre Zweigenbaum, Caio Corro
2026年3月3日
关键词
大型语言模型约束生成后缀约束贪婪搜索答案提取
核心发现
- 问题形式化与挑战: 形式化了“后缀约束生成”问题,即允许LLM自由推理,但要求输出的最终部分(后缀)严格遵循预定义语法格式,以实现答案的确定性解析。同时,通过Proposition 1证明了标准约束生成方法不适用于此场景,因为它无法有效引导模型进入约束模式。
- 算法创新: 提出了多种基于贪婪搜索的启发式算法,包括“贪婪管道”(greedy pipeline)、“约束假设束搜索”(constrained hypothesis beam search)和“分叉惩罚”(bifurcation penalty)变体(基于概率或logits计算,并选择最小惩罚或最后假设)。这些算法通过维护至多两个假设(一个自由推理,一个约束生成)来平衡效率与效果。
- 实验验证: 在OLMo 2模型(1B和13B参数量,预训练和指令微调版本)和五个问答数据集(GSM8K, MATH500, SVAMP, ARC, CSQA)上进行了广泛实验,评估了所提方法的有效性。
- 性能提升与鲁棒性: 实验结果表明,“贪婪管道”和“分叉惩罚(选择最后假设)”在几乎所有任务和模型上都优于无约束贪婪生成。这些方法尤其在保证输出可解析性、避免生成预算溢出和解决模型重复生成问题上表现突出,显著提高了预训练模型的生成终止率和答案提取成功率。
- 特定场景分析: 发现“仅约束生成”方法在多项选择题(MCQ)任务上表现良好,但在需要复杂推理的数学任务上性能显著下降,凸显了自由推理阶段的重要性。
实验规模
实验使用了OLMo 2模型家族的1B和13B参数量版本,包括预训练(PT)和指令微调(IT)两种检查点。评估在五个问答数据集上进行:三个数学推理数据集(GSM8K, MATH500, SVAMP)和两个多项选择常识推理数据集(ARC-Challenge, CommonsenseQA)。答案提取通过精确匹配(Exact Match)进行评估。约束语法主要通过正则表达式定义(如 The answer is: [+-]?\d+(\.\d+)?),对于MATH500的LaTeX格式则使用上下文无关语法(CFG)定义。对比基线包括无约束贪婪解码和仅约束生成。
局限性
- 提出的算法(特别是分叉惩罚)本质上是启发式的,而非基于严格的理论最优性保证,可能存在次优解或在特定复杂场景下表现不佳。
- 论文未明确量化这些算法相对于纯贪婪解码的实际计算开销(如延迟或吞吐量影响),尽管声称“最小化生成成本”。
- 答案格式的语法(无论是正则表达式还是CFG)需要人工预先定义,这限制了其在未知或高度多样化输出格式场景下的通用性。