自然语言处理★ 评分 6.5

Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training

Valentin Lacombe, Valentin Quesnel, Damien Sileo
2026年3月3日
关键词
符号推理数据生成预训练语言模型形式逻辑

核心发现

  1. 提出Reasoning Core数据生成套件: 该套件程序化生成PDDL规划、一阶逻辑、上下文无关文法、因果推理和方程组等核心形式领域的、可验证的符号推理数据。
  2. 高分布泛化性与外部求解器验证: Reasoning Core专注于更少但更基础的领域,追求高分布泛化性,并集成外部专业求解器(如Vampire/E、FastDownward、Sympy)进行严格验证,确保数据质量和客观奖励信号。
  3. 实验证明对LLM推理能力的提升: 在小规模实验中,将Reasoning Core数据混入预训练和指令微调,能持续提升下游推理任务(如PlatinumBench)的性能,同时保持或略微改善语言模型质量。
  4. 任务挑战前沿模型: 零样本评估显示,即使是GPT-5级别的前沿模型,在Reasoning Core任务上仍面临挑战,尤其是在高难度级别,验证了生成数据的难度和有效性。
  5. 支持课程学习与可追溯性: 提供连续难度控制旋钮,支持自适应课程设计;可选的求解器派生推理轨迹(CoT)可用于监督训练,并提供可验证的奖励函数用于强化学习。

实验规模

预训练数据集包含50亿(5B)tokens,其中80%为难度级别0,20%为级别1和2。后训练数据集包含10亿(1B)tokens,难度级别0、3、5均匀采样。数据集生成耗时3天,使用48个Intel Xeon Gold 5320 CPU线程。零样本评估使用了GPT-5系列模型,每个任务和难度级别200个样本。监督微调实验使用了参数量小于1亿(100M)的模型(Monad-56M Transformer用于预训练,Ettin-68M解码器用于指令微调),在0.5B tokens的自然语言数据集(FineWeb, SYNTH, Dolci)中混入不同比例(0.1到1.0倍)的Reasoning Core数据,每个实验在单张Nvidia A30 GPU上运行约一天。评估基准包括各数据集的测试集NLL和PlatinumBench(包含15个推理任务)。

局限性

该论文的实验规模有限,微调模型参数量小于1亿,训练数据量为0.5B tokens,这使得其结论在更大规模模型和数据上的泛化性仍是开放问题。此外,尽管Reasoning Core提供了可验证的奖励函数,但论文并未展示强化学习(RLVR)的训练结果,未能充分验证其在RL场景下的效用。

Paper ID: 2603.02208v1