Arxiv Insights - Curated Research Intelligence

核心发现

提出Reasoning Core数据生成套件： 该套件程序化生成PDDL规划、一阶逻辑、上下文无关文法、因果推理和方程组等核心形式领域的、可验证的符号推理数据。
高分布泛化性与外部求解器验证： Reasoning Core专注于更少但更基础的领域，追求高分布泛化性，并集成外部专业求解器（如Vampire/E、FastDownward、Sympy）进行严格验证，确保数据质量和客观奖励信号。
实验证明对LLM推理能力的提升： 在小规模实验中，将Reasoning Core数据混入预训练和指令微调，能持续提升下游推理任务（如PlatinumBench）的性能，同时保持或略微改善语言模型质量。
任务挑战前沿模型： 零样本评估显示，即使是GPT-5级别的前沿模型，在Reasoning Core任务上仍面临挑战，尤其是在高难度级别，验证了生成数据的难度和有效性。
支持课程学习与可追溯性： 提供连续难度控制旋钮，支持自适应课程设计；可选的求解器派生推理轨迹（CoT）可用于监督训练，并提供可验证的奖励函数用于强化学习。

实验规模

预训练数据集包含50亿（5B）tokens，其中80%为难度级别0，20%为级别1和2。后训练数据集包含10亿（1B）tokens，难度级别0、3、5均匀采样。数据集生成耗时3天，使用48个Intel Xeon Gold 5320 CPU线程。零样本评估使用了GPT-5系列模型，每个任务和难度级别200个样本。监督微调实验使用了参数量小于1亿（100M）的模型（Monad-56M Transformer用于预训练，Ettin-68M解码器用于指令微调），在0.5B tokens的自然语言数据集（FineWeb, SYNTH, Dolci）中混入不同比例（0.1到1.0倍）的Reasoning Core数据，每个实验在单张Nvidia A30 GPU上运行约一天。评估基准包括各数据集的测试集NLL和PlatinumBench（包含15个推理任务）。

局限性

该论文的实验规模有限，微调模型参数量小于1亿，训练数据量为0.5B tokens，这使得其结论在更大规模模型和数据上的泛化性仍是开放问题。此外，尽管Reasoning Core提供了可验证的奖励函数，但论文并未展示强化学习（RLVR）的训练结果，未能充分验证其在RL场景下的效用。