自然语言处理★ 评分 6.5

Markovian ODE-guided scoring can assess the quality of offline reasoning traces in language models

Arghodeep Nandi, Ojasva Saxena, Tanmoy Chakraborty
2026年3月3日
关键词
推理轨迹评估大型语言模型马尔可夫链常微分方程Somers' D

核心发现

  1. MarODE通过结合马尔可夫连贯性、ODE引导的质量建模和证据对齐,为LLM推理轨迹提供统一评估框架。
  2. 在人类中心扰动下,MarODE的Somers' D相关性比现有基线(如ROSCOE_MEAN)高出235%–279%,显示出更强的敏感性。
  3. MarODE与专家人类判断在多个推理基准上表现出最强且最一致的对齐。
  4. 马尔可夫连贯性是推理质量的主要驱动因素,ODE引导的质量提供协同作用,而证据对齐的作用有限且不一致。
  5. MarODE的评分分布比基线更平滑、对称和稳定,反映了其评估行为的鲁棒性。

实验规模

生成式推理轨迹:使用5个LLM(DeepSeek-Qwen-14B, DeepSeek-LLaMA-8B, DeepSeek-Qwen-7B, Qwen-3B-CoT, GPT-OSS-20B)在LIAR和PolitiFact的8,600个事实声明上生成,每个模型有1、2、4三种few-shot设置,总计每个模型生成25,800条轨迹。 人类评估推理轨迹:从EntailmentBank、ProofWriter、GSM8K和StrategyQA中选取600个实例(每个150个),由3位专家人工评估。 基线模型:ROSCOE(包含SA, SS, LI, LC及其平均值)、ReCEval、Local and Global Coherence以及LLM-as-a-Judge(使用prometheus-7b-v2.0)。 NLI模型:deberta-xlarge-mnli。 嵌入模型:all-MiniLM-L6-v2。 评估指标:Somers’ D相关性。

局限性

  1. 尽管MarODE在相对基线上有显著提升,但其与人类判断及扰动水平的绝对相关性(Somers' D < 0.3)仍属中等,表明其对推理质量的捕捉能力仍有局限。
  2. 论文主要通过合成的“人类中心扰动”来评估指标的“优度”,而非直接通过人类对受扰动轨迹的判断,这可能引入评估偏差。
  3. 证据对齐组件(gamma)的贡献不稳定,有时甚至对整体相关性产生负面影响,其在不同场景下的有效性需进一步探究。
Paper ID: 2603.01580v1