Arxiv Insights - Curated Research Intelligence

核心发现

MarODE通过结合马尔可夫连贯性、ODE引导的质量建模和证据对齐，为LLM推理轨迹提供统一评估框架。
在人类中心扰动下，MarODE的Somers' D相关性比现有基线（如ROSCOE_MEAN）高出235%–279%，显示出更强的敏感性。
MarODE与专家人类判断在多个推理基准上表现出最强且最一致的对齐。
马尔可夫连贯性是推理质量的主要驱动因素，ODE引导的质量提供协同作用，而证据对齐的作用有限且不一致。
MarODE的评分分布比基线更平滑、对称和稳定，反映了其评估行为的鲁棒性。

实验规模

生成式推理轨迹：使用5个LLM（DeepSeek-Qwen-14B, DeepSeek-LLaMA-8B, DeepSeek-Qwen-7B, Qwen-3B-CoT, GPT-OSS-20B）在LIAR和PolitiFact的8,600个事实声明上生成，每个模型有1、2、4三种few-shot设置，总计每个模型生成25,800条轨迹。人类评估推理轨迹：从EntailmentBank、ProofWriter、GSM8K和StrategyQA中选取600个实例（每个150个），由3位专家人工评估。基线模型：ROSCOE（包含SA, SS, LI, LC及其平均值）、ReCEval、Local and Global Coherence以及LLM-as-a-Judge（使用prometheus-7b-v2.0）。 NLI模型：deberta-xlarge-mnli。嵌入模型：all-MiniLM-L6-v2。评估指标：Somers’ D相关性。

局限性

尽管MarODE在相对基线上有显著提升，但其与人类判断及扰动水平的绝对相关性（Somers' D < 0.3）仍属中等，表明其对推理质量的捕捉能力仍有局限。
论文主要通过合成的“人类中心扰动”来评估指标的“优度”，而非直接通过人类对受扰动轨迹的判断，这可能引入评估偏差。
证据对齐组件（gamma）的贡献不稳定，有时甚至对整体相关性产生负面影响，其在不同场景下的有效性需进一步探究。