Arxiv Insights - Curated Research Intelligence

核心发现

LLM-as-judge评估存在显著的系统性偏差（如宽松/严格、位置、自偏好），这些偏差不会因增加场景或生成数量而平均抵消，且其影响量级常与模型性能差异相当，导致评估排名不可靠。
论文提出了一个基于广义可推广性理论的方差分解模型，将基准分数方差分解为场景、生成、裁判和残差四个组成部分，并证明裁判偏差是一个固定效应，需要特定策略消除。
CyclicJudge（循环裁判）策略通过轮流分配裁判来评估不同生成结果，在理论上被证明能精确消除裁判偏差，同时在任何预算下最大化生成多样性，优于“所有裁判”和“随机裁判”策略。
在MT-Bench上的实验验证了理论预测，显示CyclicJudge在相同预算下能显著降低评估方差（例如，在B=5时降低30-35%），且其预测方差与经验方差精确匹配。
在默认操作点（n=80, m=1, K=1）下，基准层面的方差主要由裁判偏差贡献（>94%），这凸显了消除裁判偏差的重要性。

实验规模

实验在MT-Bench数据集上进行，该数据集包含80个两轮对话问题，分为8个类别。评估了三款模型：Qwen 2.5 7B Instruct、Llama 3.3 70B Instruct和GPT-5.2。每个场景为每个模型生成了10个独立的对话（m=10）。总共有5个LLM裁判（Qwen 2.5 7B Instruct、Llama 3.3 70B Instruct、GPT-5.2、Gemini 3 Flash、Claude Sonnet 4.6），其中三位裁判与被评估模型重合。采用官方单答案评分提示，分数范围1-10。总共产生了12,000个评分（每个模型4,000个）。方差分量通过交叉ANOVA估计，并使用2,000次场景级别重采样的95%引导置信区间。策略比较通过5,000次子采样重复进行。

局限性

论文承认其线性随机效应模型是对有界序数结果的近似，更严谨的方法可能是广义线性混合模型。此外，实验中裁判池规模（K_tot=5）限制了对更大裁判组的探索，且“最大化场景”的建议假设场景可互换，未考虑不同场景信息量差异。最后，预算分析未考虑不同裁判的实际成本和延迟差异，这在实际部署中可能需要成本加权分配。