自然语言处理★ 评分 7.5
CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation
Ziyi Zhu, Olivier Tieleman, Alexey Bukhtiyarov, Jinghong Chen
2026年3月3日
关键词
LLM评估裁判偏差方差分解循环裁判效率
核心发现
- LLM-as-judge评估存在显著的系统性偏差(如宽松/严格、位置、自偏好),这些偏差不会因增加场景或生成数量而平均抵消,且其影响量级常与模型性能差异相当,导致评估排名不可靠。
- 论文提出了一个基于广义可推广性理论的方差分解模型,将基准分数方差分解为场景、生成、裁判和残差四个组成部分,并证明裁判偏差是一个固定效应,需要特定策略消除。
- CyclicJudge(循环裁判)策略通过轮流分配裁判来评估不同生成结果,在理论上被证明能精确消除裁判偏差,同时在任何预算下最大化生成多样性,优于“所有裁判”和“随机裁判”策略。
- 在MT-Bench上的实验验证了理论预测,显示CyclicJudge在相同预算下能显著降低评估方差(例如,在B=5时降低30-35%),且其预测方差与经验方差精确匹配。
- 在默认操作点(n=80, m=1, K=1)下,基准层面的方差主要由裁判偏差贡献(>94%),这凸显了消除裁判偏差的重要性。
实验规模
实验在MT-Bench数据集上进行,该数据集包含80个两轮对话问题,分为8个类别。评估了三款模型:Qwen 2.5 7B Instruct、Llama 3.3 70B Instruct和GPT-5.2。每个场景为每个模型生成了10个独立的对话(m=10)。总共有5个LLM裁判(Qwen 2.5 7B Instruct、Llama 3.3 70B Instruct、GPT-5.2、Gemini 3 Flash、Claude Sonnet 4.6),其中三位裁判与被评估模型重合。采用官方单答案评分提示,分数范围1-10。总共产生了12,000个评分(每个模型4,000个)。方差分量通过交叉ANOVA估计,并使用2,000次场景级别重采样的95%引导置信区间。策略比较通过5,000次子采样重复进行。
局限性
论文承认其线性随机效应模型是对有界序数结果的近似,更严谨的方法可能是广义线性混合模型。此外,实验中裁判池规模(K_tot=5)限制了对更大裁判组的探索,且“最大化场景”的建议假设场景可互换,未考虑不同场景信息量差异。最后,预算分析未考虑不同裁判的实际成本和延迟差异,这在实际部署中可能需要成本加权分配。