自然语言处理★ 评分 5.6

Rubric-as-Experts: Case-Specific MQM Rubrics for Translation Quality Evaluation

Weilu Xu, Yunzhi Shen, Xinye Wang, Ranfei Dang, Shujian Huang
2026年6月25日
关键词
MQM评估翻译质量评价动态路由span-level错误定位大语言模型

核心发现

  1. MQM子类型空间越大,模型越容易覆盖更多真实错误,但也会同步引入更多误报,说明 span-level QE 的关键不只是“识别什么”,还在于“给模型开放多大的探索空间”。
  2. 不同翻译样本对 rubric 粒度的需求明显不同:简单样本适合紧凑子类型集,复杂或多错误样本更依赖扩展到中/全量 MQM 子类型,因此固定 rubric 对异质样本天然失配。
  3. 通过“正确性门控 + 扩展门控 + 预算路由”的级联动态路由,系统能在保留 MQM 可解释性的同时按样本选择 rubric 粒度;在 WMT23 Zh-En/En-De 上相较直接 Qwen3 和静态 MQM prompting 取得更高 MCC/F1,并减少噪声跨度。

实验规模

在 WMT23 span-level QE 基准上验证,覆盖 Zh-En 和 En-De 两个方向;用 WMT23 开发集训练路由器、测试集做评估。主模型使用 Qwen3-4B、Qwen3-8B 和 Qwen3-14B,其中路由模块基于冻结的 Qwen3-8B backbone 加 LoRA 训练,major-category router 训练 3 个 epoch,granularity router 训练 6 个 epoch,bf16,RTX A6000,推理用 vLLM。对比了 CometKiwi、DCSQE、GEMBA 以及直接 Qwen3 基线,并做了 compact / expanded / comprehensive、correct gate、expansion gate、full dynamic 的消融。

局限性

论文只在 WMT23 的 Zh-En 和 En-De span-level QE 上验证,任务和语言覆盖都较窄,结论能否迁移到其他语对、其他 MQM 标注体系或非 QE 场景仍不明确。路由监督依赖 MQM 注释和基于 F1-成本的启发式 oracle granularity,这种训练信号本身带有较强任务特定性,外推性有限。方法虽然有效,但本质上是对现有 MQM prompting 的结构化增量改造,创新强度和范式突破都不高。

Paper ID: 2606.21559