Arxiv Insights - Curated Research Intelligence

核心发现

MQM子类型空间越大，模型越容易覆盖更多真实错误，但也会同步引入更多误报，说明 span-level QE 的关键不只是“识别什么”，还在于“给模型开放多大的探索空间”。
不同翻译样本对 rubric 粒度的需求明显不同：简单样本适合紧凑子类型集，复杂或多错误样本更依赖扩展到中/全量 MQM 子类型，因此固定 rubric 对异质样本天然失配。
通过“正确性门控 + 扩展门控 + 预算路由”的级联动态路由，系统能在保留 MQM 可解释性的同时按样本选择 rubric 粒度；在 WMT23 Zh-En/En-De 上相较直接 Qwen3 和静态 MQM prompting 取得更高 MCC/F1，并减少噪声跨度。

实验规模

在 WMT23 span-level QE 基准上验证，覆盖 Zh-En 和 En-De 两个方向；用 WMT23 开发集训练路由器、测试集做评估。主模型使用 Qwen3-4B、Qwen3-8B 和 Qwen3-14B，其中路由模块基于冻结的 Qwen3-8B backbone 加 LoRA 训练，major-category router 训练 3 个 epoch，granularity router 训练 6 个 epoch，bf16，RTX A6000，推理用 vLLM。对比了 CometKiwi、DCSQE、GEMBA 以及直接 Qwen3 基线，并做了 compact / expanded / comprehensive、correct gate、expansion gate、full dynamic 的消融。

局限性

论文只在 WMT23 的 Zh-En 和 En-De span-level QE 上验证，任务和语言覆盖都较窄，结论能否迁移到其他语对、其他 MQM 标注体系或非 QE 场景仍不明确。路由监督依赖 MQM 注释和基于 F1-成本的启发式 oracle granularity，这种训练信号本身带有较强任务特定性，外推性有限。方法虽然有效，但本质上是对现有 MQM prompting 的结构化增量改造，创新强度和范式突破都不高。