自然语言处理★ 评分 5.9
CAT-Translate: Building Compact Open-Source Models for Japanese-English Translation
Yuu Jinnai
2026年6月25日
关键词
日英机器翻译专用小模型合成平行语料两阶段监督微调MO-GRPO强化学习
核心发现
- 仅靠网页平行语料不足以训练高质量日英翻译器,作者转而用单语语料配合大模型合成平行数据,才获得可用规模与质量。
- 两阶段SFT先覆盖多样场景,再用高质量、长上下文、难样本微调,能把模型从“能翻译”推进到“更适合真实文档翻译”。
- MO-GRPO把MetricX-24、BLEU、格式一致性和长度约束合成奖励,主要用来压制格式漂移、过长/过短和附加解释等翻译模型常见失真。
- 在WMT上,多语大模型依然很强;但在BSD、Court、JMed、PFMT、PAT这类真实域基准上,CAT-Translate的0.8B到7B模型整体更有竞争力,说明专用模型在窄任务场景下有实际价值。
- 论文的核心证据不是“通用最优”,而是“在限定语言对和限定应用域内,专用训练管线能以较小参数量换取更好的实用翻译质量”。
实验规模
训练了4个规模的日英双向翻译模型:0.8B、1.4B、3.3B和7B参数。数据来自多种单语语料与合成平行语料,包括in-house网页、FineWeb、arXiv/PubMed/J-Stage摘要、USPTO专利等,并经过语言过滤、长度过滤、MinHash去重、长度比过滤和规则过滤。评估覆盖WMT21日英、WMT24文档级英日,以及5个真实世界基准:BSD、Court、JMedBench、PFMT和WAT2025 Patent;对比对象包括Tower-Plus-9B、TranslateGemma-12B/4B、Qwen2.5-14B、Phi-4、Llama-3.2-3B、HY-MT、Shisa等强基线,指标使用BLEU和M-Prometheus-14B。
局限性
结论高度依赖日英这一相对资源丰富、且作者可用合成数据和强评测工具覆盖的语言对,外推到低资源语言对并不成立。实验虽然覆盖多个真实域基准,但仍以自动指标和LLM-as-a-judge为主,缺少大规模人工评测与充分消融来证明每个训练环节的独立贡献。训练数据大量依赖合成平行语料,质量上限受生成模型与过滤规则约束,也可能引入偏置和隐性自举误差。