Arxiv Insights - Curated Research Intelligence

核心发现

仅靠网页平行语料不足以训练高质量日英翻译器，作者转而用单语语料配合大模型合成平行数据，才获得可用规模与质量。
两阶段SFT先覆盖多样场景，再用高质量、长上下文、难样本微调，能把模型从“能翻译”推进到“更适合真实文档翻译”。
MO-GRPO把MetricX-24、BLEU、格式一致性和长度约束合成奖励，主要用来压制格式漂移、过长/过短和附加解释等翻译模型常见失真。
在WMT上，多语大模型依然很强；但在BSD、Court、JMed、PFMT、PAT这类真实域基准上，CAT-Translate的0.8B到7B模型整体更有竞争力，说明专用模型在窄任务场景下有实际价值。
论文的核心证据不是“通用最优”，而是“在限定语言对和限定应用域内，专用训练管线能以较小参数量换取更好的实用翻译质量”。

实验规模

训练了4个规模的日英双向翻译模型：0.8B、1.4B、3.3B和7B参数。数据来自多种单语语料与合成平行语料，包括in-house网页、FineWeb、arXiv/PubMed/J-Stage摘要、USPTO专利等，并经过语言过滤、长度过滤、MinHash去重、长度比过滤和规则过滤。评估覆盖WMT21日英、WMT24文档级英日，以及5个真实世界基准：BSD、Court、JMedBench、PFMT和WAT2025 Patent；对比对象包括Tower-Plus-9B、TranslateGemma-12B/4B、Qwen2.5-14B、Phi-4、Llama-3.2-3B、HY-MT、Shisa等强基线，指标使用BLEU和M-Prometheus-14B。

局限性

结论高度依赖日英这一相对资源丰富、且作者可用合成数据和强评测工具覆盖的语言对，外推到低资源语言对并不成立。实验虽然覆盖多个真实域基准，但仍以自动指标和LLM-as-a-judge为主，缺少大规模人工评测与充分消融来证明每个训练环节的独立贡献。训练数据大量依赖合成平行语料，质量上限受生成模型与过滤规则约束，也可能引入偏置和隐性自举误差。