自然语言处理★ 评分 7.1

Building a Strong Instruction Language Model for a Less-Resourced Language

Domen Vreš, Tjaša Arčon, Timotej Petrič, Dario Vajda, Marko Robnik-Šikonja, Iztok Lebar Bajec
2026年3月3日
关键词
大语言模型低资源语言斯洛文尼亚语持续预训练监督微调

核心发现

  1. GaMS3-12B是斯洛文尼亚语领域内参数量级最佳的开源模型,在Slovenian-LLM-Eval、英-斯翻译和斯洛文尼亚LLM竞技场上均优于Gemma 3 12B,并在竞技场上与GPT-4o等商业模型表现相当。
  2. 论文提出了一套针对低资源语言LLM适配的三阶段持续预训练(CPT)和两阶段监督微调(SFT)方法论,详细描述了并行对齐、基础CPT、长CPT以及通用指令调优和聊天调优的策略。
  3. 数据生成和准备,特别是通过OCR技术处理高质量斯洛文尼亚语PDF文档(如国家图书馆、大学论文、数学期刊)和机器翻译高质量英文语料,是扩充低资源语言训练数据、提升模型性能的关键。
  4. 机器翻译数据在SFT阶段的质量对模型生成文本的自然度有显著影响,斯洛文尼亚LLM竞技场结果显示GaMS3生成的斯洛文尼亚语“略显机器翻译痕迹”,作者也将其列为主要缺点。

实验规模

该研究以Gemma 3 12B为基础模型,进行了三阶段持续预训练和两阶段监督微调。持续预训练阶段使用了约1400亿个斯洛文尼亚语、英语、波斯尼亚语、塞尔维亚语和克罗地亚语混合tokens,数据来源包括人工翻译语料、机器翻译的维基百科、通过OCR自制的PDF文档(来自斯洛文尼亚国家图书馆、大学论文、数学期刊)、NVIDIA Nemotron数据集、CLASSLA-web、FineWeb2和FinePDFs。监督微调阶段使用了超过20万个英语和斯洛文尼亚语示例,包括GaMS-Instruct、GaMS-Lex、Nemotron-Post-Training-v2、Slovenian Code Feedback、GaMS-Nemotron-Chat和GaMS-Safety数据集。模型在Slovenian-LLM-Eval基准套件、英-斯翻译任务和斯洛文尼亚LLM竞技场上进行评估,并与GaMS-9B/27B、Zlatorog-12B、Gemma 3 12B/27B、EuroLLM-22B、Qwen3-30B-A3B、Apertus-8B、Bielik-11B-v3.0以及商业模型如Gemini系列和GPT-4o/GPT-5进行了比较。训练硬件包括EuroHPC LEONARDO Booster(约14万GPU小时,A100 64GB)、FRIDA内部集群(约120 B200 GPU小时和960 H100 GPU小时)和NVIDIA DGX Cloud Lepton(约4万GPU小时,H200 141GB)。

局限性

该模型的主要局限在于对机器翻译数据的过度依赖,尤其是在监督微调阶段,导致生成的斯洛文尼亚语可能不够自然。此外,模型在处理长上下文和需要复杂逻辑推理的任务上仍有提升空间,且尚未充分利用其基座模型Gemma 3的多模态能力。论文缺乏对不同持续预训练和监督微调阶段贡献的详细消融实验,难以量化各组件的独立有效性。

Paper ID: 2603.01691v1