Arxiv Insights - Curated Research Intelligence

核心发现

GaMS3-12B是斯洛文尼亚语领域内参数量级最佳的开源模型，在Slovenian-LLM-Eval、英-斯翻译和斯洛文尼亚LLM竞技场上均优于Gemma 3 12B，并在竞技场上与GPT-4o等商业模型表现相当。
论文提出了一套针对低资源语言LLM适配的三阶段持续预训练（CPT）和两阶段监督微调（SFT）方法论，详细描述了并行对齐、基础CPT、长CPT以及通用指令调优和聊天调优的策略。
数据生成和准备，特别是通过OCR技术处理高质量斯洛文尼亚语PDF文档（如国家图书馆、大学论文、数学期刊）和机器翻译高质量英文语料，是扩充低资源语言训练数据、提升模型性能的关键。
机器翻译数据在SFT阶段的质量对模型生成文本的自然度有显著影响，斯洛文尼亚LLM竞技场结果显示GaMS3生成的斯洛文尼亚语“略显机器翻译痕迹”，作者也将其列为主要缺点。

实验规模

该研究以Gemma 3 12B为基础模型，进行了三阶段持续预训练和两阶段监督微调。持续预训练阶段使用了约1400亿个斯洛文尼亚语、英语、波斯尼亚语、塞尔维亚语和克罗地亚语混合tokens，数据来源包括人工翻译语料、机器翻译的维基百科、通过OCR自制的PDF文档（来自斯洛文尼亚国家图书馆、大学论文、数学期刊）、NVIDIA Nemotron数据集、CLASSLA-web、FineWeb2和FinePDFs。监督微调阶段使用了超过20万个英语和斯洛文尼亚语示例，包括GaMS-Instruct、GaMS-Lex、Nemotron-Post-Training-v2、Slovenian Code Feedback、GaMS-Nemotron-Chat和GaMS-Safety数据集。模型在Slovenian-LLM-Eval基准套件、英-斯翻译任务和斯洛文尼亚LLM竞技场上进行评估，并与GaMS-9B/27B、Zlatorog-12B、Gemma 3 12B/27B、EuroLLM-22B、Qwen3-30B-A3B、Apertus-8B、Bielik-11B-v3.0以及商业模型如Gemini系列和GPT-4o/GPT-5进行了比较。训练硬件包括EuroHPC LEONARDO Booster（约14万GPU小时，A100 64GB）、FRIDA内部集群（约120 B200 GPU小时和960 H100 GPU小时）和NVIDIA DGX Cloud Lepton（约4万GPU小时，H200 141GB）。

局限性

该模型的主要局限在于对机器翻译数据的过度依赖，尤其是在监督微调阶段，导致生成的斯洛文尼亚语可能不够自然。此外，模型在处理长上下文和需要复杂逻辑推理的任务上仍有提升空间，且尚未充分利用其基座模型Gemma 3的多模态能力。论文缺乏对不同持续预训练和监督微调阶段贡献的详细消融实验，难以量化各组件的独立有效性。