自然语言处理★ 评分 7.8

Bootstrapping Embeddings for Low Resource Languages

Merve Basoz, Andrew Horne, Mattia Opper
2026年3月3日
关键词
低资源语言嵌入模型合成数据生成LoRA跨语言迁移

核心发现

  1. 低资源语言嵌入模型数据稀缺性:构建高效的嵌入模型依赖高质量监督微调数据,但低资源语言普遍缺乏此类数据。
  2. LLM合成数据潜力:大型语言模型(LLMs)能够通过生成合成三元组数据来弥补这一差距,但不同生成策略效果差异显著。
  3. 生成策略效果对比:
    • 上下文学习(ICL):在低资源语言场景下,表现不如强非合成基线(如跨语言基线),存在目标语言能力不足、语境不匹配和词汇重叠度高等问题。
    • 适配器组合(Adapter Composition):通过LoRA微调LLM生成器,在多任务和多语言上显著优于ICL和跨语言基线,但其生成的嵌入空间对齐性(alignment)相对较弱。
    • XL-LoRA(跨语言LoRA):最佳方法,通过在LLM生成器训练时,让其为低资源语言锚点生成英文的正负例,实现了性能上的显著提升,且无需目标语言的监督数据,同时展现出更好的嵌入空间均匀性和对齐性。
  4. 数据质量敏感性:XL-LoRA方法对生成器训练数据的质量高度敏感,高质量的人工翻译数据对于成功至关重要。
  5. 可扩展性:增加XL-LoRA适配器的训练数据量(从10k到20k)可以进一步提升性能,表明该方法具有良好的可扩展性。

实验规模

实验使用Gemma 3 27b作为LLM生成器,并在XLM-R Base和mmBERT Base两种多语言骨干编码器上进行微调。合成数据方法生成了27.5万个训练样本。基线包括未微调的骨干编码器、在目标语言无标签数据上进行无监督SimCSE微调的模型(数据源自Leipzig Corpora Collection和Opus),以及在英文NLI数据集上微调后进行零样本跨语言迁移的模型。评估任务涵盖STS/STR任务(来自SemEval-2024)和MTEB中的检索任务子集,涉及南非荷兰语、印地语、马拉地语、泰卢固语、印尼语、豪萨语和韩语等多种低资源语言。LoRA适配器使用10k或20k示例进行训练,语言适配器使用Aya数据集。所有结果(适用时)报告了在四个随机种子上的平均值和标准差。

局限性

论文的评估范围受限于选定的语言家族和计算资源,未能充分探索更多类型学特征迥异的语言或更大规模的LLM。此外,研究主要集中于编码器型嵌入模型,未考虑指令微调LLM的解码器型嵌入潜力。尽管XL-LoRA方法声称生成器优化无需目标语言数据,但其训练数据仍依赖高质量的人工翻译,这对于极低资源语言可能仍是挑战。

Paper ID: 2603.01732v1