自然语言处理★ 评分 6.2

Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan

Siyu Liang, Talant Mawkanuli, Gina-Anne Levow
2026年3月3日
关键词
混合流水线LLM形态学词汇标注濒危语言检索增强生成

核心发现

  1. 混合式流水线(BiLSTM-CRF + LLM后修正)在所有测试模型上均持续提升了性能,尤其在少样本场景下效果显著,表明结构化模型与LLM推理的互补优势。
  2. 检索增强提示(RAG)对LLM性能至关重要,基于相似度的样本选择比随机选择带来了大幅度性能提升,验证了提供相关上下文的重要性。
  3. 令人意外的是,提供形态学词典(特别是部分词典)普遍损害了大多数模型的性能,暗示LLM在整合词典信息或平衡多源信息方面存在挑战。
  4. LLM性能随上下文示例数量呈近似对数增长,通常在10-15个示例后达到平台期或出现性能下降,揭示了少样本学习的边际效益递减规律。
  5. 混合流水线的性能提升主要集中在不常见的词汇形态素上,LLM通过上下文推理弥补了BiLSTM在低频项上的不足,而BiLSTM已能有效处理高频语法标记。

实验规模

本研究以准噶尔图瓦语(一种低资源突厥语)为案例,使用包含895个IGT标注句子的语料库(760句训练,135句测试)。基线模型为BiLSTM-CRF。评估了四种大型语言模型:deepseek-v3.2-exp、qwen3-max、gpt-4o-mini和gemma-3-27b-it。实验设计包括:1. 检索与随机选择对比(3样本);2. 少样本数量(1至20)对RAG LLM生成的影响;3. 四种词典配置(无、最常用100、所有语法形态素、全部1498对)的消融研究;4. 混合流水线(BiLSTM预测作为LLM修正的初始假设)在不同少样本数量下的性能。

局限性

本研究的评估局限于单一语言(准噶尔图瓦语)和较小的测试集,限制了其结论向其他形态系统和更大规模数据的泛化能力。此外,论文假设了金标准形态素边界,并未解决形态素切分问题,且对词典集成方式的提示工程探索不足,可能影响了词典作用的结论。商业LLM的透明度限制也带来了数据污染的潜在担忧。

Paper ID: 2603.00923v1