Arxiv Insights - Curated Research Intelligence

核心发现

混合式流水线（BiLSTM-CRF + LLM后修正）在所有测试模型上均持续提升了性能，尤其在少样本场景下效果显著，表明结构化模型与LLM推理的互补优势。
检索增强提示（RAG）对LLM性能至关重要，基于相似度的样本选择比随机选择带来了大幅度性能提升，验证了提供相关上下文的重要性。
令人意外的是，提供形态学词典（特别是部分词典）普遍损害了大多数模型的性能，暗示LLM在整合词典信息或平衡多源信息方面存在挑战。
LLM性能随上下文示例数量呈近似对数增长，通常在10-15个示例后达到平台期或出现性能下降，揭示了少样本学习的边际效益递减规律。
混合流水线的性能提升主要集中在不常见的词汇形态素上，LLM通过上下文推理弥补了BiLSTM在低频项上的不足，而BiLSTM已能有效处理高频语法标记。

实验规模

本研究以准噶尔图瓦语（一种低资源突厥语）为案例，使用包含895个IGT标注句子的语料库（760句训练，135句测试）。基线模型为BiLSTM-CRF。评估了四种大型语言模型：deepseek-v3.2-exp、qwen3-max、gpt-4o-mini和gemma-3-27b-it。实验设计包括：1. 检索与随机选择对比（3样本）；2. 少样本数量（1至20）对RAG LLM生成的影响；3. 四种词典配置（无、最常用100、所有语法形态素、全部1498对）的消融研究；4. 混合流水线（BiLSTM预测作为LLM修正的初始假设）在不同少样本数量下的性能。

局限性

本研究的评估局限于单一语言（准噶尔图瓦语）和较小的测试集，限制了其结论向其他形态系统和更大规模数据的泛化能力。此外，论文假设了金标准形态素边界，并未解决形态素切分问题，且对词典集成方式的提示工程探索不足，可能影响了词典作用的结论。商业LLM的透明度限制也带来了数据污染的潜在担忧。