自然语言处理★ 评分 5.8
Scaling Performance and Low-Resource Annotation with Many-Shot In-Context Learning for Named Entity Recognition
Qi Zhang, Fangping Lan, Cornelia Caragea, Longin Jan Latecki, Eduard Dragut
2026年6月25日
关键词
many-shot ICL命名实体识别低资源标注In-Context Annotation误差感知修正
核心发现
- NER 的 many-shot ICL 呈稳定增益:随着示例数从少量扩展到数百条,多个模型在 MIT-Movie、MIT-Restaurant、CoNLL2003、WNUT2017 上持续提升,且约 100 条示例后常进入平台期,说明大上下文确实能放大 ICL 的标注能力。
- 检索式示例选择通常比随机采样更强,但当随机采样扩展到 500-shot 时差距明显缩小,表明 many-shot 场景下“足够多的示例”比“精心挑选少量示例”更关键。
- ICA 把 LLM 输出转成训练数据后,BERT 在 CrossNER 五个领域上显著优于传统数据增强和低资源 SOTA,EAR 进一步修正缺失、虚假和类型错误,说明主要收益来自“离线标注+下游训练”,而不只是直接提示词推理。
实验规模
many-shot ICL 部分覆盖 4 个数据集:MIT-Movie、MIT-Restaurant、WNUT2017、CoNLL2003;对比 7 个 LLM,包括 GPT-4o、DeepSeekV3、Qwen2.5-7B/32B/72B、LLaMA3.1-8B/70B,示例数最多到 500,采用随机采样和 BM25 检索两种 in-context 选样方式,指标为实体级 micro-F1。ICA 部分在 CrossNER 的 5 个领域(AI、Literature、Music、Politics、Science)上实验,每个领域用 100 条人工标注作为种子示例,结合 2k 未标注句子进行批量标注,使用 DeepSeekV3 生成标签,再用 BERT-base-cased 训练下游模型;对比了多种传统数据增强、低资源 NER SOTA,以及 ICL-ZS/ICL-MS 和自修正变体,结果平均取 5 次运行并报告标准差。
局限性
论文的结论主要建立在英文 NER 和几个标准基准上,尚未覆盖跨语言、嵌套实体、长尾实体密集场景等更难的设置,因此泛化边界不清晰。many-shot ICL 和 ICA 都依赖长上下文与大量 LLM 推理,虽然节省人工标注,但并不便宜,且仍需要约 75-100 条高质量种子标注作为启动条件。CrossNER 上的改进虽然明显,但对比基线并非完全同条件,且缺少更系统的误差分解、统计显著性分析和对检索/采样策略更彻底的消融。