Arxiv Insights - Curated Research Intelligence

核心发现

NER 的 many-shot ICL 呈稳定增益：随着示例数从少量扩展到数百条，多个模型在 MIT-Movie、MIT-Restaurant、CoNLL2003、WNUT2017 上持续提升，且约 100 条示例后常进入平台期，说明大上下文确实能放大 ICL 的标注能力。
检索式示例选择通常比随机采样更强，但当随机采样扩展到 500-shot 时差距明显缩小，表明 many-shot 场景下“足够多的示例”比“精心挑选少量示例”更关键。
ICA 把 LLM 输出转成训练数据后，BERT 在 CrossNER 五个领域上显著优于传统数据增强和低资源 SOTA，EAR 进一步修正缺失、虚假和类型错误，说明主要收益来自“离线标注+下游训练”，而不只是直接提示词推理。

实验规模

many-shot ICL 部分覆盖 4 个数据集：MIT-Movie、MIT-Restaurant、WNUT2017、CoNLL2003；对比 7 个 LLM，包括 GPT-4o、DeepSeekV3、Qwen2.5-7B/32B/72B、LLaMA3.1-8B/70B，示例数最多到 500，采用随机采样和 BM25 检索两种 in-context 选样方式，指标为实体级 micro-F1。ICA 部分在 CrossNER 的 5 个领域（AI、Literature、Music、Politics、Science）上实验，每个领域用 100 条人工标注作为种子示例，结合 2k 未标注句子进行批量标注，使用 DeepSeekV3 生成标签，再用 BERT-base-cased 训练下游模型；对比了多种传统数据增强、低资源 NER SOTA，以及 ICL-ZS/ICL-MS 和自修正变体，结果平均取 5 次运行并报告标准差。

局限性

论文的结论主要建立在英文 NER 和几个标准基准上，尚未覆盖跨语言、嵌套实体、长尾实体密集场景等更难的设置，因此泛化边界不清晰。many-shot ICL 和 ICA 都依赖长上下文与大量 LLM 推理，虽然节省人工标注，但并不便宜，且仍需要约 75-100 条高质量种子标注作为启动条件。CrossNER 上的改进虽然明显，但对比基线并非完全同条件，且缺少更系统的误差分解、统计显著性分析和对检索/采样策略更彻底的消融。