自然语言处理★ 评分 6.5

A Study on Building Efficient Zero-Shot Relation Extraction Models

Hugo Thomas, Caio Corro, Guillaume Gravier, Pascale Sébillot
2026年3月3日
关键词
零样本关系抽取离线编码拒绝机制单次推理模型鲁棒性

核心发现

  1. 现有零样本关系抽取模型普遍存在不切实际的假设,即直接编码实体提及对(阻碍离线预计算)和缺乏拒绝机制(导致评估偏差)。
  2. 针对真实场景(大规模文本库、即时查询),模型需具备“离线编码”和“即时零样本分类”能力,这要求神经网络架构采用“晚期交互”且“单次推理”。
  3. 论文提出了一种新的零样本关系抽取模型分类法,并基于此适配了Emma、ReMatching和AlignRE三个SOTA模型,使其支持单次推理。实验表明,适配后的模型性能略有下降但可接受,其中ReMatching和AlignRE表现较好。
  4. 论文提出了三种拒绝机制(阈值、描述、原型),并设计了新的排名目标损失函数进行训练。实验结果显示,阈值策略表现不佳,而AlignRE结合描述或原型拒绝机制在拒绝准确率和保留F1分数之间取得了最佳平衡。
  5. 综合来看,AlignRE在经过单次推理和拒绝机制适配后,在所有评估标准上表现最佳,尽管没有现有模型能完全适应所有现实假设。

实验规模

实验在FewRel (80种关系类型, 56,000个关系四元组) 和 WikiZSL (113种关系类型, 94,383个关系四元组) 两个数据集上进行。评估了Emma、ReMatching和AlignRE三个SOTA模型的原始版本及其单次推理适配版本。所有模型训练5个epoch,Emma学习率为 $2 \times 10^{-5}$,AlignRE和ReMatching学习率为 $10^{-5}$,使用AdamW优化器。AlignRE和ReMatching的SBert编码器被冻结。评估在不同数量的未知关系类型(5, 10, 15)下进行,重复3次实验并报告平均值和标准差。

局限性

  1. 论文所使用的评估数据集(FewRel和WikiZSL)规模相对较小,且缺乏原生支持拒绝机制的标注,其“真实场景”的模拟评估协议可能无法完全反映大规模、复杂真实世界数据的挑战。
  2. 引入单次推理和拒绝机制后,模型的F1性能普遍有所下降,表明在效率和鲁棒性提升的同时,存在一定的性能权衡。
  3. 论文主要贡献在于对现有模型的系统性适配和评估,而非提出全新的模型架构或突破性算法,其方法论创新性属于增量改进。
Paper ID: 2603.01266v1