人工智能★ 评分 6.8

Noise reduction in BERT NER models for clinical entity extraction

Kuldeep Jiwani, Yash K Jeengar, Ayush Dhaka
2026年3月3日
关键词
临床NER噪声消除BERT不确定性估计概率密度图

核心发现

  1. 临床命名实体识别(NER)模型在召回率方面表现良好,但在精度上存在挑战,尤其面对临床数据的模糊性和分布外(OOD)数据。
  2. 传统的SoftMax置信度阈值法因Transformer架构的过自信和饱和特性,在不确定性估计方面表现不佳。
  3. 提出一种轻量级噪声消除(NR)模型,通过监督式决策树分类器,利用从NER模型输出中提取的概率密度图(PDM)和统计特征来识别弱预测。
  4. PDM特征捕捉了Transformer嵌入中“语义拉力”效应在概率分布上的体现,结合统计特征(如类间概率差、序列熵等),有效区分真阳性与假阳性。
  5. 在EMR和MIMIC-III数据集上,NR模型将假阳性(FP)降低了50%至90%(MIMIC-III上为47%至87%),同时将真阳性(TP)损失控制在6%以下,显著提高了F1分数。

实验规模

实验在两个临床数据集上进行:专有的EMR数据集(包含5万名肺癌和乳腺癌患者数据,例如Biomarker实体有6.7K真阳性和24.5K假阳性)和公开的MIMIC-III数据集(包含4万名患者的200万份文档,例如Biomarker实体有200真阳性和150假阳性)。基线模型为内部预训练的BERT NER模型。对比方法包括SoftMax阈值法、温度缩放和蒙特卡洛Dropout。NR模型采用决策树分类器,并优化超参数以限制真阳性下降不超过5-6%。

局限性

  1. MIMIC-III数据集的评估依赖于不完整的标注和相对比较,限制了绝对性能的验证和结果的完全复现。
  2. 该方法的核心特征工程(PDM和统计特征)高度依赖于BERT NER模型输出的概率分布特性,其在其他模型架构或更广泛NLP任务中的通用性有待进一步验证。
  3. 论文中使用的“内部BERT”模型和专有EMR数据集限制了研究的透明度和独立验证性。
Paper ID: 2603.00022v1