Arxiv Insights - Curated Research Intelligence

核心发现

临床命名实体识别（NER）模型在召回率方面表现良好，但在精度上存在挑战，尤其面对临床数据的模糊性和分布外（OOD）数据。
传统的SoftMax置信度阈值法因Transformer架构的过自信和饱和特性，在不确定性估计方面表现不佳。
提出一种轻量级噪声消除（NR）模型，通过监督式决策树分类器，利用从NER模型输出中提取的概率密度图（PDM）和统计特征来识别弱预测。
PDM特征捕捉了Transformer嵌入中“语义拉力”效应在概率分布上的体现，结合统计特征（如类间概率差、序列熵等），有效区分真阳性与假阳性。
在EMR和MIMIC-III数据集上，NR模型将假阳性（FP）降低了50%至90%（MIMIC-III上为47%至87%），同时将真阳性（TP）损失控制在6%以下，显著提高了F1分数。

实验规模

实验在两个临床数据集上进行：专有的EMR数据集（包含5万名肺癌和乳腺癌患者数据，例如Biomarker实体有6.7K真阳性和24.5K假阳性）和公开的MIMIC-III数据集（包含4万名患者的200万份文档，例如Biomarker实体有200真阳性和150假阳性）。基线模型为内部预训练的BERT NER模型。对比方法包括SoftMax阈值法、温度缩放和蒙特卡洛Dropout。NR模型采用决策树分类器，并优化超参数以限制真阳性下降不超过5-6%。

局限性

MIMIC-III数据集的评估依赖于不完整的标注和相对比较，限制了绝对性能的验证和结果的完全复现。
该方法的核心特征工程（PDM和统计特征）高度依赖于BERT NER模型输出的概率分布特性，其在其他模型架构或更广泛NLP任务中的通用性有待进一步验证。
论文中使用的“内部BERT”模型和专有EMR数据集限制了研究的透明度和独立验证性。