自然语言处理★ 评分 4.8

Clinical Term Extraction using Open-Source Small Language Models

Noah Marchal, William E. Janes, Mihail Popescu, Xing Song
2026年6月25日
关键词
ALS术语抽取开源小语言模型临床自然语言处理规则基线多标签分类

核心发现

  1. 在200条病历段落、85标签的人工验证中,regex基线以micro-F1 0.593和Hamming loss 0.035取得最佳总体表现,说明相当多ALS术语在病历中仍具有可规则化的固定表达。
  2. 26个开源SLM中,Qwen3-4B-Instruct-2507的micro-F1最高但仅为0.378,且整体仍落后于规则基线,表明仅靠提示词驱动的零样本/少样本检测不足以替代传统抽取方法。
  3. TF-IDF相似度基线召回最高(0.843)但精度极低(0.230),反映其适合做高召回筛查而不适合直接产出结构化标签。
  4. 不同标签类别的最优方法不同:规则法更适合标准化术语,Hammer2.1-7b在ALSFRS-R子评分上更强,说明任务应按标签类型路由,而不是寻找单一通用模型。

实验规模

实验基于23份ALS患者出院小结中的200个note-section观测,构建了一个覆盖85个标签的闭集ontology,并人工标注了789个正标签实例。比较对象包括26个开源小语言模型,参数规模约3B到13B,context window从2k到512k不等,同时设置了regex规则基线和TF-IDF标签相似度基线;评估采用micro-F1、macro-F1、precision、recall、exact match、Hamming loss和Jaccard,并用观测级bootstrap估计置信区间。

局限性

样本规模明显偏小,只有3名ALS患者、23份出院小结,且只做了单中心、单任务的术语存在检测,外推到其他科室、其他病种或更复杂的值级抽取缺乏证据。对比中regex基线本身较强,而SLM主要通过提示词和后处理评估,尚未检验更充分的微调、链式路由或端到端混合系统,因此“SLM不如规则法”的结论更像当前设置下的结果,而不是方法上限。论文也只验证了术语是否出现,没有验证数值抽取的正确性,临床可用性仍有限。

Paper ID: 2606.21689