Arxiv Insights - Curated Research Intelligence

核心发现

在200条病历段落、85标签的人工验证中，regex基线以micro-F1 0.593和Hamming loss 0.035取得最佳总体表现，说明相当多ALS术语在病历中仍具有可规则化的固定表达。
26个开源SLM中，Qwen3-4B-Instruct-2507的micro-F1最高但仅为0.378，且整体仍落后于规则基线，表明仅靠提示词驱动的零样本/少样本检测不足以替代传统抽取方法。
TF-IDF相似度基线召回最高(0.843)但精度极低(0.230)，反映其适合做高召回筛查而不适合直接产出结构化标签。
不同标签类别的最优方法不同：规则法更适合标准化术语，Hammer2.1-7b在ALSFRS-R子评分上更强，说明任务应按标签类型路由，而不是寻找单一通用模型。

实验规模

实验基于23份ALS患者出院小结中的200个note-section观测，构建了一个覆盖85个标签的闭集ontology，并人工标注了789个正标签实例。比较对象包括26个开源小语言模型，参数规模约3B到13B，context window从2k到512k不等，同时设置了regex规则基线和TF-IDF标签相似度基线；评估采用micro-F1、macro-F1、precision、recall、exact match、Hamming loss和Jaccard，并用观测级bootstrap估计置信区间。

局限性

样本规模明显偏小，只有3名ALS患者、23份出院小结，且只做了单中心、单任务的术语存在检测，外推到其他科室、其他病种或更复杂的值级抽取缺乏证据。对比中regex基线本身较强，而SLM主要通过提示词和后处理评估，尚未检验更充分的微调、链式路由或端到端混合系统，因此“SLM不如规则法”的结论更像当前设置下的结果，而不是方法上限。论文也只验证了术语是否出现，没有验证数值抽取的正确性，临床可用性仍有限。