自然语言处理★ 评分 5.1

Precision Recall Controllable Radiology Report Generation via Hybrid Natural Language and Clinical Reward Learning

Ling Chen, Ruinan Jin, Jun Luo, Hanliang Chen, Quirin Strotzer, Rongkai Yan, Yuan Xue, Luciano Prevedello, Dufan Wu
2026年6月25日
关键词
胸部X光报告生成强化学习临床奖励precision-recall 可控性MIMIC-CXR

核心发现

  1. 将 λ 同时用于 PRC-AdaLN 和临床奖励加权,使同一模型在推理时可以连续调节 precision/recall,而不是只能生成固定偏好的报告。
  2. 在 MIMIC-CXR 上,λ 从 0 到 1 时 precision 持续上升、recall 持续下降,F1 在 λ=0.3 达到峰值,说明控制旋钮确实能改变生成偏向。
  3. 混合 NLG 奖励与临床奖励后,模型在 BLEU/ROUGE 和 CE 的 recall、F1 上取得较好结果,但表 1 中 precision=0.505,仍低于 MLRG 的 0.549,所谓“全面 SOTA”并不成立。
  4. group-relative 标准化优势减少了 RL 方差,并在消融中与 clinical reward 形成互补;但整体提升更像是对现有 RRG 管线的增量整合,而非方法范式突破。

实验规模

仅在 MIMIC-CXR 上实验:473,057 张胸片、206,563 份报告,按官方患者级划分为 270,790/2,130/3,858 的训练/验证/测试集;仅使用 findings 部分。模型以预训练 R2Gen 为基础微调 5 个 epoch,batch size=4,在 16 张 NVIDIA A100 上训练;group-relative 训练的组大小 K=5,推理时 λ 从 0 到 1 以 0.1 步长扫描。对比 R2Gen、METrans、R2GenGPT、BoostRRG、Diff-RRG、MLRG、MedGemma 1.5 4B,评估 BLEU-1/2/3/4、ROUGE-L、METEOR,以及基于 CheXbert 的 precision/recall/F1。

局限性

只在单一数据集 MIMIC-CXR 上验证,缺少跨机构、跨设备和前瞻性临床验证,λ 的可控性与泛化能力仍未被充分证明。临床奖励依赖 CheXbert 自动标签,和真实放射科医生的判断并不等价,因此自动指标上的提升不能直接外推为临床可靠性。对比基线大量采用原论文报告值,部分方法的提示词、后处理和预处理不完全统一,公平比较的严谨性有限。

Paper ID: 2606.21447