Arxiv Insights - Curated Research Intelligence

核心发现

将 λ 同时用于 PRC-AdaLN 和临床奖励加权，使同一模型在推理时可以连续调节 precision/recall，而不是只能生成固定偏好的报告。
在 MIMIC-CXR 上，λ 从 0 到 1 时 precision 持续上升、recall 持续下降，F1 在 λ=0.3 达到峰值，说明控制旋钮确实能改变生成偏向。
混合 NLG 奖励与临床奖励后，模型在 BLEU/ROUGE 和 CE 的 recall、F1 上取得较好结果，但表 1 中 precision=0.505，仍低于 MLRG 的 0.549，所谓“全面 SOTA”并不成立。
group-relative 标准化优势减少了 RL 方差，并在消融中与 clinical reward 形成互补；但整体提升更像是对现有 RRG 管线的增量整合，而非方法范式突破。

实验规模

仅在 MIMIC-CXR 上实验：473,057 张胸片、206,563 份报告，按官方患者级划分为 270,790/2,130/3,858 的训练/验证/测试集；仅使用 findings 部分。模型以预训练 R2Gen 为基础微调 5 个 epoch，batch size=4，在 16 张 NVIDIA A100 上训练；group-relative 训练的组大小 K=5，推理时 λ 从 0 到 1 以 0.1 步长扫描。对比 R2Gen、METrans、R2GenGPT、BoostRRG、Diff-RRG、MLRG、MedGemma 1.5 4B，评估 BLEU-1/2/3/4、ROUGE-L、METEOR，以及基于 CheXbert 的 precision/recall/F1。

局限性

只在单一数据集 MIMIC-CXR 上验证，缺少跨机构、跨设备和前瞻性临床验证，λ 的可控性与泛化能力仍未被充分证明。临床奖励依赖 CheXbert 自动标签，和真实放射科医生的判断并不等价，因此自动指标上的提升不能直接外推为临床可靠性。对比基线大量采用原论文报告值，部分方法的提示词、后处理和预处理不完全统一，公平比较的严谨性有限。