自然语言处理★ 评分 8.5

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Xiang Zheng, Han Li, Wenjie Luo, Weiqi Zhai, Yiyuan Li, Chuanmiao Yan, Tianyi Tang, Yubo Ma, Kexin Yang, Dayiheng Liu, Hu Wei, Bing Zhao
2026年3月3日
关键词
医疗大模型基准测试临床评估CACS@k中文医疗

核心发现

  1. 引入了ClinConsensus基准:包含2,500个开放式、高难度中文临床案例,涵盖36个医学专科、12种任务类型及递增的复杂性,由临床专家策划并进行严格质量控制,以解决现有基准静态、任务孤立和西方中心化的问题。
  2. 提出了可扩展的评估方法和指标CACS@k:采用基于评分标准的评估协议,并设计了“临床适用一致性得分”(CACS@k),该指标通过设定临床可用性阈值,强调模型生成一致且可用的临床响应,而非平均正确性,更适用于高风险医疗领域。
  3. 建立了双重评判框架:结合了高能力LLM作为评判器和通过监督微调训练的本地可部署评判模型,实现了可扩展、可复现且与医生判断对齐的评估,并验证了评判器与医生判断的高度一致性(最高MF1达0.815)。
  4. 揭示了领先LLM的性能异质性:对15个主流LLM的评估显示,尽管顶级模型总体得分相近,但在推理、证据使用和长期随访等特定临床能力上存在显著差异,且临床可操作的治疗计划仍是关键瓶颈,表明强大的语言建模能力不直接等同于安全可用的临床行为。

实验规模

基准包含2,500个案例,涵盖36个医学专科和12种临床任务类型,并分为L1、L2、L3三个难度级别。每个案例附带30个专家定义的评估标准。通过两阶段质量控制,包括使用DeepSeek-v3、GPT-5和Gemini-2.5 Pro三款领先LLM进行难度过滤,以及资深临床医生对20%案例进行审计。评估指标CACS@k的临床阈值k=7,通过对250个专家撰写响应的经验平均值校准。评判模型训练集包含约33.7k个评分标准级别实例,验证集3.8k实例,使用8B规模的解码器Transformer进行SFT。共评估了15个主流LLM,包括GPT-5.2、Gemini-3-Pro、Claude Opus 4.5、ERNIE-5.0、Qwen-Plus等。元评估阶段使用了285个案例,对15个模型响应的30个评分标准进行了医生标注,共计128,250个评分标准级别标签,用于比较GPT-5.1、GPT-4.1和SFT-8B评判模型与医生判断的一致性。

局限性

该基准的案例分布存在偏斜,预防阶段的案例显著不足(3.6%),可能限制了对LLM在整个医疗连续体中能力的全面评估。尽管引入了双重评判框架,但自动化评判器与医生判断的MF1一致性并非完美(最高0.815),且不同任务主题间存在差异,这可能在一定程度上影响评估结果的绝对可靠性。此外,部分医疗专科的案例数量较少,可能不足以全面评估LLMs在这些特定领域的表现。

Paper ID: 2603.02097v1