Arxiv Insights - Curated Research Intelligence

核心发现

引入了ClinConsensus基准：包含2,500个开放式、高难度中文临床案例，涵盖36个医学专科、12种任务类型及递增的复杂性，由临床专家策划并进行严格质量控制，以解决现有基准静态、任务孤立和西方中心化的问题。
提出了可扩展的评估方法和指标CACS@k：采用基于评分标准的评估协议，并设计了“临床适用一致性得分”（CACS@k），该指标通过设定临床可用性阈值，强调模型生成一致且可用的临床响应，而非平均正确性，更适用于高风险医疗领域。
建立了双重评判框架：结合了高能力LLM作为评判器和通过监督微调训练的本地可部署评判模型，实现了可扩展、可复现且与医生判断对齐的评估，并验证了评判器与医生判断的高度一致性（最高MF1达0.815）。
揭示了领先LLM的性能异质性：对15个主流LLM的评估显示，尽管顶级模型总体得分相近，但在推理、证据使用和长期随访等特定临床能力上存在显著差异，且临床可操作的治疗计划仍是关键瓶颈，表明强大的语言建模能力不直接等同于安全可用的临床行为。

实验规模

基准包含2,500个案例，涵盖36个医学专科和12种临床任务类型，并分为L1、L2、L3三个难度级别。每个案例附带30个专家定义的评估标准。通过两阶段质量控制，包括使用DeepSeek-v3、GPT-5和Gemini-2.5 Pro三款领先LLM进行难度过滤，以及资深临床医生对20%案例进行审计。评估指标CACS@k的临床阈值k=7，通过对250个专家撰写响应的经验平均值校准。评判模型训练集包含约33.7k个评分标准级别实例，验证集3.8k实例，使用8B规模的解码器Transformer进行SFT。共评估了15个主流LLM，包括GPT-5.2、Gemini-3-Pro、Claude Opus 4.5、ERNIE-5.0、Qwen-Plus等。元评估阶段使用了285个案例，对15个模型响应的30个评分标准进行了医生标注，共计128,250个评分标准级别标签，用于比较GPT-5.1、GPT-4.1和SFT-8B评判模型与医生判断的一致性。

局限性

该基准的案例分布存在偏斜，预防阶段的案例显著不足（3.6%），可能限制了对LLM在整个医疗连续体中能力的全面评估。尽管引入了双重评判框架，但自动化评判器与医生判断的MF1一致性并非完美（最高0.815），且不同任务主题间存在差异，这可能在一定程度上影响评估结果的绝对可靠性。此外，部分医疗专科的案例数量较少，可能不足以全面评估LLMs在这些特定领域的表现。