Arxiv Insights - Curated Research Intelligence

核心发现

将痴呆诊断从“AD二分类/分期”改写为症候群级的多阶段、多表型任务，更贴近真实门诊流程。
通过数据代理保留缺失值语义并路由到五个域专家，再由协调器做加权融合，可在不完整、多模态、多人来源数据下稳定提升诊断性能。
在1066例真实临床队列上，该多代理框架在分期与表型任务上均优于单体MLLM和既有医疗多代理基线，说明“结构化专家分解”比一体化建模更适合该任务。
消融表明认知专家对分期最关键、旁证专家对表型最关键，验证了不同临床域对不同诊断目标的非对称贡献。

实验规模

在两个认知神经专科服务收集的1066名患者真实世界队列上评估，时间跨度为2012至2024年。分期任务使用全部1066例，划分为训练/验证/测试集并保持三类标签分布；表型任务排除健康对照后使用722例进行12类多标签预测，同样进行分层划分以保证各表型在各子集中至少有一个阳性样本。对比对象包括Qwen3-VL-8B、InternVL3.5-8B、Hulu-Med-7B、LLaVA-Med-7B，以及MedAgents、MedAgentPro和作者的零样本变体。实现上，视觉多模态专家使用Qwen3-VL-Embedding-8B，文本专家使用Qwen3-Embedding-8B，LoRA微调20个epoch，batch size为8，在单张80GB NVIDIA A100上完成。

局限性

证据主要来自单中心/双门诊来源的私有队列，样本量对临床论文不算小，但外部泛化、跨机构稳健性和不同人群偏移仍未验证。对比虽然覆盖了若干MLLM和多代理基线，但不少基线并非针对痴呆任务的最强配置，且“协调器权重优化”本身可能对验证集产生适配。方法贡献更多是面向真实流程的系统性拆分与工程整合，而非提出可证伪性很强的新学习范式，因此增量价值明显，但颠覆性有限。