自然语言处理★ 评分 5.8
Dementia-Agents: A Multi-Modal Multi-Agent System for Dementia Staging and Phenotyping
Yaling Shen, Maja Christensen, Yiwen Jiang, Jenna Dennison, David Darby, Amy Brodtmann, Zongyuan Ge
2026年6月25日
关键词
痴呆分期痴呆表型识别多代理系统多模态临床建模真实世界医疗AI
核心发现
- 将痴呆诊断从“AD二分类/分期”改写为症候群级的多阶段、多表型任务,更贴近真实门诊流程。
- 通过数据代理保留缺失值语义并路由到五个域专家,再由协调器做加权融合,可在不完整、多模态、多人来源数据下稳定提升诊断性能。
- 在1066例真实临床队列上,该多代理框架在分期与表型任务上均优于单体MLLM和既有医疗多代理基线,说明“结构化专家分解”比一体化建模更适合该任务。
- 消融表明认知专家对分期最关键、旁证专家对表型最关键,验证了不同临床域对不同诊断目标的非对称贡献。
实验规模
在两个认知神经专科服务收集的1066名患者真实世界队列上评估,时间跨度为2012至2024年。分期任务使用全部1066例,划分为训练/验证/测试集并保持三类标签分布;表型任务排除健康对照后使用722例进行12类多标签预测,同样进行分层划分以保证各表型在各子集中至少有一个阳性样本。对比对象包括Qwen3-VL-8B、InternVL3.5-8B、Hulu-Med-7B、LLaVA-Med-7B,以及MedAgents、MedAgentPro和作者的零样本变体。实现上,视觉多模态专家使用Qwen3-VL-Embedding-8B,文本专家使用Qwen3-Embedding-8B,LoRA微调20个epoch,batch size为8,在单张80GB NVIDIA A100上完成。
局限性
证据主要来自单中心/双门诊来源的私有队列,样本量对临床论文不算小,但外部泛化、跨机构稳健性和不同人群偏移仍未验证。对比虽然覆盖了若干MLLM和多代理基线,但不少基线并非针对痴呆任务的最强配置,且“协调器权重优化”本身可能对验证集产生适配。方法贡献更多是面向真实流程的系统性拆分与工程整合,而非提出可证伪性很强的新学习范式,因此增量价值明显,但颠覆性有限。