自然语言处理★ 评分 5.8

Dementia-Agents: A Multi-Modal Multi-Agent System for Dementia Staging and Phenotyping

Yaling Shen, Maja Christensen, Yiwen Jiang, Jenna Dennison, David Darby, Amy Brodtmann, Zongyuan Ge
2026年6月25日
关键词
痴呆分期痴呆表型识别多代理系统多模态临床建模真实世界医疗AI

核心发现

  1. 将痴呆诊断从“AD二分类/分期”改写为症候群级的多阶段、多表型任务,更贴近真实门诊流程。
  2. 通过数据代理保留缺失值语义并路由到五个域专家,再由协调器做加权融合,可在不完整、多模态、多人来源数据下稳定提升诊断性能。
  3. 在1066例真实临床队列上,该多代理框架在分期与表型任务上均优于单体MLLM和既有医疗多代理基线,说明“结构化专家分解”比一体化建模更适合该任务。
  4. 消融表明认知专家对分期最关键、旁证专家对表型最关键,验证了不同临床域对不同诊断目标的非对称贡献。

实验规模

在两个认知神经专科服务收集的1066名患者真实世界队列上评估,时间跨度为2012至2024年。分期任务使用全部1066例,划分为训练/验证/测试集并保持三类标签分布;表型任务排除健康对照后使用722例进行12类多标签预测,同样进行分层划分以保证各表型在各子集中至少有一个阳性样本。对比对象包括Qwen3-VL-8B、InternVL3.5-8B、Hulu-Med-7B、LLaVA-Med-7B,以及MedAgents、MedAgentPro和作者的零样本变体。实现上,视觉多模态专家使用Qwen3-VL-Embedding-8B,文本专家使用Qwen3-Embedding-8B,LoRA微调20个epoch,batch size为8,在单张80GB NVIDIA A100上完成。

局限性

证据主要来自单中心/双门诊来源的私有队列,样本量对临床论文不算小,但外部泛化、跨机构稳健性和不同人群偏移仍未验证。对比虽然覆盖了若干MLLM和多代理基线,但不少基线并非针对痴呆任务的最强配置,且“协调器权重优化”本身可能对验证集产生适配。方法贡献更多是面向真实流程的系统性拆分与工程整合,而非提出可证伪性很强的新学习范式,因此增量价值明显,但颠覆性有限。

Paper ID: 2606.21168