自然语言处理★ 评分 4.0
A Multi-Agent Audit Framework for High-Stakes Reasoning: Evaluation and Interpretability in Clinical Mental Health Screening
Jingchen Ye, Yanpei Yu, Luyao Zhang
2026年6月25日
关键词
多智能体系统临床心理筛查DAIC-WOZPHQ-8抑郁预测检索增强生成
核心发现
- 在184个DAIC-WOZ文本会话上,四代理流水线把Qwen2.5的MAE从5.35降到5.02,说明提升主要来自任务拆分与审计校验,而不是单纯延长CoT。
- 相比单代理和CoT,多智能体在可解释性、推理稳定性和幻觉抑制上更优,审计阶段能纠正严重高估、无依据症状推断和上下文不一致。
- 消融实验表明感知、知识检索和审计三者都在贡献性能,其中去掉感知或审计带来的退化更明显,证明流程协同比单点提示更关键。
- 论文的证据链主要建立在小规模文本子集和有限基线上,结论更适合被理解为“有用的流程型增量”,而不是新的临床建模范式。
实验规模
以DAIC-WOZ文本转录为对象,清洗后保留184个会话,按约70/10/20划分为128个开发集、19个验证集和37个测试集;在本地Ollama环境中比较LLaMA-3.1、Qwen2.5、DeepSeek-R1三种开源模型,评估单代理、CoT、四代理完整流程及4种消融配置;每组进行3次独立推理运行,固定温度0.2、RAG检索top-k=3,采用MAE、95%置信区间、配对t检验和bootstrap进行评估,未做参数微调。
局限性
主要局限是样本规模很小,而且只在DAIC-WOZ的文本模态上验证,外部泛化性不足。对比对象主要是单代理和CoT,没有在同一任务设定下系统对照更强的监督式回归基线,因此“优于传统方法”的结论支撑不够硬。可解释性、幻觉率和审计修正等指标包含较强的人工判断成分,且论文文本本身存在明显的年份、排版和引用异常,进一步削弱可信度。