Arxiv Insights - Curated Research Intelligence

核心发现

在184个DAIC-WOZ文本会话上，四代理流水线把Qwen2.5的MAE从5.35降到5.02，说明提升主要来自任务拆分与审计校验，而不是单纯延长CoT。
相比单代理和CoT，多智能体在可解释性、推理稳定性和幻觉抑制上更优，审计阶段能纠正严重高估、无依据症状推断和上下文不一致。
消融实验表明感知、知识检索和审计三者都在贡献性能，其中去掉感知或审计带来的退化更明显，证明流程协同比单点提示更关键。
论文的证据链主要建立在小规模文本子集和有限基线上，结论更适合被理解为“有用的流程型增量”，而不是新的临床建模范式。

实验规模

以DAIC-WOZ文本转录为对象，清洗后保留184个会话，按约70/10/20划分为128个开发集、19个验证集和37个测试集；在本地Ollama环境中比较LLaMA-3.1、Qwen2.5、DeepSeek-R1三种开源模型，评估单代理、CoT、四代理完整流程及4种消融配置；每组进行3次独立推理运行，固定温度0.2、RAG检索top-k=3，采用MAE、95%置信区间、配对t检验和bootstrap进行评估，未做参数微调。

局限性

主要局限是样本规模很小，而且只在DAIC-WOZ的文本模态上验证，外部泛化性不足。对比对象主要是单代理和CoT，没有在同一任务设定下系统对照更强的监督式回归基线，因此“优于传统方法”的结论支撑不够硬。可解释性、幻觉率和审计修正等指标包含较强的人工判断成分，且论文文本本身存在明显的年份、排版和引用异常，进一步削弱可信度。