智能体系统★ 评分 5.6
TeamFusion: Supporting Open-ended Teamwork with Multi-Agent Systems
Jiale Liu, Victor S. Bursztyn, Lin Ai, Haoliang Wang, Sunav Choudhary, Saayan Mitra, Qingyun Wu
2026年4月26日
关键词
多智能体协作开放式团队决策偏好代理建模结构化讨论设计共识生成
核心发现
- TeamFusion 通过“偏好代理 + 结构化讨论 + 重混”比直接汇总更能保留少数与条件性观点,在 DeliberationBank 上连续提升代表性、信息量和政策可接受性。
- 这种收益不只是算力堆砌:与同预算的 Self-Refine、MAD 相比,TeamFusion 仍更强,且迭代 refinement 还能继续抬升各项指标。
- 在视觉设计任务中,专业设计师本就高度分歧(Kendall W 约 0.37,70% 情况下不显著),而 TeamFusion 生成的方案能显著提高团队一致性到约 0.43,并频繁进入前一/前二选择。
- 小规模 live study 进一步显示 TeamFusion 可缩短决策时间并提高主观代表性,但作者也观察到:当偏好是严格零和冲突时,系统只能显式暴露矛盾,难以自动解决。
实验规模
Task 1:基于 DeliberationBank 的 10 个开放式问题,从每题评论中聚成 4 簇并抽样,构造 500 组四人团队;在 Llama-3.3-70B、GPT-4.1-mini、GPT-4.1 三个底座上,对比 Direct、CoT、Self-Refine、MAD 与 TeamFusion,按代表性、信息量、中立性、政策可接受性四项指标评估,并额外用 GPT-4.1-mini 做 300 组成对裁决。Task 2:从 Crello 社媒广告数据构建 50 个真实设计场景,9 名专业设计师提供至少 4 份独立排序与理由,形成 100 次 TeamFusion 运行(全队/小队各 50 次),共生成 300 个重混设计;另有 6 名参与者、2 个三人队的交叉 live study,用 TeamFusion 对比自由讨论。
局限性
主要证据仍偏工程性和主观评估:Task 1 依赖 DeliberationBank 的人工打分与 LLM-as-a-judge,Task 2 依赖设计师重排,难以完全排除评审偏置和提示词影响。设计任务的现场研究只有 6 名参与者、2 个小团队,统计功效很弱;异步研究虽有 9 名设计师,但场景集中在社媒广告,泛化到更复杂组织协作、层级权责或强冲突情境仍不足。作者也承认,当偏好真正零和冲突时,系统无法自动消解,只能把矛盾显式暴露出来。