Arxiv Insights - Curated Research Intelligence

核心发现

TeamFusion 通过“偏好代理 + 结构化讨论 + 重混”比直接汇总更能保留少数与条件性观点，在 DeliberationBank 上连续提升代表性、信息量和政策可接受性。
这种收益不只是算力堆砌：与同预算的 Self-Refine、MAD 相比，TeamFusion 仍更强，且迭代 refinement 还能继续抬升各项指标。
在视觉设计任务中，专业设计师本就高度分歧（Kendall W 约 0.37，70% 情况下不显著），而 TeamFusion 生成的方案能显著提高团队一致性到约 0.43，并频繁进入前一/前二选择。
小规模 live study 进一步显示 TeamFusion 可缩短决策时间并提高主观代表性，但作者也观察到：当偏好是严格零和冲突时，系统只能显式暴露矛盾，难以自动解决。

实验规模

Task 1：基于 DeliberationBank 的 10 个开放式问题，从每题评论中聚成 4 簇并抽样，构造 500 组四人团队；在 Llama-3.3-70B、GPT-4.1-mini、GPT-4.1 三个底座上，对比 Direct、CoT、Self-Refine、MAD 与 TeamFusion，按代表性、信息量、中立性、政策可接受性四项指标评估，并额外用 GPT-4.1-mini 做 300 组成对裁决。Task 2：从 Crello 社媒广告数据构建 50 个真实设计场景，9 名专业设计师提供至少 4 份独立排序与理由，形成 100 次 TeamFusion 运行（全队/小队各 50 次），共生成 300 个重混设计；另有 6 名参与者、2 个三人队的交叉 live study，用 TeamFusion 对比自由讨论。

局限性

主要证据仍偏工程性和主观评估：Task 1 依赖 DeliberationBank 的人工打分与 LLM-as-a-judge，Task 2 依赖设计师重排，难以完全排除评审偏置和提示词影响。设计任务的现场研究只有 6 名参与者、2 个小团队，统计功效很弱；异步研究虽有 9 名设计师，但场景集中在社媒广告，泛化到更复杂组织协作、层级权责或强冲突情境仍不足。作者也承认，当偏好真正零和冲突时，系统无法自动消解，只能把矛盾显式暴露出来。