智能体系统★ 评分 5.7
CogGen: A Cognitively Inspired Recursive Framework for Deep Research Report Generation
Kuo Tian, Pengfei Sun, Zhen Wu, Junran Ding, Xinyu Dai
2026年4月26日
关键词
深度研究报告生成递归规划抽象视觉表示图文协同认知负荷评估
核心发现
- 递归的宏观审阅-重写循环允许在生成后回改大纲与旧章节,理论上解决线性锁定;消融中去掉review后,组织度、深度与协同明显下降。
- Abstract Visual Representation 把图表从“可执行代码”降为“视觉意图”,再交给渲染器落地;这减少写作端认知负担,并在去掉AVR的两阶段版本中显著损害Alignment。
- 在OWID和WildSeek上,CogGen在CLEF相对优势分数上整体领先STORM、Co-STORM、WriteHere和Multimodal DeepResearcher,并在20例盲测人评中对MMDR和Gemini Deep Research取得更高胜率。
- 事实性提升主要来自全页检索+摘要的输入策略,而不是递归结构本身;把全文摘要换成snippet后,CLEF几乎不变但Supported Rate大幅下降,说明结构优势与检索优势被部分混在了一起。
实验规模
主实验使用40篇从OWID抓取并过滤后的高密度多模态报告(原始399篇,最终保留40篇),以及WildSeek中人工筛选的20个适合图文生成的查询;另补充10篇跨域报告做泛化测试。对比基线包括STORM、Co-STORM、WriteHere、Multimodal DeepResearcher,并以人类OWID报告或Gemini Deep Research作为参考标准;CLEF评分由GPT-5进行成对比较,另用Doubao-Seed-1.6和Claude-Sonnet-4做鲁棒性检验,人工评测覆盖20个WildSeek查询。系统实现基于GPT-4.1-Mini进行检索扩展、GPT-4.1负责Planner/Writer/Reviewer/Render,未报告新训练参数规模,属于API编排式多智能体系统。
局限性
CLEF虽然借用了认知负荷理论,但本质仍是基于LLM的成对偏好打分,并不等同于真实读者的认知负荷测量,因此对裁判模型、提示词和参考答案都很敏感。数据规模偏小且高度定制:OWID仅40篇、WildSeek仅20个查询,人工盲测也只有20例,难以支撑“超越Gemini Deep Research”这类强外推结论。另一个关键混杂因素是检索/全文摘要策略会显著影响事实支持率与时延,导致递归框架、检索质量和渲染策略的边际贡献没有被完全拆开。