Arxiv Insights - Curated Research Intelligence

核心发现

递归的宏观审阅-重写循环允许在生成后回改大纲与旧章节，理论上解决线性锁定；消融中去掉review后，组织度、深度与协同明显下降。
Abstract Visual Representation 把图表从“可执行代码”降为“视觉意图”，再交给渲染器落地；这减少写作端认知负担，并在去掉AVR的两阶段版本中显著损害Alignment。
在OWID和WildSeek上，CogGen在CLEF相对优势分数上整体领先STORM、Co-STORM、WriteHere和Multimodal DeepResearcher，并在20例盲测人评中对MMDR和Gemini Deep Research取得更高胜率。
事实性提升主要来自全页检索+摘要的输入策略，而不是递归结构本身；把全文摘要换成snippet后，CLEF几乎不变但Supported Rate大幅下降，说明结构优势与检索优势被部分混在了一起。

实验规模

主实验使用40篇从OWID抓取并过滤后的高密度多模态报告（原始399篇，最终保留40篇），以及WildSeek中人工筛选的20个适合图文生成的查询；另补充10篇跨域报告做泛化测试。对比基线包括STORM、Co-STORM、WriteHere、Multimodal DeepResearcher，并以人类OWID报告或Gemini Deep Research作为参考标准；CLEF评分由GPT-5进行成对比较，另用Doubao-Seed-1.6和Claude-Sonnet-4做鲁棒性检验，人工评测覆盖20个WildSeek查询。系统实现基于GPT-4.1-Mini进行检索扩展、GPT-4.1负责Planner/Writer/Reviewer/Render，未报告新训练参数规模，属于API编排式多智能体系统。

局限性

CLEF虽然借用了认知负荷理论，但本质仍是基于LLM的成对偏好打分，并不等同于真实读者的认知负荷测量，因此对裁判模型、提示词和参考答案都很敏感。数据规模偏小且高度定制：OWID仅40篇、WildSeek仅20个查询，人工盲测也只有20例，难以支撑“超越Gemini Deep Research”这类强外推结论。另一个关键混杂因素是检索/全文摘要策略会显著影响事实支持率与时延，导致递归框架、检索质量和渲染策略的边际贡献没有被完全拆开。