Arxiv Insights - Curated Research Intelligence

核心发现

先探索后合成：用1000步网页遍历构建导航图G与知识库KB，再进入多轮草稿生成、批判和合并。
图记忆而非平铺检索：页面内容会结合邻域节点和历史记忆做关联抽取，并在Explore、Backtrack、WebSearch之间动态切换以避免循环。
对抗式重写提升创意：草稿每轮都会根据自身弱点生成新问题，逼出更偏离默认答案的视角；最终MergeDrafts把新颖性与可用性拉回平衡。
结果只在创意提示上成立：在5个手工设计问题、3种输出约束和3个LLM裁判下，Caesar在New/Useful/Surprising上普遍领先，优势在跨域、反事实和开放式合成最明显。
深度和迭代确实有用，但代价高：1000步探索优于250/500步，Draft3优于Draft1；但这种收益依赖高算力和主观评测，不能直接外推为通用能力提升。

实验规模

主实验覆盖5个手工设计的创意查询（Constrained Synthesis、Counterfactual Reasoning、Cross-Domain Synthesis、Meta-Creativity、Open-Ended Synthesis），并在3种输出约束下评测：全文、无限制ELI5、450词ELI5。对比7个系统配置：Caesar、Gemini 3 Pro/Deep/Shallow、Claude Sonnet 4.5/Deep/Shallow、GPT-5.2/Deep/Shallow；由3个LLM裁判（Claude Sonnet 4.5、GPT-5.2、Gemini 3 Pro）各做3次独立打分，主结果合计945次评估。消融实验使用GPT-5.2单裁判、每组10次重复，比较探索预算250/500/1000步以及草稿版本Draft1/Draft3/Final；Caesar默认探索预算为1000步，递归洞察30轮，对抗修订3轮。

局限性

主要局限是证据链很弱：核心结论建立在5个作者自选的创意提示和LLM-as-a-Judge之上，没有人类盲评、真实下游任务或客观真值，因此‘更有创意’的外推性有限。基线采用各厂商的Deep Research/Research Mode，实际检索深度、工具权限和预算并未被严格对齐，公平性存疑。与此同时，该方法依赖1000步探索和多轮重写，计算成本高，且在纯内部推理类任务上的增益并不稳定。