智能体系统★ 评分 4.2

Caesar: Deep Agentic Web Exploration for Creative Answer Synthesis

Jason Liang, Elliot Meyerson, Risto Miikkulainen
2026年4月26日
关键词
智能体网页探索知识图谱记忆对抗式草稿合成迭代RAGLLM-as-a-Judge

核心发现

  1. 先探索后合成:用1000步网页遍历构建导航图G与知识库KB,再进入多轮草稿生成、批判和合并。
  2. 图记忆而非平铺检索:页面内容会结合邻域节点和历史记忆做关联抽取,并在Explore、Backtrack、WebSearch之间动态切换以避免循环。
  3. 对抗式重写提升创意:草稿每轮都会根据自身弱点生成新问题,逼出更偏离默认答案的视角;最终MergeDrafts把新颖性与可用性拉回平衡。
  4. 结果只在创意提示上成立:在5个手工设计问题、3种输出约束和3个LLM裁判下,Caesar在New/Useful/Surprising上普遍领先,优势在跨域、反事实和开放式合成最明显。
  5. 深度和迭代确实有用,但代价高:1000步探索优于250/500步,Draft3优于Draft1;但这种收益依赖高算力和主观评测,不能直接外推为通用能力提升。

实验规模

主实验覆盖5个手工设计的创意查询(Constrained Synthesis、Counterfactual Reasoning、Cross-Domain Synthesis、Meta-Creativity、Open-Ended Synthesis),并在3种输出约束下评测:全文、无限制ELI5、450词ELI5。对比7个系统配置:Caesar、Gemini 3 Pro/Deep/Shallow、Claude Sonnet 4.5/Deep/Shallow、GPT-5.2/Deep/Shallow;由3个LLM裁判(Claude Sonnet 4.5、GPT-5.2、Gemini 3 Pro)各做3次独立打分,主结果合计945次评估。消融实验使用GPT-5.2单裁判、每组10次重复,比较探索预算250/500/1000步以及草稿版本Draft1/Draft3/Final;Caesar默认探索预算为1000步,递归洞察30轮,对抗修订3轮。

局限性

主要局限是证据链很弱:核心结论建立在5个作者自选的创意提示和LLM-as-a-Judge之上,没有人类盲评、真实下游任务或客观真值,因此‘更有创意’的外推性有限。基线采用各厂商的Deep Research/Research Mode,实际检索深度、工具权限和预算并未被严格对齐,公平性存疑。与此同时,该方法依赖1000步探索和多轮重写,计算成本高,且在纯内部推理类任务上的增益并不稳定。

Paper ID: 2604.20855