自然语言处理★ 评分 7.8
Let the Agent Search: Autonomous Exploration Beats Rigid Workflows in Temporal Question Answering
Xufei Lv, Jiahui Yang, Yifu Gao, Linbo Qiao, Houde Liu
2026年3月3日
关键词
时间知识图谱问答LLM代理自主推理免训练自校正
核心发现
- 即使在零样本设置下,赋予现成LLM自主权并配备通用搜索工具,也能在时间知识图谱问答(TKGQA)中展现出卓越的规划能力,并超越现有SOTA方法。
- 解决复杂时间查询所需的推理能力已潜藏在强大LLM的预训练权重中,可通过优化提示策略而非昂贵的微调来有效激发。
- 提出的AT2QA框架,一个自主、免训练的LLM代理,通过结构化时间搜索工具和免训练经验挖掘策略,在MultiTQ基准测试上实现了新的SOTA,整体Hits@1达到88.7%(相对SOTA提升10.7%),尤其在多目标查询上提升20.1%。
- 性能提升主要归因于代理的真实自主行为,如自校正(在推理后期发现关键证据)和自验证(在早期发现证据后继续搜索以确保全面性),而非简单的单次检索。
- 搜索工具的关键组件,特别是时间窗口约束、结构化过滤和时间排序,对于鲁棒的多跳时间推理至关重要,消融实验证明移除这些组件会导致性能显著下降。
实验规模
该研究在MultiTQ基准数据集上进行评估,该数据集包含约50万个独特的问答对和超过46.1万个时间事实,涵盖单跳、多跳、复合及多粒度时间推理。测试集包含54,584个问题。骨干LLM主要采用DeepSeek V3.2,并在消融研究中测试了Qwen3-Max、DeepSeek-R1和Kimi-2.5。搜索工具使用GLM-Embedding-3进行事实嵌入,每次调用最多返回10个事实,最大交互轮次限制为20。免训练优化采用包含3个演示的少样本库。对比基线包括EmbedKGQA、CronKGQA、MultiQA等TKG嵌入方法,以及ARI、TempAgent、MemoTime、RTQA(基于提示)和Search-R1、TimeR4、PoK、Temp-R1(微调)等LLM静态工作流方法。
局限性
尽管取得了显著性能提升,AT2QA的迭代交互和检索机制可能导致较高的推理延迟和成本,限制其在大规模或低延迟场景下的应用。此外,赋予LLM完全自主性可能引入额外的探索轮次或循环行为,影响效率和稳定性,且其核心骨干依赖闭源模型,可能影响研究的透明度和复现性。