Arxiv Insights - Curated Research Intelligence

核心发现

即使在零样本设置下，赋予现成LLM自主权并配备通用搜索工具，也能在时间知识图谱问答（TKGQA）中展现出卓越的规划能力，并超越现有SOTA方法。
解决复杂时间查询所需的推理能力已潜藏在强大LLM的预训练权重中，可通过优化提示策略而非昂贵的微调来有效激发。
提出的AT2QA框架，一个自主、免训练的LLM代理，通过结构化时间搜索工具和免训练经验挖掘策略，在MultiTQ基准测试上实现了新的SOTA，整体Hits@1达到88.7%（相对SOTA提升10.7%），尤其在多目标查询上提升20.1%。
性能提升主要归因于代理的真实自主行为，如自校正（在推理后期发现关键证据）和自验证（在早期发现证据后继续搜索以确保全面性），而非简单的单次检索。
搜索工具的关键组件，特别是时间窗口约束、结构化过滤和时间排序，对于鲁棒的多跳时间推理至关重要，消融实验证明移除这些组件会导致性能显著下降。

实验规模

该研究在MultiTQ基准数据集上进行评估，该数据集包含约50万个独特的问答对和超过46.1万个时间事实，涵盖单跳、多跳、复合及多粒度时间推理。测试集包含54,584个问题。骨干LLM主要采用DeepSeek V3.2，并在消融研究中测试了Qwen3-Max、DeepSeek-R1和Kimi-2.5。搜索工具使用GLM-Embedding-3进行事实嵌入，每次调用最多返回10个事实，最大交互轮次限制为20。免训练优化采用包含3个演示的少样本库。对比基线包括EmbedKGQA、CronKGQA、MultiQA等TKG嵌入方法，以及ARI、TempAgent、MemoTime、RTQA（基于提示）和Search-R1、TimeR4、PoK、Temp-R1（微调）等LLM静态工作流方法。

局限性

尽管取得了显著性能提升，AT2QA的迭代交互和检索机制可能导致较高的推理延迟和成本，限制其在大规模或低延迟场景下的应用。此外，赋予LLM完全自主性可能引入额外的探索轮次或循环行为，影响效率和稳定性，且其核心骨干依赖闭源模型，可能影响研究的透明度和复现性。