Arxiv Insights - Curated Research Intelligence

核心发现

固定混合检索（dense+BM25 的 RRF）优于规则式自适应路由，原因是路由器会被命名实体、日期和数字过度触发，导致大量子问题被送去 BM25，丢失了 dense 信号，最终 hybrid-only 比 full pipeline 提升 1.8 EM、1.9 F1。
检索循环的收益主要来自“有循环”，不是“循环很深”：1 步显著掉点，2 步已恢复到接近完整 5 步效果，3 步与 5 步几乎没有差别，说明多跳证据大多在前两轮内就能补齐。
查询分解和 cross-encoder reranking 都带来统计显著但幅度较小的提升；其中 reranking 成本低、值得保留，而分解虽然有益，但它和循环深度耦合，no-decomp 的掉点不能被解释为纯粹的分解收益。
这组实验真正证明的是：在本地 7B 预算下，性能增益主要来自短而稳定的迭代检索流程，而不是更复杂的自适应策略或更长的推理链。

实验规模

在 HotpotQA distractor 开发集上抽样 5,000 道问题做统一评估，所有条件使用同一批样本、固定随机种子和 greedy decoding。核心模型是本地部署的 Qwen2.5-7B-Instruct（Ollama，RTX A6000 49GB），检索侧使用 BGE-small-en-v1.5 向量检索、BM25、RRF 混合检索，以及 ms-marco-MiniLM-L-6-v2 交叉编码器重排；对比了 baseline、full agentic pipeline 和 8 个消融条件，并报告 EM、F1、平均延迟、bootstrap 置信区间和配对显著性检验。

局限性

结论只建立在 HotpotQA distractor 开发集的 5,000 样本抽样上，且只用单一模型家族、单一硬件与单一推理配置，跨数据集、跨模型规模的外推性不足。部分消融并不完全解耦，例如 no-decomp 同时改变了分解和多步检索流程，因此某些“组件贡献”只能算近似归因而非严格因果分离。