自然语言处理★ 评分 5.6
Dissecting Agentic RAG: A Component Ablation for Multi-Hop QA with a Local 7B Model
Sheroz Shaikh
2026年6月25日
关键词
多跳问答Agentic RAG消融研究混合检索HotpotQA
核心发现
- 固定混合检索(dense+BM25 的 RRF)优于规则式自适应路由,原因是路由器会被命名实体、日期和数字过度触发,导致大量子问题被送去 BM25,丢失了 dense 信号,最终 hybrid-only 比 full pipeline 提升 1.8 EM、1.9 F1。
- 检索循环的收益主要来自“有循环”,不是“循环很深”:1 步显著掉点,2 步已恢复到接近完整 5 步效果,3 步与 5 步几乎没有差别,说明多跳证据大多在前两轮内就能补齐。
- 查询分解和 cross-encoder reranking 都带来统计显著但幅度较小的提升;其中 reranking 成本低、值得保留,而分解虽然有益,但它和循环深度耦合,no-decomp 的掉点不能被解释为纯粹的分解收益。
- 这组实验真正证明的是:在本地 7B 预算下,性能增益主要来自短而稳定的迭代检索流程,而不是更复杂的自适应策略或更长的推理链。
实验规模
在 HotpotQA distractor 开发集上抽样 5,000 道问题做统一评估,所有条件使用同一批样本、固定随机种子和 greedy decoding。核心模型是本地部署的 Qwen2.5-7B-Instruct(Ollama,RTX A6000 49GB),检索侧使用 BGE-small-en-v1.5 向量检索、BM25、RRF 混合检索,以及 ms-marco-MiniLM-L-6-v2 交叉编码器重排;对比了 baseline、full agentic pipeline 和 8 个消融条件,并报告 EM、F1、平均延迟、bootstrap 置信区间和配对显著性检验。
局限性
结论只建立在 HotpotQA distractor 开发集的 5,000 样本抽样上,且只用单一模型家族、单一硬件与单一推理配置,跨数据集、跨模型规模的外推性不足。部分消融并不完全解耦,例如 no-decomp 同时改变了分解和多步检索流程,因此某些“组件贡献”只能算近似归因而非严格因果分离。