Arxiv Insights - Curated Research Intelligence

核心发现

现有LLM稠密检索器未能充分利用其推理潜力，显式CoT方法延迟高，隐式方法缺乏监督易语义退化。
LaSER提出双视图自蒸馏框架，在共享LLM骨干上，通过显式视图编码CoT，潜在视图进行隐式思考。
引入多粒度对齐策略，包括输出对齐和轨迹对齐，将显式推理路径的语义进展同步到潜在视图的中间状态，解决隐式推理的语义退化问题。
实验证明，LaSER在推理密集型基准测试上显著优于SOTA基线，性能媲美高延迟的“重写-检索”管道，同时保持了标准稠密检索器的推理效率。
该方法在不同骨干网络和模型规模上均表现出鲁棒性，验证了其统一学习框架对激发有效潜在思考的重要性。
双视图协同学习增强了骨干模型处理显式推理的能力，进而为潜在视图提供了更优质的教学信号。

实验规模

实验在ReasonEmb数据集（8.1万训练样本，GPT-4o-mini生成推理路径）上进行训练。评估数据集包括Bright（域内，1.3k查询，1.1M文档）、FollowIR（域外，104查询，98k文档）和BrowseComp-Plus（域外，830查询，100k文档）。模型骨干采用Qwen3系列（0.6B, 4B, 8B）和LLaMA 3.2/3.1系列（1B, 3B, 8B）。训练使用LoRA在4块A100 GPU上进行1个epoch，批次大小为8，采用AdamW优化器。对比基线包括多种SOTA稠密检索器、公平对比基线、显式推理方法（如“重写-检索”）和隐式推理方法（如GIRCSE）。

局限性

论文性能高度依赖外部LLM生成的显式CoT推理路径质量，若教师模型推理能力不足或CoT与领域不符，可能影响学生模型的学习效果。此外，轨迹对齐采用的均匀下采样策略较为简单，可能未能充分捕捉显式推理路径中复杂的语义进展。