Arxiv Insights - Curated Research Intelligence

核心发现

只把教师的最终句向量锚定到学生上层，而不强行对齐所有层，能在容量受限时减轻表征错配，避免浅层被高抽象目标破坏。
用相邻学生层的关系矩阵做自蒸馏，可以把语义结构自上而下传递到低层，比直接对齐教师隐藏状态更省算力，也更稳。
在总损失外加入SimCSE式对比约束与ASAM后，模型在九个下游任务上的平均表现优于对比基线，说明平坦极小值与结构化蒸馏能共同提升泛化。

实验规模

在3组教师-学生配置上评估：Qwen3-Embedding 0.6B -> MiniLMv2 H384、BGE-M3 -> MiniLMv2 H768、Qwen3-Embedding 4B -> BERT-base。训练语料为约15K无标注句子，来自Emotion、WiC、STS-B等数据抽样并统一为SimCSE式训练集；评测覆盖9个基准任务，包含分类、配对分类和STS三类，比较了SimCSE-unsup、CDM、DSKD、Jasper and Stella、DistillCSE、EMO等基线，并在NVIDIA T4上报告了时间和显存开销。

局限性

方法主要是在句向量蒸馏这一狭窄场景里组合了上层锚定、层间关系蒸馏和ASAM，创新更偏工程整合而非范式突破，因此议题价值有限。实验虽然覆盖9个任务和3组教师-学生配置，但仍集中在英文基准与固定训练语料上，缺少更大规模、更多语言或更多模型家族的验证。另一个现实代价是ASAM显著增加训练步耗时，且教师信息依赖离线缓存，方法在更大数据或更复杂teacher-student偏移下是否稳定，证据还不充分。