自然语言处理★ 评分 5.8
TALAS: Teacher-Anchored Layer Alignment with Adaptive Sharpness-Aware Minimization for Embedding Distillation
Quoc Phong Dao, Hoang Son Nguyen, Pham Khanh Chi, Linh Ngo Van, Nguyen Thi Ngoc Diep, Thien Huu Nguyen, Trung Le
2026年6月25日
关键词
知识蒸馏句向量模型层对齐ASAM跨域泛化
核心发现
- 只把教师的最终句向量锚定到学生上层,而不强行对齐所有层,能在容量受限时减轻表征错配,避免浅层被高抽象目标破坏。
- 用相邻学生层的关系矩阵做自蒸馏,可以把语义结构自上而下传递到低层,比直接对齐教师隐藏状态更省算力,也更稳。
- 在总损失外加入SimCSE式对比约束与ASAM后,模型在九个下游任务上的平均表现优于对比基线,说明平坦极小值与结构化蒸馏能共同提升泛化。
实验规模
在3组教师-学生配置上评估:Qwen3-Embedding 0.6B -> MiniLMv2 H384、BGE-M3 -> MiniLMv2 H768、Qwen3-Embedding 4B -> BERT-base。训练语料为约15K无标注句子,来自Emotion、WiC、STS-B等数据抽样并统一为SimCSE式训练集;评测覆盖9个基准任务,包含分类、配对分类和STS三类,比较了SimCSE-unsup、CDM、DSKD、Jasper and Stella、DistillCSE、EMO等基线,并在NVIDIA T4上报告了时间和显存开销。
局限性
方法主要是在句向量蒸馏这一狭窄场景里组合了上层锚定、层间关系蒸馏和ASAM,创新更偏工程整合而非范式突破,因此议题价值有限。实验虽然覆盖9个任务和3组教师-学生配置,但仍集中在英文基准与固定训练语料上,缺少更大规模、更多语言或更多模型家族的验证。另一个现实代价是ASAM显著增加训练步耗时,且教师信息依赖离线缓存,方法在更大数据或更复杂teacher-student偏移下是否稳定,证据还不充分。