自然语言处理★ 评分 5.8

TALAS: Teacher-Anchored Layer Alignment with Adaptive Sharpness-Aware Minimization for Embedding Distillation

Quoc Phong Dao, Hoang Son Nguyen, Pham Khanh Chi, Linh Ngo Van, Nguyen Thi Ngoc Diep, Thien Huu Nguyen, Trung Le
2026年6月25日
关键词
知识蒸馏句向量模型层对齐ASAM跨域泛化

核心发现

  1. 只把教师的最终句向量锚定到学生上层,而不强行对齐所有层,能在容量受限时减轻表征错配,避免浅层被高抽象目标破坏。
  2. 用相邻学生层的关系矩阵做自蒸馏,可以把语义结构自上而下传递到低层,比直接对齐教师隐藏状态更省算力,也更稳。
  3. 在总损失外加入SimCSE式对比约束与ASAM后,模型在九个下游任务上的平均表现优于对比基线,说明平坦极小值与结构化蒸馏能共同提升泛化。

实验规模

在3组教师-学生配置上评估:Qwen3-Embedding 0.6B -> MiniLMv2 H384、BGE-M3 -> MiniLMv2 H768、Qwen3-Embedding 4B -> BERT-base。训练语料为约15K无标注句子,来自Emotion、WiC、STS-B等数据抽样并统一为SimCSE式训练集;评测覆盖9个基准任务,包含分类、配对分类和STS三类,比较了SimCSE-unsup、CDM、DSKD、Jasper and Stella、DistillCSE、EMO等基线,并在NVIDIA T4上报告了时间和显存开销。

局限性

方法主要是在句向量蒸馏这一狭窄场景里组合了上层锚定、层间关系蒸馏和ASAM,创新更偏工程整合而非范式突破,因此议题价值有限。实验虽然覆盖9个任务和3组教师-学生配置,但仍集中在英文基准与固定训练语料上,缺少更大规模、更多语言或更多模型家族的验证。另一个现实代价是ASAM显著增加训练步耗时,且教师信息依赖离线缓存,方法在更大数据或更复杂teacher-student偏移下是否稳定,证据还不充分。

Paper ID: 2606.21851