自然语言处理★ 评分 7.8

Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs

Ming-Hao Hsu, Xueyao Zhang, Xiaohai Tian, Jun Zhang, Zhizheng Wu
2026年3月3日
关键词
语音大模型模态鸿沟机制解释信息稀释决策不稳定性

核心发现

  1. 模态鸿沟的结构性根源: 语音大模型中的模态鸿沟并非简单的表层分布差异或几何未对齐,而是源于语音固有的冗余性,导致信息在层间处理过程中被稀释,最终影响决策。
  2. 三阶段处理模型: 语音输入在模型内部经历“结构转换”(早期层将语音特征投影到文本兼容空间)、“语义稀释”(冗余性导致信息分散,形成宽泛的跨层对齐带)和“决策不稳定性”(信息虽存在但因信号弱而无法在后期层做出稳定决策)三个阶段。
  3. 几何对齐的局限性: 简单的统计校准(如均值和方差匹配)在输入层应用时会严重损害性能,表明模态鸿沟需要非线性转换而非仅是分布调整。
  4. 信息稀释的微观证据: 决策令牌的注意力分布在语音输入下比文本输入更分散(熵更高,峰值注意力质量更低),需要更多令牌才能捕获90%的注意力,直接证明了信息稀释导致信号弱化。
  5. 冗余性的因果验证: 通过人工向文本输入中注入冗余(重复词语),发现准确率下降且决策熵增加,从因果上支持了冗余性会阻碍后期层决策稳定化的假设。
  6. 决策不稳定性而非信息丢失: 探针实验显示,即使最终S2T输出错误,中期和后期层仍保留了高准确率的信息,表明问题在于模型未能有效利用这些信息进行决策(读取失败),而非信息丢失。

实验规模

评估了四种开源端到端语音大模型:Qwen2.5-Omni-7B、MiniCPM-o 2.6、Qwen2-Audio-7B-Instruct和LLaMA-Omni。主要诊断分析集中在Qwen2.5-Omni和MiniCPM-o,并对LLaMA-Omni和Qwen2-Audio进行了泛化性和故障模式分析。使用SpeechMMLU(从MMLU改编,涵盖57个学科的知识问答)和VoiceBench BBH(从BIG-Bench Hard改编,包含超长倒装句、导航、体育理解、谎言之网等4个复杂推理任务)作为基准,所有问题和选项均合成为音频波形。CKA和DTW分析使用固定100个样本。校准实验、人工冗余注入实验和KV令牌合并实验在每个基准上使用1000个样本。MiniCPM-o的额外诊断使用300个样本。

局限性

本文主要侧重于诊断模态鸿沟的机制,而非提供完整的工程解决方案,所提出的干预措施(如KV令牌合并)效果有限,且人工冗余注入与真实语音的连续性冗余存在机制差异。研究未深入探讨语音令牌质量与数量之间的区别,即合并后的语音令牌可能仍包含干扰决策的声学残留和非语义信息,这限制了其对未来语义压缩方法的指导意义。

Paper ID: 2603.01502v1