Arxiv Insights - Curated Research Intelligence

核心发现

模态鸿沟的结构性根源： 语音大模型中的模态鸿沟并非简单的表层分布差异或几何未对齐，而是源于语音固有的冗余性，导致信息在层间处理过程中被稀释，最终影响决策。
三阶段处理模型： 语音输入在模型内部经历“结构转换”（早期层将语音特征投影到文本兼容空间）、“语义稀释”（冗余性导致信息分散，形成宽泛的跨层对齐带）和“决策不稳定性”（信息虽存在但因信号弱而无法在后期层做出稳定决策）三个阶段。
几何对齐的局限性： 简单的统计校准（如均值和方差匹配）在输入层应用时会严重损害性能，表明模态鸿沟需要非线性转换而非仅是分布调整。
信息稀释的微观证据： 决策令牌的注意力分布在语音输入下比文本输入更分散（熵更高，峰值注意力质量更低），需要更多令牌才能捕获90%的注意力，直接证明了信息稀释导致信号弱化。
冗余性的因果验证： 通过人工向文本输入中注入冗余（重复词语），发现准确率下降且决策熵增加，从因果上支持了冗余性会阻碍后期层决策稳定化的假设。
决策不稳定性而非信息丢失： 探针实验显示，即使最终S2T输出错误，中期和后期层仍保留了高准确率的信息，表明问题在于模型未能有效利用这些信息进行决策（读取失败），而非信息丢失。

实验规模

评估了四种开源端到端语音大模型：Qwen2.5-Omni-7B、MiniCPM-o 2.6、Qwen2-Audio-7B-Instruct和LLaMA-Omni。主要诊断分析集中在Qwen2.5-Omni和MiniCPM-o，并对LLaMA-Omni和Qwen2-Audio进行了泛化性和故障模式分析。使用SpeechMMLU（从MMLU改编，涵盖57个学科的知识问答）和VoiceBench BBH（从BIG-Bench Hard改编，包含超长倒装句、导航、体育理解、谎言之网等4个复杂推理任务）作为基准，所有问题和选项均合成为音频波形。CKA和DTW分析使用固定100个样本。校准实验、人工冗余注入实验和KV令牌合并实验在每个基准上使用1000个样本。MiniCPM-o的额外诊断使用300个样本。

局限性

本文主要侧重于诊断模态鸿沟的机制，而非提供完整的工程解决方案，所提出的干预措施（如KV令牌合并）效果有限，且人工冗余注入与真实语音的连续性冗余存在机制差异。研究未深入探讨语音令牌质量与数量之间的区别，即合并后的语音令牌可能仍包含干扰决策的声学残留和非语义信息，这限制了其对未来语义压缩方法的指导意义。