自然语言处理★ 评分 7.5

Towards Orthographically-Informed Evaluation of Speech Recognition Systems for Indian Languages

Kaushal Santosh Bhogale, Tahir Javed, Greeshma Susan John, Dhruv Rathi, Akshayasree Padmanaban, Niharika Parasa, Mitesh M. Khapra
2026年3月3日
关键词
语音识别评估指标印度语言正字法变体大语言模型

核心发现

  1. 问题识别:印度语言ASR的传统词错误率(WER)因正字法变体、词缀拆分灵活性和混码词非标准拼写等因素而虚高,无法真实反映系统性能和人类感知。
  2. 方法创新:提出一个LLM辅助生成正字法变体的框架,并引入正字法知情词错误率(OIWER)指标,通过动态规划计算预测与变体集之间的最小编辑距离,以捕获允许的正字法差异。
  3. 性能提升:OIWER显著降低了悲观的错误率(平均提高6.3点),缩小了模型间夸大的性能差距(例如,Gemini与Canary的性能差异从18.1点降至11.5点),并比现有方法(如WER-SN)更贴近人类感知(高出4.9点)。
  4. 误差类型分析:OIWER主要通过减少替代错误(substitution errors)来降低总体错误率(减少28.5K次替代),而删除和插入错误数量保持相似,验证了其有效性。
  5. LLM效率:LLM生成的变体与人工校正的变体高度相关(R^2=0.89),表明LLM可作为人工校正的可靠替代,从而节省时间和成本。

实验规模

实验基于IndicVoices基准数据集,涵盖22种印度语言。使用Gemini-2.5-Pro大语言模型辅助生成词变体,并由61名母语转录员进行人工校正,构建了包含约40.3K个话语的OI IndicVoices基准。评估了6种ASR系统,包括开源模型(Canary-1B-flash、IndicConformer、Meta MMS-1B-all)和商业API(SarvamAI Saarika:v2、Microsoft Azure、Google Gemini-2.5-Pro),并与标准WER和基于规范化的WER-SN方法进行了对比。

局限性

尽管OIWER显著改善了评估与人类感知的对齐,但与人类感知WER之间仍存在平均6.9点的差距,这主要归因于音频固有的歧义,而非正字法变体所能解决。LLM辅助生成变体仍需要人工校正环节,虽然比完全手动效率高,但对于极低资源的语言或大规模应用,人工成本仍是考量因素。论文主要关注正字法变体,但未深入探讨如何解决人类转录错误和音频歧义性等其他导致WER虚高的因素。

Paper ID: 2603.00941v1