自然语言处理★ 评分 7.5
Towards Orthographically-Informed Evaluation of Speech Recognition Systems for Indian Languages
Kaushal Santosh Bhogale, Tahir Javed, Greeshma Susan John, Dhruv Rathi, Akshayasree Padmanaban, Niharika Parasa, Mitesh M. Khapra
2026年3月3日
关键词
语音识别评估指标印度语言正字法变体大语言模型
核心发现
- 问题识别:印度语言ASR的传统词错误率(WER)因正字法变体、词缀拆分灵活性和混码词非标准拼写等因素而虚高,无法真实反映系统性能和人类感知。
- 方法创新:提出一个LLM辅助生成正字法变体的框架,并引入正字法知情词错误率(OIWER)指标,通过动态规划计算预测与变体集之间的最小编辑距离,以捕获允许的正字法差异。
- 性能提升:OIWER显著降低了悲观的错误率(平均提高6.3点),缩小了模型间夸大的性能差距(例如,Gemini与Canary的性能差异从18.1点降至11.5点),并比现有方法(如WER-SN)更贴近人类感知(高出4.9点)。
- 误差类型分析:OIWER主要通过减少替代错误(substitution errors)来降低总体错误率(减少28.5K次替代),而删除和插入错误数量保持相似,验证了其有效性。
- LLM效率:LLM生成的变体与人工校正的变体高度相关(R^2=0.89),表明LLM可作为人工校正的可靠替代,从而节省时间和成本。
实验规模
实验基于IndicVoices基准数据集,涵盖22种印度语言。使用Gemini-2.5-Pro大语言模型辅助生成词变体,并由61名母语转录员进行人工校正,构建了包含约40.3K个话语的OI IndicVoices基准。评估了6种ASR系统,包括开源模型(Canary-1B-flash、IndicConformer、Meta MMS-1B-all)和商业API(SarvamAI Saarika:v2、Microsoft Azure、Google Gemini-2.5-Pro),并与标准WER和基于规范化的WER-SN方法进行了对比。
局限性
尽管OIWER显著改善了评估与人类感知的对齐,但与人类感知WER之间仍存在平均6.9点的差距,这主要归因于音频固有的歧义,而非正字法变体所能解决。LLM辅助生成变体仍需要人工校正环节,虽然比完全手动效率高,但对于极低资源的语言或大规模应用,人工成本仍是考量因素。论文主要关注正字法变体,但未深入探讨如何解决人类转录错误和音频歧义性等其他导致WER虚高的因素。