Arxiv Insights - Curated Research Intelligence

核心发现

问题识别：印度语言ASR的传统词错误率（WER）因正字法变体、词缀拆分灵活性和混码词非标准拼写等因素而虚高，无法真实反映系统性能和人类感知。
方法创新：提出一个LLM辅助生成正字法变体的框架，并引入正字法知情词错误率（OIWER）指标，通过动态规划计算预测与变体集之间的最小编辑距离，以捕获允许的正字法差异。
性能提升：OIWER显著降低了悲观的错误率（平均提高6.3点），缩小了模型间夸大的性能差距（例如，Gemini与Canary的性能差异从18.1点降至11.5点），并比现有方法（如WER-SN）更贴近人类感知（高出4.9点）。
误差类型分析：OIWER主要通过减少替代错误（substitution errors）来降低总体错误率（减少28.5K次替代），而删除和插入错误数量保持相似，验证了其有效性。
LLM效率：LLM生成的变体与人工校正的变体高度相关（R^2=0.89），表明LLM可作为人工校正的可靠替代，从而节省时间和成本。

实验规模

实验基于IndicVoices基准数据集，涵盖22种印度语言。使用Gemini-2.5-Pro大语言模型辅助生成词变体，并由61名母语转录员进行人工校正，构建了包含约40.3K个话语的OI IndicVoices基准。评估了6种ASR系统，包括开源模型（Canary-1B-flash、IndicConformer、Meta MMS-1B-all）和商业API（SarvamAI Saarika:v2、Microsoft Azure、Google Gemini-2.5-Pro），并与标准WER和基于规范化的WER-SN方法进行了对比。

局限性

尽管OIWER显著改善了评估与人类感知的对齐，但与人类感知WER之间仍存在平均6.9点的差距，这主要归因于音频固有的歧义，而非正字法变体所能解决。LLM辅助生成变体仍需要人工校正环节，虽然比完全手动效率高，但对于极低资源的语言或大规模应用，人工成本仍是考量因素。论文主要关注正字法变体，但未深入探讨如何解决人类转录错误和音频歧义性等其他导致WER虚高的因素。