自然语言处理★ 评分 5.4
OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics
Korbinian Kuhn, Gottfried Zimmermann
2026年6月25日
关键词
跨语言ASR评估词错误率语言特定归一化复合词检测token级对齐
核心发现
- 在不做归一化或采用常规归一化时,OpenWER 与 JiWER 的 WER 结果基本等价,说明其改动没有破坏标准 Levenshtein 评估逻辑。
- 复合词检测能显著降低部分语言的 WER,最高可达约 20% 的单语种下降、相对 JiWER 最大降幅约 41.4%,但收益高度依赖语言形态与写法差异。
- 基于 token 的对齐保留了标点、大小写和 ASR/NLP 元数据,因此除了 WER 之外还能计算更细粒度的错误指标。
- 该方法的主要价值是提升跨语言评估的一致性与可解释性,而不是提出新的 ASR 模型或根本性新指标。
实验规模
在 Common Voice 17 上对 52 种语言进行跨语言评估,使用 Whisper large-v3 和 SeamlessM4T v2-large 转写测试集,共 691,648 条转写,平均每语言约 13,300 条样本(SD=11,238,最少 66,最多 32,804)。另取 Common Voice 17 英文测试集随机 1,000 条样本(seed=151),用 10 个 ASR 模型生成转写,比较不同 tokenisation 和元数据指标;性能测试则在 1 到 1000 token 长度范围内每 25 步测一次,重复 25 次,并与 JiWER 及其归一化流程对比。
局限性
论文的贡献主要是评估库与字符串预处理改进,方法论增量有限,没有证明它在更严格的语义层面上优于现有 ASR 评价范式。实验虽覆盖 52 种语言,但对比主要集中在 Common Voice 17 和少数开源/商用模型,外推到真实工业场景、口语噪声场景或更多低资源语言仍然不足。复合词检测本质上是启发式近似,作者也承认会忽略词义细差;同时 OpenWER 的纯 Python 实现明显慢于 JiWER,性能上不适合高吞吐评测场景。