Arxiv Insights - Curated Research Intelligence

核心发现

语言会系统性改变推理能耗，Qwen3-8B 在 Belebele 上的单位输出 token 能耗最多相差 8.3 倍，单次请求总能耗从英语的 17.6 kJ 飙到普什图语的 3147 kJ，说明能耗差异不是噪声而是稳定现象。
总能耗差异由两个因素叠加：低资源语言不仅每 token 更贵，而且输出 token 数通常达到英语的 20-25 倍，二者相乘导致 179 倍级别的请求能耗鸿沟。
高能耗语言往往也是低准确率语言，形成“更贵且更差”的双重惩罚，说明当前多语言部署在服务成本和任务性能上同时伤害弱势语言用户。
该差异并不依赖某个特定模型或单一设置：在 Qwen3、Gemma、Llama 三个家族、不同 GPU、不同 batch size、以及阅读理解/数学/聊天三类任务上都能复现，表明这是多语言推理栈的系统性问题而非个例。

实验规模

在 122 种 Belebele 语言上测量 Qwen3-8B 的推理能耗，使用零样本 CoT，单 GPU L40S、batch size 256；并在 8 语言子集上扩展到 Qwen3-8B/14B/32B、Gemma-3-27B、Llama-3.1-8B-Instruct，覆盖 L40S 与 RTX 6000 Pro Blackwell，batch size 16/32/64/128/256/512。另在 8 语言子集上横跨三类任务：Belebele 900 题/语言，翻译后的 GSM8K 272 题，翻译后的 LM-Arena 266 条 prompt；使用 vLLM 与 Zeus/硬件计数器做 steady-state 能耗测量。

局限性

主要局限是结论高度依赖当前模型、分词器和 serving 配置，作者只测了少数开源模型与两类 NVIDIA GPU，不能直接外推到闭源模型或未来硬件。其次，GSM8K 和 LM-Arena 是机器翻译后的任务，Belebele 也是平行翻译数据，未必完全代表真实母语输入和自然对话中的语言噪声、方言差异与文化语境。最后，这篇工作是测量研究而非机制拆解，虽然指出了 tokenizer 覆盖、输出长度和 KV cache 压力等可能原因，但缺少更强的消融来严格分离各因素的因果贡献。