自然语言处理★ 评分 5.4
Behavioral and Representational Evidence of Binomial Ordering Preferences in Large Language Models
Zhiqing Yang, Yilun Liu, Yunpu Ma, Volker Tresp, Hinrich Schütze
2026年6月25日
关键词
双项词序语言模型对齐语料偏好分布稀疏探针activation steering
核心发现
- 仅看“哪种顺序更常见”时,6个开源LLM大多能和语料偏好一致;但看“偏好有多强”时,模型分布与语料分布仍有明显偏差,说明方向命中不等于强度拟合。
- 这种偏差具有语言结构性:日语、中文更容易对齐,印尼语、土耳其语、俄语、阿语等更常出现“方向对了但概率偏移大”的情况,表明模型学到的是部分跨语言规律而非精确的语言特异分布。
- 对Qwen3-4B做稀疏探针后,双项偏好强度在中后层可被线性恢复,最佳点出现在中间层附近,说明该信号不是浅层词面噪声,而是被压缩进了较低维子空间。
- 沿探针方向做activation steering会系统改变模型的词序概率曲线,证明该表示不仅可读出,而且对行为有因果作用,但效应大小受语言和初始偏好尖锐程度限制。
- 论文的核心结论是:LLM对binomial ordering的掌握更像“掌握了常规方向”,而不是“掌握了语料中的梯度分布细节”。
实验规模
构建了一个跨8种语言的双项表达数据集,共75个概念对、600个binomial pairs;语料偏好来自各语言Sketch Engine TenTen语料库的检索计数。行为实验比较了6个开源因果LLM:Qwen3-4B/14B、Llama-3.2-3B、Llama-3.1-8B、Gemma-3-4B/12B,在4种提示条件(minimal、frequency、discourse、metalinguistic)下评估,并用Spearman、pairwise accuracy、MAE、JSD衡量模型-语料对齐。表示分析在Qwen3-4B上做了5折分组交叉验证的稀疏探针,扫描35层左右的decoder层、两种池化方式和多个L1正则强度;干预实验在layer 14和layer 23上用探针方向做steering,测试多个lambda取值(0、±10、±20、±50)。
局限性
语料频率被当作偏好真值,但它只是使用分布的代理,容易受体裁、领域、检索模式、分词和形态变化影响,和真实人类判断并不等价。数据集只覆盖75个共享概念对,且以英语binomial为种子,跨语言可比性有帮助,但也限制了题材覆盖面,难以代表各语言自身更丰富的binomial系统。表示分析和steering主要在Qwen3-4B上完成,因果结论对其他架构、训练语料和干预位置的可推广性仍然不足。