Arxiv Insights - Curated Research Intelligence

核心发现

仅看“哪种顺序更常见”时，6个开源LLM大多能和语料偏好一致；但看“偏好有多强”时，模型分布与语料分布仍有明显偏差，说明方向命中不等于强度拟合。
这种偏差具有语言结构性：日语、中文更容易对齐，印尼语、土耳其语、俄语、阿语等更常出现“方向对了但概率偏移大”的情况，表明模型学到的是部分跨语言规律而非精确的语言特异分布。
对Qwen3-4B做稀疏探针后，双项偏好强度在中后层可被线性恢复，最佳点出现在中间层附近，说明该信号不是浅层词面噪声，而是被压缩进了较低维子空间。
沿探针方向做activation steering会系统改变模型的词序概率曲线，证明该表示不仅可读出，而且对行为有因果作用，但效应大小受语言和初始偏好尖锐程度限制。
论文的核心结论是：LLM对binomial ordering的掌握更像“掌握了常规方向”，而不是“掌握了语料中的梯度分布细节”。

实验规模

构建了一个跨8种语言的双项表达数据集，共75个概念对、600个binomial pairs；语料偏好来自各语言Sketch Engine TenTen语料库的检索计数。行为实验比较了6个开源因果LLM：Qwen3-4B/14B、Llama-3.2-3B、Llama-3.1-8B、Gemma-3-4B/12B，在4种提示条件（minimal、frequency、discourse、metalinguistic）下评估，并用Spearman、pairwise accuracy、MAE、JSD衡量模型-语料对齐。表示分析在Qwen3-4B上做了5折分组交叉验证的稀疏探针，扫描35层左右的decoder层、两种池化方式和多个L1正则强度；干预实验在layer 14和layer 23上用探针方向做steering，测试多个lambda取值（0、±10、±20、±50）。

局限性

语料频率被当作偏好真值，但它只是使用分布的代理，容易受体裁、领域、检索模式、分词和形态变化影响，和真实人类判断并不等价。数据集只覆盖75个共享概念对，且以英语binomial为种子，跨语言可比性有帮助，但也限制了题材覆盖面，难以代表各语言自身更丰富的binomial系统。表示分析和steering主要在Qwen3-4B上完成，因果结论对其他架构、训练语料和干预位置的可推广性仍然不足。