Arxiv Insights - Curated Research Intelligence

核心发现

在54个条件下，最稳定、最强的偏置不是人口学属性，而是极化度；LLM在几乎所有平台和提示词下都更偏好高极化帖子，说明“更尖锐、更有冲突感”的内容被默认抬升。
提示词会显著改写内容偏置：engaging/controversial 更容易放大毒性和负面情绪，informative 则明显压低毒性，说明偏置对目标函数高度敏感，而不是固定不变。
三个供应商呈现不同权衡：OpenAI 最稳定，Claude 在毒性处理上最具情境适应性，Gemini 最偏向负面情绪并更容易放大毒性。
在Twitter/X上，左倾作者被系统性过度推荐、右倾作者被压制；SHAP 显示这种人口学偏置主要由极化、主题和毒性等内容特征的相关性间接驱动，而非模型直接读取作者属性。

实验规模

在Twitter/X、Bluesky、Reddit三个平台上各抽取约5000条帖子作为候选池，比较OpenAI GPT-4o Mini、Anthropic Claude Sonnet 4.5、Google Gemini 2.0 Flash三种API模型，在6种提示词（general、popular、engaging、informative、controversial、neutral）下共54个实验条件。每个条件进行100次独立试验，每次从100条帖子中要求模型返回Top-10；文中给出总计约540000次top-10选择，但按54×100×10计算又对应54000，存在计数口径不一致。Twitter/X上另对279名作者用Llama 3.1 8B与Mistral v0.2做双模型一致性的人口学推断；偏置用Cramér’s V、Cohen’s d、Welch t检验、随机森林和SHAP分析。未报告模型参数量，也没有传统推荐系统强基线，主要是跨模型/跨提示/跨平台对照审计。

局限性

人口学属性依赖LLM根据简介和帖子进行推断，且少数群体状态的 unknown 高达48.4%，因此政治立场、性别和族裔相关结论都带有明显测量误差。实验是非个性化、仅基于文本的受控模拟，缺少真实平台中的互动数、线程上下文、用户历史和排序约束，因而对 Grok、Attie 这类部署系统的外推有限。另有样本/计数口径表述不一致的问题，削弱了对实验严谨性的信任。