智能体系统★ 评分 5.3

Polarization by Default: Auditing Recommendation Bias in LLM-Based Content Curation

Nicolò Pagan, Christopher Barrie, Chris Andrew Bail, Petter Törnberg
2026年4月26日
关键词
LLM内容策展推荐偏置审计极化内容放大提示词敏感性政治倾向偏差

核心发现

  1. 在54个条件下,最稳定、最强的偏置不是人口学属性,而是极化度;LLM在几乎所有平台和提示词下都更偏好高极化帖子,说明“更尖锐、更有冲突感”的内容被默认抬升。
  2. 提示词会显著改写内容偏置:engaging/controversial 更容易放大毒性和负面情绪,informative 则明显压低毒性,说明偏置对目标函数高度敏感,而不是固定不变。
  3. 三个供应商呈现不同权衡:OpenAI 最稳定,Claude 在毒性处理上最具情境适应性,Gemini 最偏向负面情绪并更容易放大毒性。
  4. 在Twitter/X上,左倾作者被系统性过度推荐、右倾作者被压制;SHAP 显示这种人口学偏置主要由极化、主题和毒性等内容特征的相关性间接驱动,而非模型直接读取作者属性。

实验规模

在Twitter/X、Bluesky、Reddit三个平台上各抽取约5000条帖子作为候选池,比较OpenAI GPT-4o Mini、Anthropic Claude Sonnet 4.5、Google Gemini 2.0 Flash三种API模型,在6种提示词(general、popular、engaging、informative、controversial、neutral)下共54个实验条件。每个条件进行100次独立试验,每次从100条帖子中要求模型返回Top-10;文中给出总计约540000次top-10选择,但按54×100×10计算又对应54000,存在计数口径不一致。Twitter/X上另对279名作者用Llama 3.1 8B与Mistral v0.2做双模型一致性的人口学推断;偏置用Cramér’s V、Cohen’s d、Welch t检验、随机森林和SHAP分析。未报告模型参数量,也没有传统推荐系统强基线,主要是跨模型/跨提示/跨平台对照审计。

局限性

人口学属性依赖LLM根据简介和帖子进行推断,且少数群体状态的 unknown 高达48.4%,因此政治立场、性别和族裔相关结论都带有明显测量误差。实验是非个性化、仅基于文本的受控模拟,缺少真实平台中的互动数、线程上下文、用户历史和排序约束,因而对 Grok、Attie 这类部署系统的外推有限。另有样本/计数口径表述不一致的问题,削弱了对实验严谨性的信任。

Paper ID: 2604.15937