自然语言处理★ 评分 6.0

Reasoning Boosts Opinion Alignment in LLMs

Frédéric Berdoz, Yann Billeter, Yann Vonlanthen, Roger Wattenhofer
2026年3月3日
关键词
政治观点对齐大型语言模型强化学习结构化推理政治偏见

核心发现

  1. 结构化推理(SFT+GRPO)在瑞士、德国和美国三个政治数据集上,显著优于SFT、GRPO、ICL和ORPO等基线方法,提升了LLM的意见对齐能力。
  2. 模型难以准确学习“中立”立场,这与个体回答中立的频率呈负相关,且移除中立选项后模型性能显著提升。
  3. 政治意识形态对模型学习效果有显著影响,中右翼群体的对齐性能普遍较低,且模型代理人倾向于向中右翼偏移,这表明模型存在内在偏见。
  4. SFT数据中的意识形态偏见主要损害被低估的观点,而非系统性地提升被高估的观点,且右翼候选人受不利偏见的影响更严重。

实验规模

研究使用了Llama 3.1 8B、Qwen3 8B和Magistral 24B三种LLM骨干模型(均进行4比特量化)。评估了GRPO、SFT+GRPO、SFT、ORPO、ICL以及随机/多数投票基线。数据集包括:瑞士smartvote(18位候选人,60个政策问题,二元标签)、德国Wahl-o-Mat(6个主要政党,每党646-760个训练问题,30个测试问题,三元标签)和美国ANES 2020(21位受访者,79个政策问题,三元标签)。训练采用Adam优化器,批次大小为8,SFT和GRPO均训练800步,并对8次随机运行结果取平均。

局限性

该方法为每个个体训练一个模型,计算成本高昂,难以扩展到大规模人群模拟。尽管引入了推理机制,模型仍未能完全消除政治偏见,尤其是在处理“中立”立场和对齐中右翼观点时表现不佳,且生成的推理有时包含不合逻辑或幻觉内容。此外,数据集规模有限且依赖合成数据进行SFT,可能引入额外偏差,影响了结果的泛化性和鲁棒性。

Paper ID: 2603.01214v1