Arxiv Insights - Curated Research Intelligence

核心发现

结构化推理（SFT+GRPO）在瑞士、德国和美国三个政治数据集上，显著优于SFT、GRPO、ICL和ORPO等基线方法，提升了LLM的意见对齐能力。
模型难以准确学习“中立”立场，这与个体回答中立的频率呈负相关，且移除中立选项后模型性能显著提升。
政治意识形态对模型学习效果有显著影响，中右翼群体的对齐性能普遍较低，且模型代理人倾向于向中右翼偏移，这表明模型存在内在偏见。
SFT数据中的意识形态偏见主要损害被低估的观点，而非系统性地提升被高估的观点，且右翼候选人受不利偏见的影响更严重。

实验规模

研究使用了Llama 3.1 8B、Qwen3 8B和Magistral 24B三种LLM骨干模型（均进行4比特量化）。评估了GRPO、SFT+GRPO、SFT、ORPO、ICL以及随机/多数投票基线。数据集包括：瑞士smartvote（18位候选人，60个政策问题，二元标签）、德国Wahl-o-Mat（6个主要政党，每党646-760个训练问题，30个测试问题，三元标签）和美国ANES 2020（21位受访者，79个政策问题，三元标签）。训练采用Adam优化器，批次大小为8，SFT和GRPO均训练800步，并对8次随机运行结果取平均。

局限性

该方法为每个个体训练一个模型，计算成本高昂，难以扩展到大规模人群模拟。尽管引入了推理机制，模型仍未能完全消除政治偏见，尤其是在处理“中立”立场和对齐中右翼观点时表现不佳，且生成的推理有时包含不合逻辑或幻觉内容。此外，数据集规模有限且依赖合成数据进行SFT，可能引入额外偏差，影响了结果的泛化性和鲁棒性。