智能体系统★ 评分 5.8
Training Language Models for Bilateral Trade with Private Information
Dirk Bergemann, Soheil Ghili, Xinyang Hu, Chuanhao Li, Zhuoran Yang
2026年4月26日
关键词
双边议价私有信息结构化工具调用强化学习微调价格歧视
核心发现
- 将自由对话拆成 make_offer/respond_to_offer/send_message 等结构化事件后,IR、surplus share、deal rate 都能机器可算,直接解决了“报价是否绑定”这一测量歧义。
- 5个 frontier 模型共15,000局对弈显示,o3 通过最高初始锚定、可控让步和较强耐心,同时拿到最高 surplus share 与最高 deal rate,说明强压价不必然牺牲成交。
- 弱买方策略的失败模式是过早暴露支付意愿:Gemini-2.5-Flash 买方既拿到最低剩余,又有最低成交率;强模型则在不同价格分位上保持较稳定表现。
- Qwen3 训练中,SFT 学会了“抬剩余、挑条件”,因此 surplus 上升但 deal rate 下降;GRPO 由于奖励把理性撤退和不理性成交都近似记为 0,又把策略推回“尽量成交”,导致 surplus 回落。
- SFT 对价格分位的压缩效应在未见对手 o3-mini 上仍然存在,说明它学到的是按物品价值比例调整的谈判规则,而不是死记具体价格点。
实验规模
实验覆盖一个由 2,332 个商品组成的目录(CraigslistBargains 1,402 个 + Amazon Price History 930 个),按历史价格区间采样买卖双方保留价;benchmark 部分使用 5 个 frontier 模型(DeepSeek-V3-0324、Gemini-2.5-Flash、Gemini-2.5-Pro、GPT-4.1、o3)做双向 round-robin,对 25 个买卖配对在同一批 600 个 listings 上共进行 15,000 局谈判(400 GFT + 200 NGFT)。训练部分对 Qwen3-8B 和 Qwen3-14B 做两阶段微调:先用 DeepSeek-R1 自博弈轨迹做 SFT,再用 GRPO 在固定对手 GPT-4.1 上强化学习;评测又在 GPT-4.1(分布内)和 o3-mini(未见对手)上展开,6 个 Qwen 变体 × 2 个对手 × 2 个角色 × 800 个场景,共 19,200 局。训练在单节点 8×H100 80GB 上进行,包含 16K 级上下文、最大 10 轮、每轮最多 3 次 tool call。
局限性
场景高度集中在单一商品、单一双边、单一协议的价格谈判上,结论更像对“结构化议价代理”的局部验证,而不是对一般 agentic LLM 能力的全面证明。训练阶段只用 GPT-4.1 作为固定对手,奖励又没有清晰地区分“理性退出”和“错误成交”,因此 RL 的失败很大程度上可能是 reward 设计问题,而不一定是算法本身。分位数和部分违约率的样本量并不大,很多改变量级只有几个百分点,仍缺少更强消融、更多对手和人类对照来支撑外推。