Arxiv Insights - Curated Research Intelligence

核心发现

将自由对话拆成 make_offer/respond_to_offer/send_message 等结构化事件后，IR、surplus share、deal rate 都能机器可算，直接解决了“报价是否绑定”这一测量歧义。
5个 frontier 模型共15,000局对弈显示，o3 通过最高初始锚定、可控让步和较强耐心，同时拿到最高 surplus share 与最高 deal rate，说明强压价不必然牺牲成交。
弱买方策略的失败模式是过早暴露支付意愿：Gemini-2.5-Flash 买方既拿到最低剩余，又有最低成交率；强模型则在不同价格分位上保持较稳定表现。
Qwen3 训练中，SFT 学会了“抬剩余、挑条件”，因此 surplus 上升但 deal rate 下降；GRPO 由于奖励把理性撤退和不理性成交都近似记为 0，又把策略推回“尽量成交”，导致 surplus 回落。
SFT 对价格分位的压缩效应在未见对手 o3-mini 上仍然存在，说明它学到的是按物品价值比例调整的谈判规则，而不是死记具体价格点。

实验规模

实验覆盖一个由 2,332 个商品组成的目录（CraigslistBargains 1,402 个 + Amazon Price History 930 个），按历史价格区间采样买卖双方保留价；benchmark 部分使用 5 个 frontier 模型（DeepSeek-V3-0324、Gemini-2.5-Flash、Gemini-2.5-Pro、GPT-4.1、o3）做双向 round-robin，对 25 个买卖配对在同一批 600 个 listings 上共进行 15,000 局谈判（400 GFT + 200 NGFT）。训练部分对 Qwen3-8B 和 Qwen3-14B 做两阶段微调：先用 DeepSeek-R1 自博弈轨迹做 SFT，再用 GRPO 在固定对手 GPT-4.1 上强化学习；评测又在 GPT-4.1（分布内）和 o3-mini（未见对手）上展开，6 个 Qwen 变体 × 2 个对手 × 2 个角色 × 800 个场景，共 19,200 局。训练在单节点 8×H100 80GB 上进行，包含 16K 级上下文、最大 10 轮、每轮最多 3 次 tool call。

局限性

场景高度集中在单一商品、单一双边、单一协议的价格谈判上，结论更像对“结构化议价代理”的局部验证，而不是对一般 agentic LLM 能力的全面证明。训练阶段只用 GPT-4.1 作为固定对手，奖励又没有清晰地区分“理性退出”和“错误成交”，因此 RL 的失败很大程度上可能是 reward 设计问题，而不一定是算法本身。分位数和部分违约率的样本量并不大，很多改变量级只有几个百分点，仍缺少更强消融、更多对手和人类对照来支撑外推。