智能体系统★ 评分 4.7
Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation
Jiuyun Jiang, Yuecheng Hong, Bo Yang, Jin Yang, Guangxin Jiang, Xiaomeng Guo, Guang Xiao
2026年4月26日
关键词
大语言模型仿真啤酒分销游戏牛鞭效应认知异质性信息共享
核心发现
- 在4阶段、20轮的Beer Distribution Game中,均质LLM团队复现了显著的牛鞭效应,订单方差沿供应链放大,说明LLM可在该玩具环境中再现经典行为偏差。
- 信息共享在所有LLM配置下都降低订单波动,且统计结果比人类实验更稳定,表明共享库存/积压信息能让模型更一致地利用全局状态。
- 仅在某一环节替换为高推理模型,并不能消除系统失稳;上游深代理在信息隔离下甚至抬高总成本,回归结果指向其持续低估管道库存,偏差机制可归结为 myopia 加 self-interest。
- DeepSeek 与 GPT 在低阶配置下呈现不同的波动风格,但在最高推理配置下差异收敛,说明任务约束可以压过模型家族层面的“个性”差别。
实验规模
基于4阶段 Beer Distribution Game 的多阶段供应链仿真;每个 episode 20 个周期,32 次独立重复。LLM 部分覆盖 2 个模型家族(DeepSeek、GPT)和 6 种代理配置(Original、R-Overall、R-S1、R-S2、R-S3、R-S4),并分别设置有/无信息共享两种条件,合计约 768 个仿真 episode。对照基线包括需求跟踪策略、IPPO 和 MAPPO。
局限性
只在单一且高度简化的 Beer Distribution Game 上验证,需求平稳、链路固定、周期仅20轮,难以外推到存在随机扰动、复杂网络拓扑和长期协同关系的真实供应链。所谓“认知深浅”主要由不同模型家族和 CoT 提示代理,训练数据、对齐策略、模型版本与提示效应都可能混入处理效应,因果解释并不干净。与人类基准的比较也未必完全可比,因为实验协议、样本来源和评价口径并不完全一致,且缺少更强的非LLM控制组、系统性消融和跨任务复现。