Arxiv Insights - Curated Research Intelligence

核心发现

在4阶段、20轮的Beer Distribution Game中，均质LLM团队复现了显著的牛鞭效应，订单方差沿供应链放大，说明LLM可在该玩具环境中再现经典行为偏差。
信息共享在所有LLM配置下都降低订单波动，且统计结果比人类实验更稳定，表明共享库存/积压信息能让模型更一致地利用全局状态。
仅在某一环节替换为高推理模型，并不能消除系统失稳；上游深代理在信息隔离下甚至抬高总成本，回归结果指向其持续低估管道库存，偏差机制可归结为 myopia 加 self-interest。
DeepSeek 与 GPT 在低阶配置下呈现不同的波动风格，但在最高推理配置下差异收敛，说明任务约束可以压过模型家族层面的“个性”差别。

实验规模

基于4阶段 Beer Distribution Game 的多阶段供应链仿真；每个 episode 20 个周期，32 次独立重复。LLM 部分覆盖 2 个模型家族（DeepSeek、GPT）和 6 种代理配置（Original、R-Overall、R-S1、R-S2、R-S3、R-S4），并分别设置有/无信息共享两种条件，合计约 768 个仿真 episode。对照基线包括需求跟踪策略、IPPO 和 MAPPO。

局限性

只在单一且高度简化的 Beer Distribution Game 上验证，需求平稳、链路固定、周期仅20轮，难以外推到存在随机扰动、复杂网络拓扑和长期协同关系的真实供应链。所谓“认知深浅”主要由不同模型家族和 CoT 提示代理，训练数据、对齐策略、模型版本与提示效应都可能混入处理效应，因果解释并不干净。与人类基准的比较也未必完全可比，因为实验协议、样本来源和评价口径并不完全一致，且缺少更强的非LLM控制组、系统性消融和跨任务复现。