自然语言处理★ 评分 5.2
Economic Transformation and Cultural Change: Evidence from Two Centuries of French Drama
T. D. Oliveira, L. A. Attilio, M. J. Davila-Fernandez
2026年6月25日
关键词
法国戏剧主题模型经济史BVAR文化演化
核心发现
- LDA在1215部法国戏剧中识别出稳定的三类关键主题:贵族生活、资产阶级生活、家庭经济;1800年后贵族生活显著下降,后两者上升,说明戏剧主题与社会经济结构同步重组。
- JSD与MDS显示,19世纪上半叶是文本分布变化最剧烈的阶段,主题漂移与法国革命及工业化加速的时间窗口基本重合。
- BVAR-max-share结果表明,18世纪GDP冲击主要推动“资产阶级生活”,而1820年后GDP冲击才显著影响“家庭经济”,说明经济变化对文化生产的传导存在分期。
- 离散选择模型把作者行为归结为同伴效应与经济条件两条通道,蒙特卡洛模拟能复现总体历史轨迹,但只能解释定性趋势,不能证明历史机制被唯一识别。
实验规模
语料为DraCor提供的1215部法国戏剧,时间跨度1700-1900;预处理使用spaCy法语模型进行词形还原,并保留名词、专有名词、动词和形容词,去除停用词及高频虚词。主题分析采用10主题LDA,并以NMF作稳健性检查;年度变化用JSD和MDS刻画。计量部分使用四变量BVAR(GDP、人均GDP对数、家庭经济、资产阶级生活、贵族生活),分为1700-1789与1820-1900两段,采用Minnesota prior、2阶滞后、50,000次Gibbs抽样和68%置信区间;稳健性加入人力资本与预期寿命。机制部分用离散选择模型与1000次、200期的蒙特卡洛模拟验证定性轨迹。
局限性
核心证据仍是相关性而非强因果识别:BVAR的max-share约束依赖结构假设,历史数据又存在强烈的共时冲击、制度变迁和样本稀疏问题,难以排除第三变量。主题标签带有明显的人工解释成分,且LDA/NMF对“贵族生活”“资产阶级生活”“家庭经济”的边界并不严格,结果对预处理和主题数选择可能较敏感。离散选择模型与蒙特卡洛仿真主要用于生成“看起来相似”的轨迹,解释力更多是定性叙事而非可证伪的机制检验。