自然语言处理★ 评分 7.2

Semantic Novelty Trajectories in 80,000 Books: A Cross-Corpus Embedding Analysis

Fred Zimmerman
2026年3月3日
关键词
语义新颖性句向量计算文学研究压缩进展理论叙事轨迹

核心发现

  1. 现代书籍的平均段落级语义新颖性比1920年前的书籍高约10% (0.503 vs 0.459),表明现代文本在语义探索上更活跃。
  2. 现代书籍的轨迹迂回性(circuitousness)比1920年前的书籍高67%,意味着现代叙事在语义空间中更具振荡性和探索性。
  3. 收敛型叙事曲线(新颖性随书本进程下降)在1920年前的文献中多2.3倍,反映了早期文学更倾向于确立和阐述既定语义。
  4. 语义新颖性与读者质量评分几乎不相关 (r=-0.002),挑战了“越新颖越好”的直觉假设,支持施密德胡伯的“压缩进展”理论而非原始新颖性。
  5. 通过聚类分析识别出八种叙事轨迹原型,其中“平坦”型在早期文学中更常见,“逐渐上升”型在现代文学中更普遍,显示了文学结构随时代演变。
  6. 诗歌的语义结构在不同时代间发生剧烈转变,其迂回性在现代诗歌中增加了594%,体现了从格律诗到自由诗的解放。
  7. 尽管存在时代差异,小说在两个语料库中都倾向于收敛,非小说类则倾向于发散,表明不同体裁的结构特征具有一定的持久性。

实验规模

实验分析了两个大型英语书籍语料库:PG19 (28,730本,1920年前) 和 Books3 (52,796本,1990-2010年),总计81,526本书。每本书被分割成段落,并使用all-mpnet-base-v2句向量模型编码为768维向量。通过运行质心(running-centroid)方法计算语义新颖性,并使用速度、体积、迂回性、PAA-16和SAX-5等指标描述轨迹。轨迹通过线性回归斜率分类为发散、收敛或平坦型。对PAA-16表示进行K-means聚类(k=8)以识别叙事原型。此外,还计算了新颖性与读者评分(Books3)和下载量(PG19)的皮尔逊相关性。

局限性

论文的局限性在于,两个语料库的聚类是独立进行的,限制了更严格的跨语料库比较。Books3语料库的来源和潜在选择偏差可能影响其对现代文学的代表性。此外,用于生成句向量的模型主要基于现代英语训练,可能导致对早期文本的语义表示存在偏差,从而系统性地影响新颖性测量。

Paper ID: 2603.01791v1