Arxiv Insights - Curated Research Intelligence

核心发现

现代书籍的平均段落级语义新颖性比1920年前的书籍高约10% (0.503 vs 0.459)，表明现代文本在语义探索上更活跃。
现代书籍的轨迹迂回性（circuitousness）比1920年前的书籍高67%，意味着现代叙事在语义空间中更具振荡性和探索性。
收敛型叙事曲线（新颖性随书本进程下降）在1920年前的文献中多2.3倍，反映了早期文学更倾向于确立和阐述既定语义。
语义新颖性与读者质量评分几乎不相关 (r=-0.002)，挑战了“越新颖越好”的直觉假设，支持施密德胡伯的“压缩进展”理论而非原始新颖性。
通过聚类分析识别出八种叙事轨迹原型，其中“平坦”型在早期文学中更常见，“逐渐上升”型在现代文学中更普遍，显示了文学结构随时代演变。
诗歌的语义结构在不同时代间发生剧烈转变，其迂回性在现代诗歌中增加了594%，体现了从格律诗到自由诗的解放。
尽管存在时代差异，小说在两个语料库中都倾向于收敛，非小说类则倾向于发散，表明不同体裁的结构特征具有一定的持久性。

实验规模

实验分析了两个大型英语书籍语料库：PG19 (28,730本，1920年前) 和 Books3 (52,796本，1990-2010年)，总计81,526本书。每本书被分割成段落，并使用all-mpnet-base-v2句向量模型编码为768维向量。通过运行质心（running-centroid）方法计算语义新颖性，并使用速度、体积、迂回性、PAA-16和SAX-5等指标描述轨迹。轨迹通过线性回归斜率分类为发散、收敛或平坦型。对PAA-16表示进行K-means聚类（k=8）以识别叙事原型。此外，还计算了新颖性与读者评分（Books3）和下载量（PG19）的皮尔逊相关性。

局限性

论文的局限性在于，两个语料库的聚类是独立进行的，限制了更严格的跨语料库比较。Books3语料库的来源和潜在选择偏差可能影响其对现代文学的代表性。此外，用于生成句向量的模型主要基于现代英语训练，可能导致对早期文本的语义表示存在偏差，从而系统性地影响新颖性测量。