Arxiv Insights - Curated Research Intelligence

核心发现

训练数据中包含小说的BERT模型（Full Model）在预测代词、对话、认知和情态动词等词汇时表现出更强的能力，这表明小说训练增强了模型对文本中人物身份持续性和对话逻辑的理解。
Full Model生成的文本更倾向于包含多视角对话、人物内心独白和行动描述，呈现出流行文学体裁的片段，而仅用维基百科训练的模型（Wiki Model）则生成客观、事实性的“绅士科学家”或流行文化数据库风格的文本。
通过信息增益分析，发现对Full Model影响最大的训练段落普遍包含多个角色之间的互动，这些互动通常发生在故事的转折点或高潮，并涉及角色意图的表达和相互评估，表明模型从小说中学习了如何构建具有高情境风险的人物关系。

实验规模

研究通过构建两个BERT模型进行对比实验：一个仅用英文维基百科训练（Wiki Model），另一个则在维基百科基础上额外加入了BookCorpus数据集（包含约7000部流行小说，如浪漫和奇幻类型）进行训练（Full Model）。实验方法包括：1) 在预留的维基百科文章上进行掩码词预测，比较两个模型对特定词汇的预测准确率；2) 通过随机掩码-预测循环生成50个新句子，定性分析两种模型的文本生成风格；3) 利用信息增益方法，识别Full Model中受小说训练影响最大的训练数据段落，并分析其共同特征。

局限性

本研究主要基于BERT模型进行，其架构和训练数据规模与当前最先进的大型语言模型（如GPT-3/4或LLaMA系列）存在代际差异，因此研究结果的普遍适用性可能受限。此外，部分定性分析（如生成文本的风格和高信息增益段落的特征）依赖于研究者的主观解释，可能存在一定局限性，且对Table 1中部分词汇（如货币符号）的解释不够充分。