Arxiv Insights - Curated Research Intelligence

核心发现

在 DS4UD 和 LMHD 上，document-tuned 表示在大多数层都优于 base 表示，最佳层通常更靠后，说明文档级对比学习把更有用的语义信息推向高层。
以各自最佳层比较时，document-tuned 在两套数据上都取得更高 Pearson r（LMHD 提升约 0.012，DS4UD 提升约 0.055），且在饮酒、情绪和人格相关结果上提升更明显。
在删除、拼写噪声、同义替换和回译等扰动下，两类模型鲁棒性总体接近，说明 document-tuned 的优势不主要来自“更抗噪”，而更可能来自其表示空间对整体语义与不确定性线索的编码方式不同。
Supervised Dimension Projection 显示，document-tuned 更容易把 hedged language（如 usually）与高风险结果关联，而 base 更偏向把 abundance 类词（如 lot）映射到结果轴，提示二者捕获的语义侧重点不同。
论文真正支持的结论是“在这两个纵向心理健康任务中，document-tuned 表示是更稳妥的默认选择”，而不是“对所有心理健康 NLP 任务都普遍更优”。

实验规模

在两个英文纵向数据集上做控制比较：DS4UD 共有 120 人、10,108 条 EMA 文本，平均每人 84.9 条；LMHD 共有 1,307 人、7,207 条 EMA/开放式回答，平均每人 5.5 条。模型为同一骨干上的 roberta-large（base）与 all-roberta-large-v1（document-tuned），抽取全部 transformer 层表示后，用 mean pooling 或整用户文本拼接两种聚合方式，再用 ridge regression 做嵌套 10 折交叉验证，以 Pearson r 评估；附录还报告了按层、按结果域、按扰动类型的完整对比。

局限性

最大问题是对比不完全可控：all-roberta-large-v1 不仅是文档级对比学习，还叠加了额外预训练数据，因此无法把提升严格归因于“document tuning”本身。实验只覆盖两个英文纵向数据集，外部有效性很窄，也没有检验跨语言、临床场景、社交媒体或不同任务设定下是否仍成立。论文主要报告 Pearson r，缺少校准、公平性和分组误差分析；虽然结果稳定，但整体仍属于方法选择层面的增量比较，离“范式级”贡献很远。