Arxiv Insights - Curated Research Intelligence

核心发现

开发了一个结合句法和依存分析的自动化系统，用于大规模识别儿童语言习得中的填充-空缺依存关系（FGDs），涵盖三种核心结构及其提取位点（主语、宾语、状语）。
系统在人工标注数据上通过小规模人工评估（准确率0.94-1.00）和大规模与现有语料库（Pearl and Sprouse, 2013）对比（多数F1>0.8）验证了其有效性。
将系统应用于57个CHILDES英语语料库（超过280万话语），发现矩阵问句频率远高于嵌入式问句和关系从句；wh-问句中宾语提取多于主语，而关系从句主宾语提取相当。儿童产出模式与成人输入高度一致。
提取偏向性因结构而异：wh-问句（矩阵和嵌入式）表现出明显的宾语偏向，而关系从句则相对平衡。
该工具可用于大规模检验人类语言习得理论（如频率与复杂性、角色敏感轨迹）以及研究大型语言模型（LMs）的语言泛化能力（如通过过滤语料训练和输入归因）。

实验规模

系统验证：对6个核心类别的每类100个句子进行人工标注，由5位语言学专家进行二元判断。大规模对比：与Pearl and Sprouse (2013)语料库中的56,461个儿童指导语进行比较。CHILDES应用：分析了57个英语CHILDES语料库，共计2,841,084个3-80个月儿童相关的话语。针对Laura语料库（Braunwald, 1971）进行了纵向案例研究，涉及75,740个成人和儿童话语。语言模型案例研究：使用BabyLM Challenge数据集的CHILDES部分（非儿童语音），共360,146个句子（2,091,023个token）进行训练。训练了GPT-2 (7.05亿参数) 和Llama (3.6亿参数) 各15个模型实例。评估使用了3432个矩阵问句和5000个嵌入式问句及关系从句的合成最小对。

局限性

该检测器并非完美，可能因解析错误或儿童语言的噪声、不规范性而产生误报或漏报，不适用于需要现象完美识别的研究。当前检测器仅涵盖了部分填充-空缺依存现象（如未包含裂句和话题化），且仅限于英语语料。语言模型案例研究的规模相对较小，且在某些结构上未显示显著效果，其泛化性结论仍需更广泛的验证。