自然语言处理★ 评分 7.2
What Exactly do Children Receive in Language Acquisition? A Case Study on CHILDES with Automated Detection of Filler-Gap Dependencies
Zhenghao Herbert Zhou, William Dai, Maya Viswanathan, Simon Charlow, R. Thomas McCoy, Robert Frank
2026年3月3日
关键词
填充-空缺依存儿童语言习得CHILDES自动化检测句法分析
核心发现
- 开发了一个结合句法和依存分析的自动化系统,用于大规模识别儿童语言习得中的填充-空缺依存关系(FGDs),涵盖三种核心结构及其提取位点(主语、宾语、状语)。
- 系统在人工标注数据上通过小规模人工评估(准确率0.94-1.00)和大规模与现有语料库(Pearl and Sprouse, 2013)对比(多数F1>0.8)验证了其有效性。
- 将系统应用于57个CHILDES英语语料库(超过280万话语),发现矩阵问句频率远高于嵌入式问句和关系从句;wh-问句中宾语提取多于主语,而关系从句主宾语提取相当。儿童产出模式与成人输入高度一致。
- 提取偏向性因结构而异:wh-问句(矩阵和嵌入式)表现出明显的宾语偏向,而关系从句则相对平衡。
- 该工具可用于大规模检验人类语言习得理论(如频率与复杂性、角色敏感轨迹)以及研究大型语言模型(LMs)的语言泛化能力(如通过过滤语料训练和输入归因)。
实验规模
系统验证:对6个核心类别的每类100个句子进行人工标注,由5位语言学专家进行二元判断。大规模对比:与Pearl and Sprouse (2013)语料库中的56,461个儿童指导语进行比较。CHILDES应用:分析了57个英语CHILDES语料库,共计2,841,084个3-80个月儿童相关的话语。针对Laura语料库(Braunwald, 1971)进行了纵向案例研究,涉及75,740个成人和儿童话语。语言模型案例研究:使用BabyLM Challenge数据集的CHILDES部分(非儿童语音),共360,146个句子(2,091,023个token)进行训练。训练了GPT-2 (7.05亿参数) 和Llama (3.6亿参数) 各15个模型实例。评估使用了3432个矩阵问句和5000个嵌入式问句及关系从句的合成最小对。
局限性
该检测器并非完美,可能因解析错误或儿童语言的噪声、不规范性而产生误报或漏报,不适用于需要现象完美识别的研究。当前检测器仅涵盖了部分填充-空缺依存现象(如未包含裂句和话题化),且仅限于英语语料。语言模型案例研究的规模相对较小,且在某些结构上未显示显著效果,其泛化性结论仍需更广泛的验证。