自然语言处理★ 评分 4.3

LLM and Human Modes of Representation

Shalom Lappin
2026年6月25日
关键词
大语言模型人类语言表征句子可接受性语义推理与规划叙事连贯性

核心发现

  1. LLM在多项语言任务上能达到或超过人类表面性能,但这不意味着其表征方式与人类相同;相同分数背后可能是完全不同的处理机制。
  2. 句子可接受性、主谓一致和视觉语境下的判断显示,LLM常保留人类会过滤的上下文信息,而人类更依赖选择性抑制与语境屏蔽。
  3. 叙事生成实验表明,人类故事在整体连贯性、主题组织和困惑度上优于模型输出,LLM更像是在高流畅度下拼接训练分布中的局部模式。
  4. NLI、医学图像诊断和NP-hard规划任务的结果都显示,模型在域内或强提示条件下可表现良好,但一旦转向域外测试、扰动输入或复杂泛化,性能明显下滑,支持其主要依赖统计模式而非深层通用推理。

实验规模

综述性论文,本身不做新实验;主要汇总并比较了多篇既有研究的结果。涉及的证据包括:句子可接受性评估中的众包人类标注与BERT/BERT类、BERT/XLNET等模型对比;视觉语境可接受性任务中人类受试者与ChatGPT-4o、InternVL3、Qwen2.5、llava-1.5等模型对比;递归嵌套主谓一致中LSTM/GRU、GPT-2、RoBERTa、Chinchilla等模型与人类表现对比;叙事连贯性研究中60篇人类故事与5个VLM/LLM模型生成文本对比;NLI中SNLI、MSciNLI等数据集上微调Transformer与零/少样本LLM对比;医学影像诊断中多个模型对比人类专家;规划任务中ChatGPT-4o、Llama 3.1及ILP增强版本、贪心基线的对比。

局限性

这是一篇综述而非原始研究,没有统一的实验设计、消融控制或新的统计检验,因此结论主要依赖对既有文献的选择性整合。不同任务使用的指标、数据集和提示策略差异很大,跨研究横向比较的可比性有限,部分论断更多是解释框架而不是可直接证伪的实验结论。

Paper ID: 2606.21616