Arxiv Insights - Curated Research Intelligence

核心发现

LLM在多项语言任务上能达到或超过人类表面性能，但这不意味着其表征方式与人类相同；相同分数背后可能是完全不同的处理机制。
句子可接受性、主谓一致和视觉语境下的判断显示，LLM常保留人类会过滤的上下文信息，而人类更依赖选择性抑制与语境屏蔽。
叙事生成实验表明，人类故事在整体连贯性、主题组织和困惑度上优于模型输出，LLM更像是在高流畅度下拼接训练分布中的局部模式。
NLI、医学图像诊断和NP-hard规划任务的结果都显示，模型在域内或强提示条件下可表现良好，但一旦转向域外测试、扰动输入或复杂泛化，性能明显下滑，支持其主要依赖统计模式而非深层通用推理。

实验规模

综述性论文，本身不做新实验；主要汇总并比较了多篇既有研究的结果。涉及的证据包括：句子可接受性评估中的众包人类标注与BERT/BERT类、BERT/XLNET等模型对比；视觉语境可接受性任务中人类受试者与ChatGPT-4o、InternVL3、Qwen2.5、llava-1.5等模型对比；递归嵌套主谓一致中LSTM/GRU、GPT-2、RoBERTa、Chinchilla等模型与人类表现对比；叙事连贯性研究中60篇人类故事与5个VLM/LLM模型生成文本对比；NLI中SNLI、MSciNLI等数据集上微调Transformer与零/少样本LLM对比；医学影像诊断中多个模型对比人类专家；规划任务中ChatGPT-4o、Llama 3.1及ILP增强版本、贪心基线的对比。

局限性

这是一篇综述而非原始研究，没有统一的实验设计、消融控制或新的统计检验，因此结论主要依赖对既有文献的选择性整合。不同任务使用的指标、数据集和提示策略差异很大，跨研究横向比较的可比性有限，部分论断更多是解释框架而不是可直接证伪的实验结论。