Arxiv Insights - Curated Research Intelligence

核心发现

CulMind 以12,381个QA、13,111张图像、7个子域和50个细粒度任务系统覆盖中文文化遗产，多源数据与长尾样本让模型在不同子域上的能力差异被放大暴露出来。
在 CulMind-R 上，正确答案经常对应弱推理：最优模型的“答对且推理可靠”比例只有0.128，而“答对但推理弱”高达0.776-0.978，说明仅看最终答案会显著高估模型可靠性。
任务自适应维度选择是必要的：ReaScore 选出的维度与专家参考集在精度/召回上接近一致（0.9726/0.9861），而只保留任务直接相关维度会丢失80.31%的专家相关推理结构，暴露出过度压缩的问题。
自适应 ReaScore 与专家判断最一致，Spearman 达到0.9898、QWK为0.9186、AUROC为0.9966、F1为0.9888，显著优于仅看答案、均匀加权和角色级加权，说明细粒度任务权重确实提升了过程评估质量。

实验规模

构建并评测了 CulMind 和 CulMind-R 两个基准：CulMind 包含12,381个QA、13,111张原始图像、50个任务；CulMind-R 包含6,032个QA、24个推理任务。共评测14个主流MLLM（10个开源、4个闭源），在 answer-only 与结构化 reasoning 两种设置下比较；对 Gemini-3-Flash-Preview 抽样240个实例进行3位 CCH 专家盲评；在维度集消融中，每个模型按20个实例/任务抽样，共480个实例/模型；任务权重由 DeepSeek-V4-Pro 生成，辅助判分使用 DeepSeek-V4-Flash。

局限性

局限性首先在于任务覆盖仍然偏窄，CulMind-R 只集中在书法、绘画和装饰艺术三个子域，推理 schema 对元数据完备性和专家规则依赖很强，外推到元数据稀疏或争议更大的文化遗产场景并不稳妥。其次，ReaScore 的有效性建立在任务级维度权重、不确定性阈值和类型匹配规则之上，评分体系本身带有较强的设计先验，部分权重又由文本 LLM 推断，仍存在偏置和循环验证风险。最后，专家一致性很高，但验证样本只来自单一最优模型的240个输出，仍不足以彻底排除对其他模型或其他任务分布的测量偏差。