Arxiv Insights - Curated Research Intelligence

核心发现

思维型多模态大语言模型（MLLMs）在CoT（思维链）提示下，其分类性能普遍提升，但解释质量（BERTScore和METEOR）却一致性下降，表明CoT在决策和解释生成之间存在权衡。
在SFT（监督微调）阶段引入细粒度监督和蒸馏CoT理据，能显著提升模型的分类和解释性能，为后续的强化学习优化奠定良好基础。
结合SFT预热和GRPO（组相对策略优化）的后训练方法，在Hateful Memes基准测试上实现了最先进的分类准确率和解释质量，验证了该方法的有效性。
GRPO训练动态分析表明，SFT预热对于稳定和有效的优化至关重要，能使GRPO专注于改进推理和解释质量，而非从头学习输出结构。
观察到GRPO优化过程中存在“CoT崩溃”现象，即模型倾向于压缩内部思维链以获取奖励，这提示了未来奖励设计中需明确控制内部推理预算。

实验规模

本研究在Hateful Memes数据集上进行实验，该数据集包含约1.1万个表情包（训练集8500个，开发集540个，测试集2000个），并扩展了人类验证的解释、细粒度标签以及通过GPT-4.1蒸馏生成的CoT理据。基线模型包括Llama-3.2-11B、Llama-4-Scout-17B、Qwen3-VL-8B、Gemma-3-12B等开放权重MLLMs，以及闭源的GPT-4.1。模型训练采用DeepSpeed ZeRO-3在4块NVIDIA H200 GPU上进行全参数优化，SFT阶段进行3个epoch，GRPO阶段每输入采样16个候选完成。

局限性

该研究结果主要基于Hateful Memes基准测试，泛化能力可能受限。CoT理据的弱监督蒸馏依赖于商业MLLM（GPT-4.1），可能引入偏见或不忠实的推理，且增加了计算成本和对闭源模型的依赖，影响了结果的可复现性。此外，解释质量主要通过自动指标评估，未能完全反映人类判断。