自然语言处理★ 评分 6.2
Can Thinking Models Think to Detect Hateful Memes?
Mohamed Bayan Kmainasi, Mucahid Kutlu, Ali Ezzat Shahroor, Abul Hasnat, Firoj Alam
2026年3月3日
关键词
仇恨表情包检测多模态大语言模型强化学习思维链解释性AI
核心发现
- 思维型多模态大语言模型(MLLMs)在CoT(思维链)提示下,其分类性能普遍提升,但解释质量(BERTScore和METEOR)却一致性下降,表明CoT在决策和解释生成之间存在权衡。
- 在SFT(监督微调)阶段引入细粒度监督和蒸馏CoT理据,能显著提升模型的分类和解释性能,为后续的强化学习优化奠定良好基础。
- 结合SFT预热和GRPO(组相对策略优化)的后训练方法,在Hateful Memes基准测试上实现了最先进的分类准确率和解释质量,验证了该方法的有效性。
- GRPO训练动态分析表明,SFT预热对于稳定和有效的优化至关重要,能使GRPO专注于改进推理和解释质量,而非从头学习输出结构。
- 观察到GRPO优化过程中存在“CoT崩溃”现象,即模型倾向于压缩内部思维链以获取奖励,这提示了未来奖励设计中需明确控制内部推理预算。
实验规模
本研究在Hateful Memes数据集上进行实验,该数据集包含约1.1万个表情包(训练集8500个,开发集540个,测试集2000个),并扩展了人类验证的解释、细粒度标签以及通过GPT-4.1蒸馏生成的CoT理据。基线模型包括Llama-3.2-11B、Llama-4-Scout-17B、Qwen3-VL-8B、Gemma-3-12B等开放权重MLLMs,以及闭源的GPT-4.1。模型训练采用DeepSpeed ZeRO-3在4块NVIDIA H200 GPU上进行全参数优化,SFT阶段进行3个epoch,GRPO阶段每输入采样16个候选完成。
局限性
该研究结果主要基于Hateful Memes基准测试,泛化能力可能受限。CoT理据的弱监督蒸馏依赖于商业MLLM(GPT-4.1),可能引入偏见或不忠实的推理,且增加了计算成本和对闭源模型的依赖,影响了结果的可复现性。此外,解释质量主要通过自动指标评估,未能完全反映人类判断。