智能体系统★ 评分 5.3
Training and Agentic Inference Strategies for LLM-based Manim Animation Generation
Ravidu Suien Rammuni Silva, Ahmad Lotfi, Isibor Kennedy Ihianle, Golnaz Shahtahmassebi, Jordan J. Bird
2026年4月26日
关键词
Manim动画生成大语言模型微调GRPO强化学习Renderer-in-the-loop视觉相似度评估
核心发现
- SFT主要提升代码侧指标,因为它先把Manim API词汇、语法和常见调用模式“教进模型”;GRPO主要提升视觉侧指标,因为奖励函数直接把渲染结果纳入优化。
- 在纯vanilla推理下,训练能增强代码与视觉的一致性,其中GRPO+vanilla的Code-Visual相关性最高(Spearman 0.919,Kendall 0.809),说明基于执行/视觉反馈的训练确实能把代码写法往更可视化的方向推。
- 推理时加入RITL与RITL-DOC后,多数模型的VS和RSR继续上升,且Qwen 3 Coder 30B在GRPO+RITL-DOC@3下达到85.7% VS和94% RSR,超过文中报告的GPT-4.1基线。
- 这种收益明显依赖模型容量:7B-8B附近是相对“甜点区”,而≤4B模型更容易被长上下文和文档噪声拖累,RITL-DOC对它们并不稳定。
- 推理增强会削弱代码与视觉指标的相关性,说明仅看代码相似度会漏掉大量“代码不同但画面正确”的样本,反过来也揭示了Manim任务里代码最优与视觉最优并不等价。
实验规模
以ManimBench为核心:417个经过人工审核的Manim样本,其中100个官方测试集样本用于评估,其余用于训练。共评测17个开源小于30B参数的模型,覆盖0.5B到30B(Qwen 2.5/3、Qwen 2.5 Coder、Qwen 3 Coder、SeedCoder、LLaMA 3.1/3.2、Ministral 3、Mistral Small 3.2等),并与Qwen 3 Coder Next 80B和GPT-4.1作基准对照。训练上采用LoRA微调:SFT训练2轮,batch size 16,rank r=8,4-bit量化基座;随后在SFT模型上进行GRPO,G=8,最大completion长度约为2048×0.8,学习率5e-7。推理阶段比较vanilla、RITL、RITL-DOC及RITL-DOC@3;评估指标包括CodeBLEU、CodeBERT相似度、N-gram、Syntax Match、AST Distance,以及视觉侧的SSIM、CLIP语义相似度、Visual Similarity(VS)、CodeBERTBLEU(CBB)和Render Success Rate(RSR)。
局限性
主要局限是数据与任务域过窄:实验几乎完全建立在ManimBench的417个样本上,测试集只有100个,难以证明方法能泛化到更长、更复杂或不同风格的程序化动画生成。评估也高度依赖参考代码和参考视频,无法充分区分“语义等价但实现不同”的正确输出,且缺少人工主观评价来验证视觉指标是否真正代表用户感知质量。RITL-DOC还可能因为上下文膨胀对小模型不公平,因此其对不同规模模型的比较并不完全对称。