Arxiv Insights - Curated Research Intelligence

核心发现

SFT主要提升代码侧指标，因为它先把Manim API词汇、语法和常见调用模式“教进模型”；GRPO主要提升视觉侧指标，因为奖励函数直接把渲染结果纳入优化。
在纯vanilla推理下，训练能增强代码与视觉的一致性，其中GRPO+vanilla的Code-Visual相关性最高（Spearman 0.919，Kendall 0.809），说明基于执行/视觉反馈的训练确实能把代码写法往更可视化的方向推。
推理时加入RITL与RITL-DOC后，多数模型的VS和RSR继续上升，且Qwen 3 Coder 30B在GRPO+RITL-DOC@3下达到85.7% VS和94% RSR，超过文中报告的GPT-4.1基线。
这种收益明显依赖模型容量：7B-8B附近是相对“甜点区”，而≤4B模型更容易被长上下文和文档噪声拖累，RITL-DOC对它们并不稳定。
推理增强会削弱代码与视觉指标的相关性，说明仅看代码相似度会漏掉大量“代码不同但画面正确”的样本，反过来也揭示了Manim任务里代码最优与视觉最优并不等价。

实验规模

以ManimBench为核心：417个经过人工审核的Manim样本，其中100个官方测试集样本用于评估，其余用于训练。共评测17个开源小于30B参数的模型，覆盖0.5B到30B（Qwen 2.5/3、Qwen 2.5 Coder、Qwen 3 Coder、SeedCoder、LLaMA 3.1/3.2、Ministral 3、Mistral Small 3.2等），并与Qwen 3 Coder Next 80B和GPT-4.1作基准对照。训练上采用LoRA微调：SFT训练2轮，batch size 16，rank r=8，4-bit量化基座；随后在SFT模型上进行GRPO，G=8，最大completion长度约为2048×0.8，学习率5e-7。推理阶段比较vanilla、RITL、RITL-DOC及RITL-DOC@3；评估指标包括CodeBLEU、CodeBERT相似度、N-gram、Syntax Match、AST Distance，以及视觉侧的SSIM、CLIP语义相似度、Visual Similarity（VS）、CodeBERTBLEU（CBB）和Render Success Rate（RSR）。

局限性

主要局限是数据与任务域过窄：实验几乎完全建立在ManimBench的417个样本上，测试集只有100个，难以证明方法能泛化到更长、更复杂或不同风格的程序化动画生成。评估也高度依赖参考代码和参考视频，无法充分区分“语义等价但实现不同”的正确输出，且缺少人工主观评价来验证视觉指标是否真正代表用户感知质量。RITL-DOC还可能因为上下文膨胀对小模型不公平，因此其对不同规模模型的比较并不完全对称。