自然语言处理★ 评分 5.2
When to Plan, When to Polish: Noise Level as a Granularity Axis for Diffusion Language Models
Peihong Li, Yuanjie Shi, Yan Yan
2026年6月25日
关键词
离散扩散语言模型噪声依赖粒度控制分层规划话题骨架恢复条件长文本生成
核心发现
- 现有 tokenwise 扩散虽然是高到低噪声退火,但训练腐蚀和采样提交都停留在词级,导致高噪声时可见证据碎片化,早期只能做局部猜测而难以先搭结构。
- NDGC 通过噪声依赖的 span 级曝光与匹配的 group 级提交,把高噪声阶段的证据组织成连续 token 组,因而在 Synthetic-V4 上显著提前形成可恢复的 topic skeleton,而不仅仅是提升最终覆盖率。
- 关键增益来自“训练曝光-推理提交”对齐,而不是单独加结构或单独改解码:只做 structured exposure 会产生训练-推理粒度失配,只做 structured commitment 会在高噪声下仍然不稳。
- 在 BD3LM 上,NDGC 同时提升最终 topic coverage、order accuracy、exact skeleton 和 early recovery,并把坏输出率从几乎失控的 baseline 压到低位;tokenwise early / BM-TOK 只能追平部分最终分数,无法重现早期骨架形成。
- 在 MDLM、SEDD 上也观察到同方向收益,在 WritingPrompts 上则表现为更低重复和更好参考段相似度,说明该方法更像是一种通用的粒度调度,而不是 BD3LM 特化修补。
实验规模
主要实验在 Synthetic-V4 控制集上进行:训练集 50,000 条、测试集 500 条,序列最长 1,024 tokens,前缀最长 192 tokens;主干模型为 BD3LM,并额外在 MDLM 与 SEDD 上做跨骨干验证。对照系统包括 baseline、structured commitment only、structured exposure only、tokenwise early、budget-matched tokenwise 和 NDGC,多数结果报告为两 seed 均值;NDGC 默认使用 B_max=16,并对 B_max=8/32 做敏感性分析。自然语言补充验证使用 WritingPrompts,在同一 BD3LM 设置下比较 bad output、Rep-4gram 和 RASC-best。
局限性
最强证据仍然来自 Synthetic-V4 这种人为构造的 topic skeleton 任务,评估依赖宏段切分和词表命中,容易高估连续 span 结构带来的收益;这类指标并不能直接证明真实语义规划能力。论文只给出两 seed 均值,且跨骨干增益在 SEDD 上较弱,说明方法的稳定性和普适性还不够强。WritingPrompts 只提供间接的健康与段落相似性信号,不能替代对真实长文规划的直接检验。