Arxiv Insights - Curated Research Intelligence

核心发现

现有 tokenwise 扩散虽然是高到低噪声退火，但训练腐蚀和采样提交都停留在词级，导致高噪声时可见证据碎片化，早期只能做局部猜测而难以先搭结构。
NDGC 通过噪声依赖的 span 级曝光与匹配的 group 级提交，把高噪声阶段的证据组织成连续 token 组，因而在 Synthetic-V4 上显著提前形成可恢复的 topic skeleton，而不仅仅是提升最终覆盖率。
关键增益来自“训练曝光-推理提交”对齐，而不是单独加结构或单独改解码：只做 structured exposure 会产生训练-推理粒度失配，只做 structured commitment 会在高噪声下仍然不稳。
在 BD3LM 上，NDGC 同时提升最终 topic coverage、order accuracy、exact skeleton 和 early recovery，并把坏输出率从几乎失控的 baseline 压到低位；tokenwise early / BM-TOK 只能追平部分最终分数，无法重现早期骨架形成。
在 MDLM、SEDD 上也观察到同方向收益，在 WritingPrompts 上则表现为更低重复和更好参考段相似度，说明该方法更像是一种通用的粒度调度，而不是 BD3LM 特化修补。

实验规模

主要实验在 Synthetic-V4 控制集上进行：训练集 50,000 条、测试集 500 条，序列最长 1,024 tokens，前缀最长 192 tokens；主干模型为 BD3LM，并额外在 MDLM 与 SEDD 上做跨骨干验证。对照系统包括 baseline、structured commitment only、structured exposure only、tokenwise early、budget-matched tokenwise 和 NDGC，多数结果报告为两 seed 均值；NDGC 默认使用 B_max=16，并对 B_max=8/32 做敏感性分析。自然语言补充验证使用 WritingPrompts，在同一 BD3LM 设置下比较 bad output、Rep-4gram 和 RASC-best。

局限性

最强证据仍然来自 Synthetic-V4 这种人为构造的 topic skeleton 任务，评估依赖宏段切分和词表命中，容易高估连续 span 结构带来的收益；这类指标并不能直接证明真实语义规划能力。论文只给出两 seed 均值，且跨骨干增益在 SEDD 上较弱，说明方法的稳定性和普适性还不够强。WritingPrompts 只提供间接的健康与段落相似性信号，不能替代对真实长文规划的直接检验。