Arxiv Insights - Curated Research Intelligence

核心发现

纯图像、纯 caption 或直接把场景图喂给 VLM 的生成范式，都会在有效性和多样性上明显退化，核心问题不是“能不能生成句子”，而是能否稳定满足 3D 场景中的唯一性与区分性。
通过先在场景图上做约束采样，再交给 LLM 改写，ViGiL3D++ 在人工验证中获得更高有效率，并覆盖更多目标类型、关系类型、否定、方位、比较和多目标表达。
用 ViGiL3D++ 训练的 V3DM 在 ScanRefer、Multi3DRefer 和 ViGiL3D 等基准上整体优于或接近已有规模化数据训练的模型，说明数据质量和语言覆盖比单纯堆规模更关键；但增益主要体现在多样化和密集标注场景，非所有指标都压倒性领先。

实验规模

在 ScanNet、3RScan、MultiScan 上自动生成 1140 个场景的 10.5 万条描述，外加与 ScanRefer、Multi3DRefer 合并后的 20.6 万条版本；使用 GPT-4.1 作为 VLM/LLM，整条流水线约耗时 6 machine-days。有效性方面，对每类基线各抽样 50 条查询，ViGiL3D++ 与 3D-GRAND 另做 200 条人工验证；多样性方面各抽样 1000 条查询进行语言统计。下游模型方面，以 3D-VisTA 风格的 V3DM 为骨干，结合 GT/Mask3D 提案，在 ScanRefer、Multi3DRefer、ViGiL3D 上与 ZSVG3D、3D-VisTA、3D-GRAND、GPS 等对比，并做了 dense alignment、anchor loss、通用对象特征等消融。

局限性

论文的主要瓶颈在于它依赖高质量场景图，而场景图本身又受到点云重建、VLM 属性识别和几何关系阈值的误差影响，因此“生成更好数据”并不能脱离上游噪声。有效性验证主要依赖有限规模的人审和主观多样性指标，虽然结果方向一致，但还不足以证明生成分布在更广泛场景上的普适优势。另外，训练收益有一部分来自更密集的标注和额外的辅助损失，难以完全分离是数据质量提升还是监督形式改变带来的效果；与强 VLM 的对比也显示，开放模型在遵循复杂提示时仍明显落后，说明方法更像是工程上可用的规模化管线，而不是解决 3DVG 生成难题的根本范式。