自然语言处理★ 评分 6.6

Scaling Diverse Language Generation for 3D Visual Grounding

Austin T. Wang, Dongchen Yang, Angel X. Chang
2026年6月25日
关键词
3D视觉 grounding场景图约束采样语言多样性3D数据集生成

核心发现

  1. 纯图像、纯 caption 或直接把场景图喂给 VLM 的生成范式,都会在有效性和多样性上明显退化,核心问题不是“能不能生成句子”,而是能否稳定满足 3D 场景中的唯一性与区分性。
  2. 通过先在场景图上做约束采样,再交给 LLM 改写,ViGiL3D++ 在人工验证中获得更高有效率,并覆盖更多目标类型、关系类型、否定、方位、比较和多目标表达。
  3. 用 ViGiL3D++ 训练的 V3DM 在 ScanRefer、Multi3DRefer 和 ViGiL3D 等基准上整体优于或接近已有规模化数据训练的模型,说明数据质量和语言覆盖比单纯堆规模更关键;但增益主要体现在多样化和密集标注场景,非所有指标都压倒性领先。

实验规模

在 ScanNet、3RScan、MultiScan 上自动生成 1140 个场景的 10.5 万条描述,外加与 ScanRefer、Multi3DRefer 合并后的 20.6 万条版本;使用 GPT-4.1 作为 VLM/LLM,整条流水线约耗时 6 machine-days。有效性方面,对每类基线各抽样 50 条查询,ViGiL3D++ 与 3D-GRAND 另做 200 条人工验证;多样性方面各抽样 1000 条查询进行语言统计。下游模型方面,以 3D-VisTA 风格的 V3DM 为骨干,结合 GT/Mask3D 提案,在 ScanRefer、Multi3DRefer、ViGiL3D 上与 ZSVG3D、3D-VisTA、3D-GRAND、GPS 等对比,并做了 dense alignment、anchor loss、通用对象特征等消融。

局限性

论文的主要瓶颈在于它依赖高质量场景图,而场景图本身又受到点云重建、VLM 属性识别和几何关系阈值的误差影响,因此“生成更好数据”并不能脱离上游噪声。有效性验证主要依赖有限规模的人审和主观多样性指标,虽然结果方向一致,但还不足以证明生成分布在更广泛场景上的普适优势。 另外,训练收益有一部分来自更密集的标注和额外的辅助损失,难以完全分离是数据质量提升还是监督形式改变带来的效果;与强 VLM 的对比也显示,开放模型在遵循复杂提示时仍明显落后,说明方法更像是工程上可用的规模化管线,而不是解决 3DVG 生成难题的根本范式。

Paper ID: 2606.20946