自然语言处理★ 评分 6.6
Scaling Diverse Language Generation for 3D Visual Grounding
Austin T. Wang, Dongchen Yang, Angel X. Chang
2026年6月25日
关键词
3D视觉 grounding场景图约束采样语言多样性3D数据集生成
核心发现
- 纯图像、纯 caption 或直接把场景图喂给 VLM 的生成范式,都会在有效性和多样性上明显退化,核心问题不是“能不能生成句子”,而是能否稳定满足 3D 场景中的唯一性与区分性。
- 通过先在场景图上做约束采样,再交给 LLM 改写,ViGiL3D++ 在人工验证中获得更高有效率,并覆盖更多目标类型、关系类型、否定、方位、比较和多目标表达。
- 用 ViGiL3D++ 训练的 V3DM 在 ScanRefer、Multi3DRefer 和 ViGiL3D 等基准上整体优于或接近已有规模化数据训练的模型,说明数据质量和语言覆盖比单纯堆规模更关键;但增益主要体现在多样化和密集标注场景,非所有指标都压倒性领先。
实验规模
在 ScanNet、3RScan、MultiScan 上自动生成 1140 个场景的 10.5 万条描述,外加与 ScanRefer、Multi3DRefer 合并后的 20.6 万条版本;使用 GPT-4.1 作为 VLM/LLM,整条流水线约耗时 6 machine-days。有效性方面,对每类基线各抽样 50 条查询,ViGiL3D++ 与 3D-GRAND 另做 200 条人工验证;多样性方面各抽样 1000 条查询进行语言统计。下游模型方面,以 3D-VisTA 风格的 V3DM 为骨干,结合 GT/Mask3D 提案,在 ScanRefer、Multi3DRefer、ViGiL3D 上与 ZSVG3D、3D-VisTA、3D-GRAND、GPS 等对比,并做了 dense alignment、anchor loss、通用对象特征等消融。
局限性
论文的主要瓶颈在于它依赖高质量场景图,而场景图本身又受到点云重建、VLM 属性识别和几何关系阈值的误差影响,因此“生成更好数据”并不能脱离上游噪声。有效性验证主要依赖有限规模的人审和主观多样性指标,虽然结果方向一致,但还不足以证明生成分布在更广泛场景上的普适优势。 另外,训练收益有一部分来自更密集的标注和额外的辅助损失,难以完全分离是数据质量提升还是监督形式改变带来的效果;与强 VLM 的对比也显示,开放模型在遵循复杂提示时仍明显落后,说明方法更像是工程上可用的规模化管线,而不是解决 3DVG 生成难题的根本范式。