自然语言处理★ 评分 5.4

TACO: Task-Aware Column Description Generation Using LLMs

Ting Cai, Rakesh R. Menon, Yiru Chen, Zifan Liu, Yuan Tian, Fei Wu, Anudeep Chimakurthi, Prashanthi Ramamurthy, Sunav Choudhary, Kun Qian, Yunyao Li
2026年6月25日
关键词
列描述生成缩写展开任务感知修订语义检索表结构理解

核心发现

  1. TACO不是单次提示直出,而是先做数据集级缩写展开,再基于表上下文生成结构化描述,最后用模拟检索失败反向修订描述,逻辑上直接对应三类失败模式:歧义、幻觉和过于泛化。
  2. 在多个公共与企业数据集上,TACO相对SSCD和S2-only在Hit@K上总体更优,尤其在缩写密集、列名晦涩的数据集上收益更明显,说明“先统一命名再生成描述”确实比纯提示词更稳。
  3. 论文的强证据主要来自向量检索命中率,而不是完整下游任务,因此它更有力地证明了“提升 schema grounding 的可检索性”,还不足以证明对 NL2SQL 或实体链接端到端性能具有同等幅度的普适提升。

实验规模

在公共 SNAILS 相关基准 ASIS、ATBI、CWO、KIS、NPFM、NTSB、NYSED、PILB、SBOD(含 9 个子数据集)以及 4 个企业数据集 Retail、Finance、Tech、Tech-H 上评测,覆盖从几十张表到 2,588 张表、从 71 列到 90,477 列、从 71 个查询到 90,477 个查询的规模。采用 GPT-4o 进行扩展与描述生成,gpt-4.1-mini 做模型敏感性测试,all-MiniLM-L12-v2 和 all-MiniLM-L6-v2 做向量嵌入检索;基线包括 Raw Schema、SSCD 和 S2-only,并额外做了消融、超参和人类反馈实验。

局限性

主要证据来自向量检索 Hit@K,论文并未充分证明这些描述能稳定迁移到真正的 NL2SQL、实体链接或人工检索场景。公共数据集的查询有一部分是 LLM 合成的,天然存在语义重叠和标签噪声问题;企业数据虽然规模更大,但可复现细节有限。基线对比也偏向提示词直出与简化版本,缺少更强的检索增强、结构化约束或端到端系统级对照。

Paper ID: 2606.21685