Arxiv Insights - Curated Research Intelligence

核心发现

TACO不是单次提示直出，而是先做数据集级缩写展开，再基于表上下文生成结构化描述，最后用模拟检索失败反向修订描述，逻辑上直接对应三类失败模式：歧义、幻觉和过于泛化。
在多个公共与企业数据集上，TACO相对SSCD和S2-only在Hit@K上总体更优，尤其在缩写密集、列名晦涩的数据集上收益更明显，说明“先统一命名再生成描述”确实比纯提示词更稳。
论文的强证据主要来自向量检索命中率，而不是完整下游任务，因此它更有力地证明了“提升 schema grounding 的可检索性”，还不足以证明对 NL2SQL 或实体链接端到端性能具有同等幅度的普适提升。

实验规模

在公共 SNAILS 相关基准 ASIS、ATBI、CWO、KIS、NPFM、NTSB、NYSED、PILB、SBOD（含 9 个子数据集）以及 4 个企业数据集 Retail、Finance、Tech、Tech-H 上评测，覆盖从几十张表到 2,588 张表、从 71 列到 90,477 列、从 71 个查询到 90,477 个查询的规模。采用 GPT-4o 进行扩展与描述生成，gpt-4.1-mini 做模型敏感性测试，all-MiniLM-L12-v2 和 all-MiniLM-L6-v2 做向量嵌入检索；基线包括 Raw Schema、SSCD 和 S2-only，并额外做了消融、超参和人类反馈实验。

局限性

主要证据来自向量检索 Hit@K，论文并未充分证明这些描述能稳定迁移到真正的 NL2SQL、实体链接或人工检索场景。公共数据集的查询有一部分是 LLM 合成的，天然存在语义重叠和标签噪声问题；企业数据虽然规模更大，但可复现细节有限。基线对比也偏向提示词直出与简化版本，缺少更强的检索增强、结构化约束或端到端系统级对照。