【Text2SQL 论文】How to prompt LLMs for Text2SQL

论文：How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings

⭐⭐⭐⭐

arXiv:2305.11853, NeurlPS 2023

Code: GitHub

一、论文速读

本文主要是在三种常见的 Text2SQL ICL settings 评估不同的 prompt construction strategies。

二、Text2SQL ICL settings

论文在下面三种 Text2SQL settings 下来做的评估：

Zero-shot Text2SQL：输入一个 task instruction、一个 test question 以及相应的 DB，在没有任何 demonstrations 情况下让 LLM 直接推理出 SQL
Single-domain Few-shot Text2SQL：ICL 的 demonstrations 是构造自与 test question 相同的 database。这个 setting 的目标是评估 LLM 在最小的域内训练数据下执行 Text2SQL 的能力。
Cross-domain Few-shot Text2SQL：ICL 的 demonstrations 是构造自与 test question 的不同的 database 中。这个 setting 的目标是评估 LLM 通过 out-of-domain demonstrations 中来学习的泛化能力。

三、Prompt Construction

论文在每个 Text2SQL setting 中测试了不同的 prompt construction 的效果。

一个 prompt 中包含 Database Prompt 和 Demonstration Prompt。

3.1 Database Prompt

一个关系型 DB 包含 database schema 和 database content：

database schema 由 table headers 和 tables 之间的 relationships 组成。
database content 指的是存储在 tables 中的 data

3.1.1 Database Schema 的 prompt 结构

下图展示了之前的研究中使用的 database schema 的各种 prompt 结构：

在这里插入图片描述

同时为了保证文本的一致性，论文对 db schema 和 SQL 做了规范化：将 SQL 中除了数据库内容之外的所有单词转换为小写，并统一文本中的空格和换行符。如下图就是规范化前后的示例：

在这里插入图片描述

3.1.2 Database Content 的 prompt 结构

之前的研究内容也表示，了解数据库的内容示例可以提高模型的性能。

下图展示了 Database Content 部分的 prompt style：

在这里插入图片描述

InsertRow：通过 INSERT INTO 语句显示每个 table 的几行数据
SelectRow：显示 SELECT * FROM T LIMIT X 的查询结果
SelectCol：按照列式的格式显示多行数据

本文提出使用 SELECT DISTINCT [Column] FROM [Table] LIMIT R 去列出 R 行数据，从而避免重复。

3.2 Demonstration Prompt

在 few-shots settings 中，demonstrations 被放入 prompt text 来输入给 LLM。

在 single-domain few-shot setting 中，这里融入了一些 question-SQL 的 pairs 作为 demonstrations。

在 cross-domain few-shot setting 中，以往的研究都是：

要么 N 个 examples 都来自于一个相同的 db
要么 N 个 examples 的每一个来自于不同的 db

本文考虑了更泛用的场景：N 个 examples 是由 M 个 db 组成，每个 db 由 K 个 question-SQL pairs，由此 $\times K = N$ 。

四、实验

本文在 Spider 数据集的 dev split 上实验，采用执行精度（EX）来评估 predicted SQL 和 gold SQL。

这里论文指出，在选择 few-shots 的 demonstrations 时，由于少数 db 包含长模式，这有可能导致 prompt token 数量超过 LLM 限制，所以在构造 CreateTable prompt 时，这里只使用 token 少于 1000 的 db。

具体的实验细节可以参考原论文。

五、实验结果

这一章介绍了在 zero-shot、single-domain 和 cross-domain 的三种 settings 下 Text2SQL 的经验发现。

5.1 zero-shot 的 Text2SQL

zero-shot setting 中重点关注于比较不同的 database prompt construction。下图展示了多种 database prompt 的 Codex 和 ChatGPT 的表现：

在这里插入图片描述

实验发现：

规范化后的 db schema 和 SQL 可以有更好的表现
db table 的 relationship 和 content 是很重要的，有效地提高了 LLM 的表现
Codex 在 zero-shot Text2SQL 任务上始终优于 ChatGPT

基于以上发现，论文建议将 Codex 与规范化后的 CreateTable-SelectCol prompt construction 结合起来使用，来实现 zero-shot 的 Text2SQL。

5.2 single-domain 的 Text2SQL

下图展示了在 Codex 和 ChatGPT 上做 single-domain Text2SQL 任务时，不同的 in-domain examples 的执行精确度的实验结果：

在这里插入图片描述

得出以下结论：

in-domain 的 demonstrations 能有效提升 LLM 的表现，并随着示例数量的提高，LLM 的效果也在逐渐变好
LLM 能够从 in-domain demonstrations 中快速学习到 table relationship，但难以从中学习到 table content 的知识，因此 table content 的 prompt 是重要的

5.3 cross-domain 的 Text2SQL

ICL 的 demonstrations 中使用了 M 的 demonstration databases，每一个包含 K 个 NLQ-SQL pairs。

下面这个热力图展示了 M 和 K 的个数对精确度的影响（横轴是 M，纵轴是 K，颜色越深，精确度越高）：

在这里插入图片描述

这里对实验的分析可以参考原论文。

总之，out-of-domain 的 demonstrations 增强了 LLM 在 Text2SQL 中的能力，但这些示例并没有提供特定于 DB 的知识，因此，仔细构建 Database Prompt 仍然至关重要，这也与在 zero-shot setting 中所做的观察是一致的。

六、总结

整的来说，论文在三种 Text2SQL ICL settings 中比较了各种 prompt constructions 的效果，为未来的研究提供了指导。

【Text2SQL 论文】How to prompt LLMs for Text2SQL

一、论文速读

二、Text2SQL ICL settings

三、Prompt Construction

3.1 Database Prompt

3.1.1 Database Schema 的 prompt 结构

3.1.2 Database Content 的 prompt 结构

3.2 Demonstration Prompt

四、实验

五、实验结果

5.1 zero-shot 的 Text2SQL

5.2 single-domain 的 Text2SQL

5.3 cross-domain 的 Text2SQL

六、总结

最新新闻

热搜词