借助BERT完成Text-to-SQL任务

最新推荐文章于 2025-05-27 14:51:33 发布

原创最新推荐文章于 2025-05-27 14:51:33 发布 · 3.9k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #自动驾驶 #神经网络 #数据挖掘 #机器学习

NLP的知识库专栏收录该内容

33 篇文章

订阅专栏

本文介绍如何使用BERT和Pointer-networks完成Text-to-SQL任务，通过改进的编码器提升SQL生成的准确性。文章详细阐述了前人的做法及当前模型的结构，并讨论了BERT在处理SQL特有词汇时遇到的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

借助BERT完成Text-to-SQL任务的encoder

已经完成了BERT的环境安装，下面想借助BERT和Pointer-networks来验证BERT的作用和效果。

前人做法

在这里插入图片描述

BERT Encoder
作者认为Glove还有ELMo效果有限，采用BERT来做一个输入的编码。在这里，作者将BERT应用在question和对应table的col上。句子放在最前面，每个head都采用SEP作为间隔。
Pointer network decoder
完成Encoder以后，采用LSTM-Decoder.

a. where_value中只确定q的起始位置和终止位置，默认连续。
b. 对于有很多tok组成的column，用第一个tok的编码信息代替。

Our Encoder BERT Model

代码中有四种输入序列， question_seq, source_seq, type_seq, newtype_seq。
question_type
[u’what’, u’is’, u’the’, u’lowest’, u’viewers’, u’(’, u’m’, u’)’, u’when’, u’the’, u’share’, u’is’, u’more’, u’than’, u’13’, u’?’]
sourece_seq
[[’<\UNK>’], [’<\END>’], [‘WHERE’], [‘AND’], [‘EQL’], [‘GT’], [‘LT’], [’<\BEG>’], [‘None’], [‘max’], [‘min’], [‘count’], [‘sum’], [‘avg’], [‘SELECT’], [u’episode’], [u’air’, u’date’], [u’rating’], [u’share’], [u’18-49’, u’(’, u’rating/share’, u’)’], [u’viewers’, u’(’, u’m’, u’)’], [u’rank’, u’(’, u’timeslot’, u’)’], [u’rating’, u’||’, u’<\NUMBER>’], [u’share’, u’||’, u’<\NUMBER>’], [u’18-49’, u’(’, u’rating/share’, u’)’, u’||’, u’<\NUMBER>’], [u’viewers’, u’(’, u’m’, u’)’, u’||’, u’<\NUMBER>’], [u’rank’, u’(’, u’timeslot’, u’)’, u’||’, u’<\NUMBER>’]]
type_seq
[‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘SQL’, ‘column’, ‘column’, ‘column’, ‘column’, ‘column’, ‘column’, ‘column’, ‘cell’, ‘cell’, ‘cell’, ‘cell’, ‘cell’]
newtype_seq
[‘none’, ‘none’, ‘none’, ‘none’, ‘none’, ‘number’, ‘number’, ‘none’, ‘none’, ‘number’, ‘number’, ‘none’, ‘number’, ‘number’, ‘none’, u’text’, u’text’, u’number’, u’number’, u’number’, u’number’, u’number’, u’number’, u’number’, u’number’, u’number’, u’number’]
存在的问题
太多SQL特有的词汇（EQL, GT, LT）， BERT的vocab中不存在。会标为unk或者尝试进行分解为substring等等。