越来越多的工作证明了预训练言语模型(PLM)中蕴含着丰富的知识,针对不同的工作,用合适的训练方式来撬动 PLM,能更好地提升模型的能力。在 Text-to-SQL 工作中,目前主流的天生器是鉴于语法树的,需要针对 SQL 语法举行计划。
近期,网易互娱 AI Lab 联合广东外语外贸大学和哥伦比亚大学鉴于预训练言语模型 T5 的预训练方式,提出了两阶段的多工作预训练模型 MIGA。MIGA 在预训练阶段引入三个辅助工作,并将他们组织成统一的天生工作范式,可以将所有的 Text-to-SQL 数据集统一举行训练;同时在微调阶段,MIGA 针对多轮对话中的失误传播问题举行 SQL 扰动,提升了模型天生的鲁棒性。
目前对于 Text-to-SQL 的研讨,主流的方法主要是鉴于 SQL 语法树的 encoder-decoder 模型,可以确保天生的结果一定符合 SQL 语法,但是需要针对 SQL 语法举行特殊计划。最近也有一些关于 Text-to-SQL 的研讨是鉴于天生式言语模型,可以很方便地继承预训练言语模型的知识和能力。
为了降低对鉴于语法树的依赖,更好地挖掘预训练言语模型的能力,该研讨在预训练 T5 模型的框架下,提出了一个两阶段的多工作 Text-to-SQL 预训练模型 MIGA (MultI-task Generation frAmework)。
MIGA 分为两阶段的训练过程:
在预训练阶段,MIGA 使用与 T5 相同的预训练范式,额外提出了三个与 Text-to-SQL 相关的辅助工作,从而更好地激发预训练言语模型中的知识。该训练方式可以将所有的 Text-to-SQL 的数据集举行统一,扩充了训练数据的规模;而且也可以灵活地去计划更多有效的辅助工作,进一步发掘预训练言语模型的潜在知识。
在微调阶段,MIGA 针对多轮对话和 SQL 中容易存在的失误传播问题,在训练过程中对历史 SQL 举行扰动,使得天生当前轮次的 SQL 效果更加稳定。
MIGA 模型在两个多轮对话 Text-to-SQL 公开数据集上表现优于目前最好的鉴于语法树的模型,相关研讨已经被 AAAI 2023 录用。
论文地址:https://arxiv.org/abs/2212.09278
MIGA 模型细节
图 1 MIGA 模型图。
多工作预训练阶段
该研讨主要参考 T5 的预训练方式,鉴于已经训练好的 T5 模型,计划了四个预训练工作:
Text-to-SQL 主工作:上图中的黄色部分,通过计划 Prompt 为”translate dialogue to system query”,然后以一些 special tokens 来将历史对话、数据库信息和 SQL 语句拼接输入到 T5-encoder 中,让 decoder 直接输入对应的 SQL 语句;
相关信息预计:上图中的绿色部分,计划 Prompt 为”translate dialogue to relevant column”,T5-encoder 的输入也是与主工作一致,decoder 则需要输入与当前问题相关的数据表和列,目的是加强模型对 Text-to-SQL 的理解;
当前轮次的操作预计:上图中的灰色部分,计划 Prompt 为”translate dialogue to turn switch”,这个工作主要是针对多轮对话中的上下文理解举行计划,对比上一轮的对话和 SQL,decoder 需要输入当前对话的目的做了哪些变化,比如图中例子是 where 条件举行了改动;
最终对话预计:上图中的蓝色部分,计划 Prompt 为”translate dialogue to final utterance”,目的是为了让模型去更好的理解上下文对话,需要 decoder 输入整个多轮对话下来,最后时刻的 SQL 对应的一句完整问题描述。
通过这样的一个统一的训练方式计划,MIGA 可以通用而又灵活地去处理更多与工作相关的额外工作,而且还有一下优点:
参考人类编写 SQL 的步骤,对话文本到 SQL 工作被分解为多个子工作,允许主工作从中学习;
训练样本的构造格式与 T5 一致,可以最大限度地发挥预训练 T5 模型对目标工作的潜力;
统一的框架允许多个辅助工作的灵活调度。当应用于特定工作时,仅需在特定工作的标记数据中使用相同的训练目标对上面的预训练模型举行微调即可。
在预训练阶段,该研讨整合了 Text-to-SQL 数据集 Spider 和对话 Text-to-SQL 数据集 SparC 和 CoSQL 的数据来训练 T5 模型。
微调阶段
在预训练阶段之后,该研讨针对目标工作的标注数据,单纯使用 Text-to-SQL 工作来进一步微调模型。该研讨在预计当前轮次的 SQL 时,会拼接之前轮次的预计 SQL,在此过程中,为了尽量克服多轮对话和天生中所带来的失误传播问题,该研讨提出了 SQL 扰动的方案,对输入数据中的历史轮次 SQL,以 α 概率来举行扰动。SQL 语句的扰动主要以 β 的概率采样相应的 token,然后举行以下其一的扰动:
用相同数据表中的列,来随机修改或者新增 SELECT 部分中的列;
随机修改 JOIN 条件中的结构,比如交换两个表的位置;
修改”*” 所有列为一些其他的列;
交换”asc” 和”desc”。
上述的扰动是该研讨在实验中统计发现最常见的一些失误传播导致的 SQL 天生失误情况,因此针对这些情况来举行扰动,降低模型关于这方面的依赖。
实验评估
评估数据集为多轮对话 Text-to-SQL:SparC 和 CoSQL。
评估指标为:
QM:Question Match,表示单轮问题中的天生的 SQL 与标注输入完全匹配的比例;
IM:Interaction Match,表示多轮对话中整个完整轮次所有天生的 SQL 与标注输入完全匹配的比例。
在表 1 的对比实验中,MIGA 在两个数据集上的 IM 分数,以及 CoSQL 的 QM 分数上,超过了目前最好的多轮对话 Text-to-SQL 模型。而且对比同类型的鉴于 T5 的方案,MIGA 分别在 IM 上提升了 7.0% 和 QM 上提升了 5.8%。
表 1 对比实验分析,第一部分为树模型,第二部分为鉴于预训练天生模型。
在表 2 的消融实验中,该研讨对 MIGA 的两阶段训练过程中的几个工作举行了探索,同时证明了这些工作分别都会对目标工作有不同程度的提升。
表 2 针对 SparC 工作,分别去除各项工作或数据,在指标上都有所降低。
在实际的案例分析结果,MIGA 在天生的稳定性和正确性,对比鉴于 T5-3B 训练模型更好,可以看到 MIGA 在多表连接操作和列和表格的映射上要优于其他模型。在 Case#1 的 Question#2 中,T5-3B 模型不能为相对复杂的 JOIN 结构(两表连接)天生有效的 SQL,进而导致 Question#3 中更复杂的 JOIN 结构(三表连接)也预计失误。而 MIGA 准确地预计了 JOIN 结构,并较好地维持了之前的条件 t1.sex="f"。在 Case#2 中,T5- 3B 混淆了不同表中的多个列,并将 earnings 误认为是 people 表的列,而 MIGA 可以正确识别该列属于 poker_player 表,并将其链接至 t1。
表 3 案例分析。
结语
网易互娱 AI Lab 针对 Text-to-SQL 提出了一个鉴于 T5 的两阶段的多工作预训练模型:MIGA。在预训练阶段,MIGA 将 Text-to-SQL 工作分解出了额外三个子工作,并将其统一为序列到序列的天生范式,从而更好地激发预训练 T5 模型。并且在微调阶段引入了 SQL 扰动机制,降低多轮 Text-to-SQL 天生场景下的失误传播带来的影响。
未来,研讨团队会进一步探索更多有效的策略来撬动超大言语模型的能力,并且探索更优雅更有效的方式来进一步克服因为失误传播而导致的效果降低问题。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/23747