针对少样本文本转SQL任务流的半监督持续学习方法

文献发布时间：2023-06-19 19:30:30

技术领域

本发明属于自然语言处理领域，涉及一种针对少样本文本转SQL任务流的半监督持续学习方法。

背景技术

电力关系型数据库存储了当今大量的信息，为客户关系管理、金融市场和医疗记录等应用提供了基础。文本转SQL技术训练了一个解析器，将自然语言问题翻译成机器可读的SQL程序，为非技术用户提供了一种理想的方式，使他们能够轻松地与存储在关系型数据库中的数据进行交互。目前关于文本转SQL的研究已经涵盖了单表、多表和对话场景，共同的假设是训练和测试数据的大小不会随时间变化。不幸的是，在现实世界的应用中，新的数据库总是在不断出现，以适应不断变化的环境(如新的疾病与调整后的金融政策)，从而不断为解析器产生新的任务。尽管基于机器学习的文本转SQL方法已经取得了最先进的性能，但在面对快速增长的任务时，它们遭受了以下两个挑战：

1)少样本的监督数据。对于一个新的针对未见过的数据库的文本到SQL的任务，在短时间内注释足够的SQL标签进行训练往往是不切实际的，导致解析器容易过拟合。2)昂贵的全量再训练。考虑到一个新的任务，一个直观的想法是在所有看到的任务上从头开始训练模型。不幸的是，由于预训练模型的巨大规模，即使在少样本场景下，这种重新训练的计算成本也是难以承受的。

基于此，本工作提出整合半监督学习(半监督学习)和持续学习(持续学习)来解决少样本文本转SQL任务流。解析器应用自我训练来预测伪标签实例，以提高对当前任务的概括性，同时重放存储在内存中的过去实例的一小部分，以减轻对以前任务的遗忘。在此过程中，半监督学习和持续学习可以相互促进。一方面，以前任务中的一些实例可以为半监督学习提供有价值的信息，以预测未标记的实例的伪标签。另一方面，高质量的伪标签实例也可以丰富过去任务的记忆。“教师-学生”框架被应用以分别应对半监督学习和持续学习过程。教师模型通过自我训练致力于实现每个单一任务的最优，而学生模型则通过重放学习由教师模型预测的所有任务的伪标签，以实现整个任务流的最优。为了利用持续学习和半监督学习的相互促进作用，当训练教师模型时，与当前任务相关的过去实例被用来提示半监督学习过程；当训练学生模型时，以前任务的有标签和无标签的实例都被采样，以保证重放的完整记忆。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供一种针对少样本文本转SQL任务流的半监督持续学习方法。

本发明采用如下的技术方案：一种针对少样本文本转SQL任务流的半监督持续学习方法，所述方法包括以下几个步骤：

步骤1，对于新任务，模型使用任务内部的半监督学习进行训练，

对于任务流中的第i个新任务D

热启动：采用编码-解码架构的模型

其中

自我更新：随后，

其中，μ

步骤2，对于任务流中过去的任务，模型使用持续学习将保持对已经学过的任务的记忆。

当遇到新任务时，

记忆存储构建：作为准备，构建了一个固定大小的存储器M

重演损失计算：每当

在任务D

步骤3，利用“教师-学生”框架分别执行半监督学习过程与持续学习过程；

由于半监督学习致力于单个(当前)任务的优化，而持续学习更关注所有任务的整体性能，因此本方法提出使用“教师-学生”框架来分别执行这两个过程。模型由两个基本的文本转SQL模型组成，即用于半监督学习的教师

教师模型：

当训练收敛时，

学生模型：经过训练的

步骤4，利用双重采样加强执行半监督学习与持续学习，分别包括提示采样和复习采样，加强两个学习过程的相互促进；

提示采样：为了保证有学习D

采样过程主要包括以下两个阶段，首先，先从

其中，d

之后，使用K-means聚类算法将得到的s个样本划为N个簇。其中定义结构距离为d

复习采样：复习抽样除了对有标签样本集合A

本发明的有益效果在于，与现有技术相比，本发明：

1、提出了一个结合半监督学习和持续学习的解决方案，以解决少样本场景下的文本转SQL任务流的问题；

2、提出了“教师-学生”框架来隔离半监督学习和持续学习的不同优化目标，使得训练过程可以充分发挥半监督学习和持续学习各自的优势；

3、提出了双重采样策略来加强半监督学习和持续学习之间的联系，通过回顾不同的样本促进两种学习过程的效果。

附图说明

图1为半监督持续学习文本转SQL的整体流程

图2为本发明的文本转SQL模型示意图

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

实施例1：本发明的针对少样本文本转SQL任务流的半监督持续学习方法，整体流程如图1所示，

包括以下几个步骤：

步骤1，对于新任务，模型使用任务内部的半监督学习进行训练。