掌桥专利:专业的专利平台
掌桥专利
首页

针对少样本文本转SQL任务流的半监督持续学习方法

文献发布时间:2023-06-19 19:30:30


针对少样本文本转SQL任务流的半监督持续学习方法

技术领域

本发明属于自然语言处理领域,涉及一种针对少样本文本转SQL任务流的半监督持续学习方法。

背景技术

电力关系型数据库存储了当今大量的信息,为客户关系管理、金融市场和医疗记录等应用提供了基础。文本转SQL技术训练了一个解析器,将自然语言问题翻译成机器可读的SQL程序,为非技术用户提供了一种理想的方式,使他们能够轻松地与存储在关系型数据库中的数据进行交互。目前关于文本转SQL的研究已经涵盖了单表、多表和对话场景,共同的假设是训练和测试数据的大小不会随时间变化。不幸的是,在现实世界的应用中,新的数据库总是在不断出现,以适应不断变化的环境(如新的疾病与调整后的金融政策),从而不断为解析器产生新的任务。尽管基于机器学习的文本转SQL方法已经取得了最先进的性能,但在面对快速增长的任务时,它们遭受了以下两个挑战:

1)少样本的监督数据。对于一个新的针对未见过的数据库的文本到SQL的任务,在短时间内注释足够的SQL标签进行训练往往是不切实际的,导致解析器容易过拟合。2)昂贵的全量再训练。考虑到一个新的任务,一个直观的想法是在所有看到的任务上从头开始训练模型。不幸的是,由于预训练模型的巨大规模,即使在少样本场景下,这种重新训练的计算成本也是难以承受的。

基于此,本工作提出整合半监督学习(半监督学习)和持续学习(持续学习)来解决少样本文本转SQL任务流。解析器应用自我训练来预测伪标签实例,以提高对当前任务的概括性,同时重放存储在内存中的过去实例的一小部分,以减轻对以前任务的遗忘。在此过程中,半监督学习和持续学习可以相互促进。一方面,以前任务中的一些实例可以为半监督学习提供有价值的信息,以预测未标记的实例的伪标签。另一方面,高质量的伪标签实例也可以丰富过去任务的记忆。“教师-学生”框架被应用以分别应对半监督学习和持续学习过程。教师模型通过自我训练致力于实现每个单一任务的最优,而学生模型则通过重放学习由教师模型预测的所有任务的伪标签,以实现整个任务流的最优。为了利用持续学习和半监督学习的相互促进作用,当训练教师模型时,与当前任务相关的过去实例被用来提示半监督学习过程;当训练学生模型时,以前任务的有标签和无标签的实例都被采样,以保证重放的完整记忆。

发明内容

为解决现有技术中存在的不足,本发明的目的在于,提供一种针对少样本文本转SQL任务流的半监督持续学习方法。

本发明采用如下的技术方案:一种针对少样本文本转SQL任务流的半监督持续学习方法,所述方法包括以下几个步骤:

步骤1,对于新任务,模型使用任务内部的半监督学习进行训练,

对于任务流中的第i个新任务D

热启动:采用编码-解码架构的模型

其中

自我更新:随后,

其中,μ

步骤2,对于任务流中过去的任务,模型使用持续学习将保持对已经学过的任务的记忆。

当遇到新任务时,

记忆存储构建:作为准备,构建了一个固定大小的存储器M

重演损失计算:每当

在任务D

步骤3,利用“教师-学生”框架分别执行半监督学习过程与持续学习过程;

由于半监督学习致力于单个(当前)任务的优化,而持续学习更关注所有任务的整体性能,因此本方法提出使用“教师-学生”框架来分别执行这两个过程。模型由两个基本的文本转SQL模型组成,即用于半监督学习的教师

教师模型:

当训练收敛时,

学生模型:经过训练的

步骤4,利用双重采样加强执行半监督学习与持续学习,分别包括提示采样和复习采样,加强两个学习过程的相互促进;

提示采样:为了保证有学习D

采样过程主要包括以下两个阶段,首先,先从

其中,d

之后,使用K-means聚类算法将得到的s个样本划为N个簇。其中定义结构距离为d

复习采样:复习抽样除了对有标签样本集合A

本发明的有益效果在于,与现有技术相比,本发明:

1、提出了一个结合半监督学习和持续学习的解决方案,以解决少样本场景下的文本转SQL任务流的问题;

2、提出了“教师-学生”框架来隔离半监督学习和持续学习的不同优化目标,使得训练过程可以充分发挥半监督学习和持续学习各自的优势;

3、提出了双重采样策略来加强半监督学习和持续学习之间的联系,通过回顾不同的样本促进两种学习过程的效果。

附图说明

图1为半监督持续学习文本转SQL的整体流程

图2为本发明的文本转SQL模型示意图

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。

实施例1:本发明的针对少样本文本转SQL任务流的半监督持续学习方法,整体流程如图1所示,

包括以下几个步骤:

步骤1,对于新任务,模型使用任务内部的半监督学习进行训练。

对于任务流中的第i个新任务D

热启动:采用编码-解码架构的模型

其中

自我更新:随后,

其中,μ

步骤2,对于任务流中过去的任务,模型使用持续学习将保持对已经学过的任务的记忆。

当遇到新任务时,

记忆存储构建:作为准备,构建了一个固定大小的存储器M

重演损失计算:每当

在任务D

步骤3,利用“教师-学生”框架分别执行半监督学习过程与持续学习过程;

由于半监督学习致力于单个(当前)任务的优化,而持续学习更关注所有任务的整体性能,因此本方法提出使用“教师-学生”框架来分别执行这两个过程。模型由两个基本的文本转SQL模型组成,即用于半监督学习的教师

教师模型:

当训练收敛时,

学生模型:经过训练的

步骤4,利用双重采样加强执行半监督学习与持续学习,分别包括提示采样和复习采样,加强两个学习过程的相互促进;

提示采样:为了保证有学习D

采样过程主要包括以下两个阶段,首先,先从

其中,d

之后,使用K-means聚类算法将得到的s个样本划为N个簇。其中定义结构距离为d

复习采样:复习抽样除了对有标签样本集合A

经过实验分析证明,本方法提出的少样本文本转SQL任务流的半监督持续学习方法,在样本量不足的情况下使用无监督数据补充监督信号,并针对任务流的特点采用重演策略回忆过去的样本。此外,该方法还是用了“教师-学生”框架分别处理持续学习和半监督学习过程,并利用双重采样使两个过程相互促进,实现了准确且高效的任务流训练方法。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

技术分类

06120115935807