掌桥专利:专业的专利平台
掌桥专利
首页

对话数据样本增强方法及对话文本生成模型预训练方法和系统

文献发布时间:2024-04-18 19:58:53


对话数据样本增强方法及对话文本生成模型预训练方法和系统

技术领域

本发明涉及人工智能对话文本生成技术领域,特别涉及一种对话数据样本增强方法及对话文本生成模型预训练方法和系统,通过多视角对对话内容语句进行交叉轮换来增强对话数据样本,以实现对话文本生成模型的训练优化。

背景技术

随着互联网信息技术的高速发展,将人工智能应用到智能对话问答系统中,以使人机交互成为现实。随着深度学习在图像、语言处理等领域的应用,基于神经网络的语言模型迅速成为研究热点;最近几年,基于大规模语言模型的生成模型通过大规模的预训练获得领域知识,以生成高质量的文本,例如回答问题或复数内容等。对话问答生成模型是基于神经网络的机器翻译模型,其通过对对话历史数据和相关知识库进行建模,以生成新闻、日常对话、短信、邮件等具有新意的自然语言文本。例如,基于序列到序列的Seq2Seq模型,将输入序列转换成输出序列,以能够生成任意长度、复杂度的文本。在实际应用过程中,基于对话文本生成模型的对话准确率要受模型训练效果的影响。良好的智能对话问答系统离不开外部知识的辅助,但是对标准知识的标注和收集不易,同时以往的数据增强方法,如字符级的删除、交换和插入,单词级的噪声添加和嵌入替代,短语句子级的裁剪和文档级的反向翻译等,由于缺乏对对话外部知识的考虑,不能很好地适应知识对话数据,进而影响模型训练中增强样本的质量。

发明内容

为此,本发明提供一种基于多视角语句交叉轮换的对话数据样本增强方法及对话文本生成模型预训练方法和系统,有效解决现有数据增强方法因缺乏外部知识考量进而影响增强后样本质量的情形,通过加强对已有知识对话数据的利用、在不增加数据标注成本的情况下实现样本数据增强,提升模型训练效果。

按照本发明所提供的设计方案,一方面,提供一种基于多视角语句交叉轮换的对话数据样本增强方法,包含如下内容:

收集对话样本数据并组成样本数据集,从样本数据集中选取单轮对话,所述单轮对话包括对话内容、对话响应及对话最佳知识,其中,对话最佳知识为单轮对话主题相关程度最佳且辅助生成对话响应的外部知识;

基于交叉轮换对单轮对话中的对话内容、对话响应及对话最佳知识进行交换,以生成新的扩展单轮对话;

将原单轮对话和新的扩展单轮对话进行拼接,以获取数据增强后的对话样本数据集。

进一步地,收集对话样本并组成样本数据集,包括:

首先,依据对话内容从外部知识集合中选择黄金知识作为对话最佳知识;

接着,将对话内容和对应的对话最佳知识作为模型输入,利用预训练的知识感知生成式对话模型生成对话响应;

然后,将对话内容、对话响应及对话最佳知识进行组合,以获取对话样本数据。

进一步地,依据对话内容从外部知识集合中选择黄金知识作为对话最佳知识,包括:

首先,利用预训练的语言模型分别将对话内容及外部知识集合的文本编码为对应的文本嵌入式表示向量;

然后,基于文本嵌入式表示向量获取对话内容对应的外部知识条件概率分布,并通过最大化后验概率来选取对话内容对应的黄金知识。

进一步地,基于交叉轮换对单轮对话中的对话内容、对话响应及对话最佳知识进行交换,以生成新的扩展单轮对话,包括:

基于交叉轮换操作,生成新的单轮对话,其中,交叉轮换操作包含:对话内容和对话响应之间的对话交叉轮换,和/或对话最佳知识与对话内容及对话响应之间的知识交叉轮换。

进一步地,对话交叉轮换包括:对单轮对话中的对话内容和对话响应进行交换,以将原对话响应作为新的对话内容并将原对话内容作为新的对话响应。

进一步地,知识交叉轮换包括:对单轮对话中的对话内容和对话最佳知识进行前向交换,以将原对话内容作为新的对话最佳知识并将原对话最佳知识作为新的对话内容;和/或,对单轮对话中的对话响应和对话最佳知识进行后向交换,以将原对话响应作为新的对话最佳知识并将原对话最佳知识作为新的对话响应。

又一方面,结合以上的基于多视角语句交叉轮换的对话数据样本增强方法,本发明还提供一种对话文本生成模型预训练方法,包括:

利用上述的对话数据样本增强方法获取模型训练数据样本;

利用模型训练数据样本对对话文本生成模型进行训练优化,以获取用于对话问答系统的目标对话文本生成模型。

再一方面,结合以上的基于多视角语句交叉轮换的对话数据样本增强方法,本发明还提供一种对话文本生成模型预训练系统,包含:数据收集模块和模型训练模块,其中,

数据收集模块,用于利用上述的对话数据样本增强方法获取模型训练数据样本;

模型训练模块,用于利用模型训练数据样本对对话文本生成模型进行训练优化,以获取用于对话问答系统的目标对话文本生成模型。

本发明的有益效果:

本发明加强对已有知识对话数据的利用,通过对不同语句中对话内容、对话响应及对话最佳知识进行交叉轮换操作来增强样本数据,在不增加数据标注成本的情况下,用简单的方法实现数据增强,提升模型性能,使模型在训练过程中获得不同视角下生成回复的能力。为了符合现实对话场景,通过选取良好的外部知识,使增强后的数据能让模型更好地学习对话数据中的内容,准确理解知识与对话内容之间的联系,提高模型中知识选择模块的准确率,提升模型训练效果。

附图说明:

图1为实施例中基于多视角语句交叉轮换的对话数据样本增强流程示意;

图2为实施例中知识感知对话生成模型原理示意;

图3为实施例中语句交叉轮换流程示意;

图4为实施例中语句交叉轮换示例。

具体实施方式:

为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。

针对背景技术中所描述的现有对话样本数据增强方法不能很好适应知识对话数据、影响语音识别模型训练效果的情形,本发明实施例中,参见图1所示,提供一种基于多视角语句交叉轮换的对话数据样本增强方法,包含如下内容:

S101、收集对话样本数据并组成样本数据集,从样本数据集中选取单轮对话,所述单轮对话包括对话内容、对话响应及对话最佳知识,其中,对话最佳知识为单轮对话主题相关程度最佳且辅助生成对话响应的外部知识。

具体地,收集对话样本并组成样本数据集,可设计为包括如下内容:

首先,依据对话内容从外部知识集合中选择黄金知识作为对话最佳知识;

接着,将对话内容和对应的对话最佳知识作为模型输入,利用预训练的知识感知生成式对话模型生成对话响应;

然后,将对话内容、对话响应及对话最佳知识进行组合,以获取对话样本数据。

其中,依据对话内容从外部知识集合中选择黄金知识作为对话最佳知识,可包括:

首先,利用预训练的语言模型分别将对话内容及外部知识集合的文本编码为对应的文本嵌入式表示向量;

然后,基于文本嵌入式表示向量获取对话内容对应的外部知识条件概率分布,并通过最大化后验概率来选取对话内容对应的黄金知识。

如图2所示,知识感知生成式对话模型的输入包含对话内容和外部知识。在模型生成回答时,外部知识表示会辅助上下文表示共同生成响应。在实际对话中,无法直接获得黄金知识,需要在获得的外部知识集合去选择当前最佳的黄金知识。因此,在知识感知生成式对话模型中加入知识选择模块的训练,即图2中黄色虚线模块,通过这个模块来锻炼模型选择知识的能力。一般情况下,外部知识包含结构化的知识图谱和非结构话的文档。对于知识图谱,知识选择模块旨在选择最佳的三元组,而对于非结构化文档,则需要选择能支撑对话生成的最佳文本信息。本案实施例中,可将外部知识设置为非结构化的文档,即该外部知识包含多条与对话主题相关程度较高的文本。

在具体任务中,给定输入语句X=(x

k~P(k=k

y~P(y|x,k

S102、基于交叉轮换对单轮对话中的对话内容、对话响应及对话最佳知识进行交换,以生成新的扩展单轮对话。

具体地,基于交叉轮换对单轮对话中的对话内容、对话响应及对话最佳知识进行交换,以生成新的扩展单轮对话,可设计为包括如下内容:

基于交叉轮换操作,生成新的单轮对话,其中,交叉轮换操作包含:对话内容和对话响应之间的对话交叉轮换,和/或对话最佳知识与对话内容及对话响应之间的知识交叉轮换。

其中,对话交叉轮换可包括:对单轮对话中的对话内容和对话响应进行交换,以将原对话响应作为新的对话内容并将原对话内容作为新的对话响应。知识交叉轮换可包括:对单轮对话中的对话内容和对话最佳知识进行前向交换,以将原对话内容作为新的对话最佳知识并将原对话最佳知识作为新的对话内容;和/或,对单轮对话中的对话响应和对话最佳知识进行后向交换,以将原对话响应作为新的对话最佳知识并将原对话最佳知识作为新的对话响应。

如图3所示的对原始数据集进行三种轮换操作,即对话内容交叉轮换和知识交叉轮换,其中,知识轮换中又分为前向知识交叉轮换和后向知识交叉轮换。将通过轮换操作新增的数据加入原始数据集扩充为新的数据集。具体的数据扩充示例如图4所示,取原始数据集中一个单轮对话内容dialogA(Src,Gold K,Tgt),进行图3中①、②、③所示操作:对话内容交叉轮换,即对话输入Src与输出Tgt交换;前向知识交叉轮换,即输入Src和最佳知识Gold K交换;以及后向知识交叉轮换,即输出Tgt与最佳知识Gold K的交换,以获取扩展的新对话数据。

S103、将原单轮对话和新的扩展单轮对话进行拼接,以获取数据增强后的对话样本数据集。

如图3和4所示,基于原始对话dialogA扩展新增了三个新的对话数据,即dialogA1、dialogA2和dialogA3,基于原始对话和扩展新增的对话数据进行数据增强,即新的增强后的样本数据集包括四种不同的组合,即[(Src,Gold K,Tgt),(Tgt,Gold K,Src),(Gold K,Src,Tgt),(Src,Tgt,Gold K)],且样本数据集中每个对话组合均与已有知识相关联,使得增强后的数据样本能很好地适应智能知识对话,以使模型更好地学习对话数据中的内容,较准确地理解知识与对话内容之间的联系。

进一步地,基于以上的基于多视角语句交叉轮换的对话数据样本增强方法,本发明实施例还提供一种对话文本生成模型预训练方法,包括:

利用上述的对话数据样本增强方法获取模型训练数据样本;

利用模型训练数据样本对对话文本生成模型进行训练优化,以获取用于对话问答系统的目标对话文本生成模型。

进一步地,结合以上的基于多视角语句交叉轮换的对话数据样本增强方法,本发明实施例还提供一种对话文本生成模型预训练系统,包含:数据收集模块和模型训练模块,其中,

数据收集模块,用于利用上述的对话数据样本增强方法获取模型训练数据样本;

模型训练模块,用于利用模型训练数据样本对对话文本生成模型进行训练优化,以获取用于对话问答系统的目标对话文本生成模型。

为验证本案方案有效性,下面结合理论分析和实验数据做进一步解释说明:

1、理论分析:原始数据下知识的条件分布如式(1)所示,代表着模型在已知输入语句的条件下,利用最大化后验概率准则找到最佳知识。基于模型所选的最佳知识和输入语句,以式(2)为目标函数进行训练优化,模型可以生成回复。

而在经过语句交叉轮换操作后,模型的知识选择模块则相当于增加了三类任务:给定最佳知识,从混入输入语句的候选知识中找出该输入语句;给定输出语句,从候选知识中找出最佳知识;以及给定最佳知识,从混入输出语句的候选知识中找出该输出语句。它们的条件分布分别如下式(4)(5)(6)所示。

k~P(k=x|k

k~P(k=y

k~P(k=y|x) (6)

基于式(4)(5)(6)所描述知识分布,模型选择需要的知识,之后获得相对应生成语句的概率分布,其损失函数如式(7)(8)(9)所示。

通过对对话内容和最佳知识的交换,从知识的选择过程开始,就进一步加强了对对源语句、目标语句和最佳知识三者之间内在信息联系的理解。由于知识为对话生成响应提供了帮助,其与对话主题有着极高的关联度,在众多候选知识中,概率最大的应当是黄金知识或者是轮换后的输入或者输出语句,提升增强后模型训练样本质量,便于模型更好地理解知识与对话之间的联系,以提升模型训练效果。

2、实验分析,使用Wizard-of-Wikipedia和Holl-E作为实验中数据增强的实验数据集。按照原始数据集训练/验证/测试集划分进行训练和测试,内容上进行了过滤和微调。将原始数据集处理为单轮对话、多轮对话两种形式。同时实验中需要用到对话内容、对话候选知识和最佳知识,可删除其中没有使用知识的对话。

基于现有的后验指导的知识选择POSTKS,编码器和解码器可设计为均有两层GRU结构,每层有800个隐藏状态,不共享任何参数。将单词嵌入大小设置为300,并使用GloVe对其进行初始化。词表大小为20000个单词。使用Adam优化器,Batch大小为64,dropout为0.3,学习率为0.0005,数据规模系数α为1.0,增强数据比例β为1.0。在A5000机器上训练了10个epoch的模型。在训练过程中,每个epoch之后,保存一个模型,并以总损失为选择标准,选择当前epoch中具有最小损失的模型进行评估。

结合本案实施例的具体方案,实验中数据增强算法MSCR可设计为包含如下步骤:

步骤1:数据集规范化,按照源对话语句、知识、目标对话语句以及知识标签的字典形式形成json文件。

步骤2:读取文件中数据。

步骤3:开始循环,每次循环针对一个对话数据dialogA(Src,Gold K,Tgt)。

步骤4:对话内容交叉轮换,即对话输入Src与输出Tgt交换,获得新增数据dialogA1(Tgt,Gold K,Src)。

步骤5:前向知识交叉轮换,即输入Src和最佳知识Gold K交换,获得新增数据dialogA2(Gold K,Src,Tgt)。

步骤6:后向知识交叉轮换,即输出Tgt与最佳知识Gold K的交换,获得新增数据dialogA3(Src,Tgt,Gold K)。

步骤7:储存新数据集。

对比现有RAW方法、BT方法及含SR、RS、RI和RD的EDA数据增强方法,实验结果如表1所示。

表1不同数据增强方法下性能

MSCR在ACC、BLEU1/2/3/4、DIST1/2、K-P/R/F1以及PPL指标上均取得了最优结果,EDA方法下四个策略整体表现为次优水平,而BT对模型性能并没有提升效果,实验结果显示对比其他数据增强方法,本案数据增强方案在生成准确率ACC、单词覆盖BLEU-1/2/3率、多样性DIST-1/2、知识选择K-P/R/F

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 一种利用卷积对话生成模型解决对话生成任务的方法
  • 对话生成模型训练方法和装置、对话生成方法、电子设备
  • 对话生成模型的训练方法和装置、对话生成方法和装置
技术分类

06120116511233