掌桥专利:专业的专利平台
掌桥专利
首页

意图识别模型训练方法、意图识别方法和装置

文献发布时间:2024-04-18 19:56:02


意图识别模型训练方法、意图识别方法和装置

技术领域

本申请涉及人工智能技术领域,尤其涉及一种意图识别模型训练方法、意图识别方法和装置。

背景技术

意图识别作为人机对话系统中的关键任务,其目的是根据用户与系统交互的语句判断出用户的真实意图。随着人工智能技术的发展,意图识别已经被广泛地应用于生活的各个领域,如智能语音助理、智能客服等。

目前,在人机对话系统的开发初期,训练第一意图识别模型的样本数量是有限的。相关技术中的为了避免训练样本不足,通常采用基于度量的放大利用基于优化的方法通过学习一个通用的模型初始化参数,保证参数可以在少量的几步更新后达到比较优秀的程度,或者利用样本之间的距离分布训练模型,可以更好地适应于未知类别样本,或者基于数据增强的方式,在高维空间或实例空间对目标样本进行増强。

但是,由于用户的语句通常是风格多变的,因此上述方式在小样本的场景下训练得到的模型的意图识别准确率较低。

发明内容

本申请实施例提供了一种意图识别模型训练方法、意图识别方法和装置,能够通过衍生多个第一意图识别模型,并将多个第一意图识别模型和训练好的第二意图识别模型结合,进行意图识别,提高了在小样本的场景下训练得到的模型的意图识别准确率。

第一方面,本申请实施例提供了一种意图识别模型训练方法,包括:

获取k个训练样本集,所述k个训练样本集中的每个训练样本集均包括多个语料文本样本和所述多个语料文本样本中每个语料文本样本的标签信息;k为正整数;

针对所述k个训练样本集中每个训练样本集,将所述每个训练样本集中的多个语料文本样本分别输入至预先构建的语言模型中,生成所述语料文本样本的语义特征;

将所述语料文本样本对应的语义特征分别输入至p个分类器中,生成所述语料文本样本的p个第一意图识别结果;所述p个第一意图识别结果与所述p个分类器一一对应;p为正整数;

针对所述p个第一意图识别结果中的每个第一意图识别结果,根据所述第一意图识别结果和所述语料文本样本的标签信息训练第一意图识别模型,以得到N个第一意图识别模型;其中,所述p个第一意图识别模型中的每个第一意图识别模型均包括所述语言模型和所述p个分类器中的一个分类器N=p*k;

将所述每个语料文本样本分别输入至预先训练的N个第一意图识别模型中,生成所述每个语料文本样本的N个概率分布特征向量;其中,所述概率分布特征向量包括所述语料文本样本在多种意图下各自的概率值,;

根据所述语料文本样本所述N个概率分布特征向量和所述语料文本样本的标签信息对随机森林模型进行训练,直至所述随机森林模型收敛,得到训练好的第二意图识别模型。

在一种可能的实现方式中,所述多个语料文本样本中包括多个第一语料文本样本和对所述多个语料文本样本进行数据增强后得到的多个第二语料文本样本;

所述获取k个训练样本集包括:

获取所述多个第一语料文本样本;

对所述多个第一语料文本样本进行随机删除词语、谐音词替换、混淆音词替换、基于BERT模型的完形填空数据增强以及回译数据增强中的至少一项,得到所述多个第二语料文本样本;

将所述多个第一语料文本样本和所述多个语料文本样本划分为所述k个训练样本集。

在一种可能的实现方式中,所述语言模型包括多层隐藏层;

所述将所述每个训练样本集中的多个语料文本样本分别输入至预先构建的语言模型中,生成所述语料文本样本的语义特征,包括:

将所述语料文本样本输入至所述预先构建的语言模型中,提取多层中间隐藏层分别输出的第一语义特征和最后一层隐藏层输出的第二语义特征;

将所述多层中间隐藏层分别输出的第一语义特征和所述第二语义特征进行融合,生成所述语料文本样本的语义特征。

在一种可能的实现方式中,所述语言模型为RoBERT模型。

在一种可能的实现方式中,所述获取k个训练样本集包括:

对所述多个语料文本样本进行预处理,所述预处理包括调整编码格式、删除非法字符、标点符号格式转换、划分语料段落和数字形式转换中的至少一项。

第二方面,本申请实施例提供了一种意图识别方法,包括:

获取语料文本;

将所述语料文本输入至第一方面或第一方面任一种可能的实现方式中所述的N个第一意图识别模型中,生成所述语料文本的N个概率分布特征向量,所述概率分布特征向量为所述语料文本在多种意图下各自的概率值;

将所述N个概率分布特征向量输入至第一方面或第一方面任一种可能的实现方式中所述的训练好的第二意图识别模型,得到所述语料文本对应的意图结果。

第三方面,本申请实施例提供了一种意图识别模型训练装置,包括:

获取模块,用于获取k个训练样本集,所述k个训练样本集中的每个训练样本集均包括多个语料文本样本和所述多个语料文本样本中每个语料文本样本的标签信息;k为正整数;

第一生成模块,用于针对所述k个训练样本集中每个训练样本集,将所述每个训练样本集中的多个语料文本样本分别输入至预先构建的语言模型中,生成所述语料文本样本的语义特征;

第二生成模块,用于将所述语料文本样本对应的语义特征分别输入至p个分类器中,生成所述语料文本样本的p个第一意图识别结果;所述p个第一意图识别结果与所述p个分类器一一对应;p为正整数;

第一训练模块,用于针对所述p个第一意图识别结果中的每个第一意图识别结果,根据所述第一意图识别结果和所述语料文本样本的标签信息训练第一意图识别模型,以得到N个第一意图识别模型;其中,所述p个第一意图识别模型中的每个第一意图识别模型均包括所述语言模型和所述p个分类器中的一个分类器,N=p*k;

第三生成模块,用于将所述每个语料文本样本分别输入至预先训练的N个第一意图识别模型中,生成所述每个语料文本样本的N个概率分布特征向量;其中,所述概率分布特征向量包括所述语料文本样本在多种意图下各自的概率值;

第二训练模块,用于根据所述语料文本样本所述N个概率分布特征向量和所述语料文本样本的标签信息对随机森林模型进行训练,直至所述随机森林模型收敛,得到训练好的第二意图识别模型。

在一种可能的实现方式中,所述多个语料文本样本中包括多个第一语料文本样本和对所述多个语料文本样本进行数据增强后得到的多个第二语料文本样本;所述获取模块用于:

获取所述多个第一语料文本样本;

对所述多个第一语料文本样本进行随机删除词语、谐音词替换、混淆音词替换、基于BERT模型的完形填空数据增强以及回译数据增强中的至少一项,得到所述多个第二语料文本样本;

将所述多个第一语料文本样本和所述多个语料文本样本划分为所述k个训练样本集。

在一种可能的实现方式中,所述语言模型包括多层隐藏层;所述第一生成模块用于:

将所述语料文本样本输入至所述预先构建的语言模型中,提取多层中间隐藏层分别输出的第一语义特征和最后一层隐藏层输出的第二语义特征;

将所述多层中间隐藏层分别输出的第一语义特征和所述第二语义特征进行融合,生成所述语料文本样本的语义特征。

在一种可能的实现方式中,所述语言模型为RoBERT模型。

在一种可能的实现方式中,所述获取模块用于:

对所述多个语料文本样本进行预处理,所述预处理包括调整编码格式、删除非法字符、标点符号格式转换、划分语料段落和数字形式转换中的至少一项。

第四方面,本申请实施例提供了一种意图识别装置,包括:

获取模块,用于获取语料文本;

生成模块,用于将所述语料文本输入至第二方面或第二方面任一种可能的实现方式中所述的N个第一意图识别模型中,生成所述语料文本的N个概率分布特征向量,所述概率分布特征向量为所述语料文本在多种意图下各自的概率值;

确定模块,用于将所述N个概率分布特征向量输入至第二方面或第二方面任一种可能的实现方式中所述的训练好的第二意图识别模型,确定所述语料文本对应的意图结果。

第五方面,本申请实施例提供了一种计算机设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上述第一方面或第一方面中任一种可能的实现方式中所提供的方法,或实现如上述第二方面或第二方面中任一种可能的实现方式中所提供的方法。

第六方面,本申请实施例提供了一种计算机存储介质,计算机存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述第一方面或第一方面中任一种可能的实现方式中所提供的方法,或实现如上述第二方面或第二方面中任一种可能的实现方式中所提供的方法。

本申请实施例提供的意图识别模型训练方法、意图识别方法和装置,通过将语言模型连接p个分类器,从而针对一个语料文本样本,可以通过语言模型提取语料文本样本中的语义特征。从而可以通过k个训练样本集训练得到p*k=N个第一意图识别模型,且每个第一意图识别模型均包括语言模型和p个分类器中的一个分类器。如此,将k个训练样本集中的语料文本样本分别输入至预先训练的N个第一意图识别模型中,从而生成每个语料文本样本的N个概率分布特征向量,所述概率分布特征向量包括所述语料文本样本在多种意图下各自的概率值。基于每个语料文本样本的N个概率分布特征向量,训练随机森林模型,从而得到第二意图识别模型。如此,设置多个训练样本集和多个分类器能够衍生多个第一意图识别模型,并基于第一意图识别模型确定语料文本样本在多种意图下的概率分布,得到多个概率分布特征向量。基于多个概率分布特征向量对随机森林进行训练,从而得到第一意图识别模型。将多个第一意图识别模型和训练好的第二意图识别模型结合,进行意图识别,提高了在小样本的场景下训练得到的模型进行意图识别准确率。

附图说明

图1示出了本申请实施例提供的一种意图识别模型训练方法的流程示意图;

图2示出了本申请实施例提供的一种意图识别方法的流程示意图;

图3示出了本申请实施例提供的一种意图识别模型训练装置的结构示意图;

图4示出了本申请实施例提供的一种意图识别装置的结构示意图;

图5示出了本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实施例中的技术方案进行描述。

在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

意图识别作为人机对话系统中的关键任务,其目的是根据用户与系统交互的语句判断出用户的真实意图。随着人工智能技术的发展,意图识别已经被广泛地应用于生活的各个领域,如智能语音助理、智能客服等。

目前,在人机对话系统的开发初期,带标注的样本是有限的。相关技术中的为了避免训练样本不足,通常采用基于度量的放大利用基于优化的方法通过学习一个通用的模型初始化参数,保证参数可以在少量的几步更新后达到比较优秀的程度,或者利用样本之间的距离分布训练模型,可以更好地适应于未知类别样本,或者基于数据增强的方式,在高维空间或实例空间对目标样本进行増强。

但是,由于用户的语句通常是风格多变的,因此上述方式在小样本的场景下训练得到的模型的意图识别准确率较低。

基于此,本申请实施例提供了一种意图识别模型训练方法、意图识别方法和装置,通过能够通过衍生多个第一意图识别模型,并将多个第一意图识别模型和训练好的第二意图识别模型结合,进行意图识别,提高了在小样本的场景下训练得到的模型的意图识别准确率。

图1是本申请实施例提供的一种意图识别模型训练装置方法的流程示意图。如图1所示,本申请实施例提供的意图识别模型训练装置方法可以包括S101-S106。

S101:获取k个训练样本集,k个训练样本集中的每个训练样本集均包括多个语料文本样本和多个语料文本样本中每个语料文本样本的标签信息;k为正整数。

训练样本集可以是预先存储在数据库中的对话语料。例如,电力领域、运营商领域、银行等领域的客服与用户之间的对话内容,或用户单侧的语音。在客服与用户之间进行对话的过程中可以对话语音保存在数据库中,并将用户的此次对话意图进行标记。构建训练样本集时,可以从数据库中调取对话语音,并将语音转换为语料文本样本。

在一些实施例中,为了保证转换得到的语料文本样本的准确度,还可以对语料文本样本进行预处理。例如,调整编码格式、删除非法字符、标点符号格式转换、划分语料段落和数字形式转换。

示例性地,调整编码格式可以包括将语料文本样本中的中文编码统一转为utf-8格式。删除非法字符可以包括利用正则表达式,去除汉字、英文单词、数字、常用标点符号之外的不合法字符;将文本中所有阿拉伯数字统一转为简体中文规范写法;标点符号格式转换可以包括将文本中半角字符统一转化为对应的全角字符;语料划分可以将语料按段落划分并在段落前加入新闻编号;删去语料文本样本中标点后字数小于6的噪声语料文本,并采用去重处理,去除语料文本样本中重复的数据。

在一些实施例中,为了保证训练好的意图识别模型的鲁棒性,将语音转换为语料文本后,还可以对语料文本进行数据增强,从而得到语料文本样本。为了方便描述,将语音转换得到的语料文本称之为第一语料文本样本。获取到多个第一语料文本样本后,可以对第一语料文本样本进行数据增强,得到第二语料文本样本。例如,随机删除词语、谐音词替换、混淆音词替换、基于BERT模型的完形填空数据增强以及回译数据增强等等。

作为一个例子,对文本“配副眼睛”进行谐音词替换,则可以替换为文本“配副眼镜”。又例如,对文本“土豆炖浏览”进行混淆音词替换,则可以替换为文本“土豆炖牛腩”。

示例性地,回译数据增强可以通过将中文翻译到外文再翻译回中文,能够在不改变句子原始含义的情况下改写句子,实现数据增强。例如,可以采用机器翻译模型,将语料文本通过中-英-中、中-法-中、中-英-法-中和中-法-英-中的翻译方式,构建回译数据集。

如此,能够增加语料文本样本的数量,从而提高意图识别模型的鲁棒性。

将第一语料文本样本和第二语料文本样本作为训练模型的语料文本样本,并将多个语料文本样本划分为k个训练样本集。例如,语料文本样本有50个,可以将50个语料文本样本划分为5个训练样本集。其中,每个训练样本集均包括10个语料文本样本。

S102:针对k个训练样本集中每个训练样本集,将每个训练样本集中的多个语料文本样本分别输入至预先构建的语言模型中,生成语料文本样本的语义特征。

k个训练样本集中的每个训练样本集用于训练一个模型。例如,有5个训练样本集,分别是样本集A、样本集B、样本集C、样本集D、样本集E,则样本集A可以对预先构建的模型进行训练得到模型A、样本集B可以对预先构建的模型进行训练得到模型B、样本集C可以对预先构建的模型进行训练得到模型C、样本集D可以对预先构建的模型进行训练得到模型D、样本集E可以对预先构建的模型进行训练得到模型E。

在这里,预先构建的模型可以是语言模型,例如,RoBERTa模型。

为了进一步保证训练得到的意图识别模型的鲁棒性,将每个训练样本集中的每个语料文本样本分别输入至语言模型,可以生成每个语料文本样本分别对应的的语义特征。例如,样本集A中包括语料文本样本a1,语料文本样本a2和语料文本样本a3。将语料文本样本a1输入至语言模型中,生成语料文本样本a1对应的语义特征;将语料文本样本a2输入至语言模型中,生成语料文本样本a2对应的语义特征。

在一些实施例中,由于意图表现形式的多样性,避免提取的语义特征无法全面的表征语料文本样本中不同词语等对应的情感信息,可以对进行特征融合。其中,由于每个隐藏层均包含各自的自注意力结构,因此,可以不同的隐藏层输出的语义特征能够表示不同深度的语义特征。语言模型中包括多层隐藏层。可以将语料文本样本输入至预先构建的语言模型中,提取多层中间隐藏层分别输出的第一语义特征和最后一层隐藏层输出的第二语义特征;将多层中间隐藏层分别输出的第一语义特征和第二语义特征进行融合,生成语料文本样本的语义特征。如此,能够使得语义特征能够全面的表征语料文本样本中不同词语等对应的情感信息,保证训练的意图识别模型的鲁棒性。

需要说明的是,多层隐藏层中,第一层隐藏层为输入隐藏层,最后一层隐藏层为输出隐藏层,其余的隐藏层为中间隐藏层。本实施例中多层中间隐藏层可以是所有的中间隐藏层,还可以是所有隐藏层中的部分隐藏层。

作为一个例子,语言模型包括5层隐藏层,分别为隐藏层1、隐藏层2、隐藏层3、隐藏层4和隐藏层5。5个隐藏层之间相互串联。可以将语料文本样本输入至语言模型中,并将隐藏层2、隐藏层3、隐藏层4分别输出的语义特征和隐藏层5输出的语义特征进行融合,得到最终的语义特征。

作为另一个例子,语言模型包括12层隐藏层,分别为隐藏层1至隐藏层12,可以从12层隐藏层中挑选部分中间隐藏层输出的语义特征与最后一层隐藏层输出的语义特征进行融合,例如,可以挑选隐藏层5、隐藏层7和隐藏层10分别输出的语义特征与隐藏层12输出的语义特征进行融合。

S103:将语料文本样本对应的语义特征分别输入至p个分类器中,生成语料文本样本的p个第一意图识别结果;p个第一意图识别结果与p个分类器一一对应;p为正整数。

为了能够充分利用语义特征所表达的特征,保证训练的意图识别模型的鲁棒性,可以将语义特征分别输入至多个分类器中,从而得到多个第一意图识别结果。每个第一意图识别结果分别表示语料文本样本在不同意图上的概率分布得分。

在一些实施例中,多个分类器可以包括循环神经网络(Recurrent NeuralNetwork,RNN),Transformer模型、多层注意力模型(Hierarchical Attention Network,HAN)等。

S104:针对p个第一意图识别结果中的每个第一意图识别结果,根据第一意图识别结果和语料文本样本的标签信息训练第一意图识别模型,以得到N个第一意图识别模型;其中,p个第一意图识别模型中的每个第一意图识别模型均包括语言模型和p个分类器中的一个分类器,N=p*k。

多个分类器中的每个分类器均能够得到一个第一意图识别结果。p个分类器可以输出p个第一意图识别结果。可以基于第一意图识别结果和语料文本样本的标签信息训练第一意图识别模型。如此,一个样本训练集能够训练得到p个第一意图识别模型。进一步地,在分类器有p个、训练样本集有k个的情况下,可以得到p*k=N个第一意图识别模型。p、k和N均为正整数。

作为一个例子,分类器有3个,分别为分类器1、分类器2和分类器3。将训练样本集有5个,分别为训练样本集1至训练样本集5。针对5个训练样本集中的一个训练样本集进行如下训练过程。以训练样本集1对训练过程进行说明。训练样本集1中包括语料文本样本1至语料文本样本5。将语料文本样本1的语义特征1分别输入至3个分类器中,得到3个第一意图识别结果,分别结果1、结果2和结果3。根据结果1和语料文本样本1对应的标签信息训练第一意图识别模型1,根据结果2和语料文本样本1对应的标签信息训练第一意图识别模型2。根据结果3和语料文本样本1对应的标签信息训练第一意图识别模型3。如此,可以得到3个训练好的第一意图识别模型。接着,基于语料文本样本2至语料文本样本5分别对第一意图识别模型1至第一意图识别模型2,得到训练好的第一意图识别模型1至第一意图识别模型2。其中,第一意图识别模型1包括语言模型和分类器1,第一意图识别模型2包括语言模型和分类器2,第一意图识别模型3包括语言模型和分类器3。如此,最终得到3*5=15个第一意图识别模型。

S105:将每个语料文本样本分别输入至预先训练的N个第一意图识别模型中,生成每个语料文本样本的N个概率分布特征向量;其中,概率分布特征向量包括语料文本样本在多种意图下各自的概率值。

在本实施例中,一个语料文本样本分别输入至N个第一意图识别模型中,可以得到该语料文本样本对应的N个概率分布特征向量。概率分布特征向量表示该语料文本样本在多种意图下各自的概率值。

需要说明的是,输入至第一意图识别模型中的语料文本样本可以是任意一个训练样本集中的语料文本样本。

如此,能够保证在小样本的情况下,能够通过N个第一意图识别模型更全面的将一个语料文本样本中的特征提取出来。

S106:根据语料文本样本N个概率分布特征向量和语料文本样本的标签信息对随机森林模型进行训练,直至随机森林模型收敛,得到训练好的第二意图识别模型。

在本实施例中,可以通过每个语料文本样本对应的N个概率分布特征向量训练随机森林模型,使得训练好的随机森林模型能够整合N个不同的第一意图识别模型分别提取的特征,进而能够得到语料文本样本中更全面的特征。为了方便描述,将训练好的随机森林模型称之为第二意图识别模型。

如此,第二意图识别模型能够最终得到语料文本样本中更全面的特征,鲁棒性更好。

本申请实施例提供的意图识别模型训练装置方法,设置多个训练样本集和多个分类器能够衍生多个第一意图识别模型,并基于第一意图识别模型确定语料文本样本在多种意图下的概率分布,得到多个概率分布特征向量。基于多个概率分布特征向量对随机森林进行训练,从而得到第一意图识别模型。将多个第一意图识别模型和训练好的第二意图识别模型结合,进行意图识别,提高了在小样本的场景下训练得到的模型的意图识别准确率。

基于上述实施例中的第一意图识别模型和第二意图识别模型,本申请实施例还提供了一种意图识别方法。下面进行详细说明。

图2是本申请实施例提供的一种意图识别方法的流程示意图,如图2所示,本申请实施例提供的意图识别方法可以包括S201至S203。

S201:获取语料文本。

在本实施例中,可以实时获取对话中产生的语音,并将语音转换为语料文本。

S202:将语料文本输入至N个第一意图识别模型中,生成语料文本的N个概率分布特征向量,概率分布特征向量为语料文本在多种意图下各自的概率值。

S203:将N个概率分布特征向量输入第二意图识别模型,得到语料文本对应的意图结果。

本申请实施例提供的意图识别方法,通过将预料文本输入至经过图1对应的实施例训练后的模型中进行意图识别。其中,设置多个训练样本集和多个分类器能够衍生多个第一意图识别模型,并基于第一意图识别模型确定语料文本样本在多种意图下的概率分布,得到多个概率分布特征向量。基于多个概率分布特征向量对随机森林进行训练,从而得到第一意图识别模型。将多个第一意图识别模型和训练好的第二意图识别模型结合,进行意图识别,提高了在小样本的场景下训练得到的模型进行意图识别准确率。

基于上述实施例中的意图识别模型训练方法,本申请实施例还提供了一种意图识别模型训练装置。图3是本申请实施例提供的一种意图识别模型训练装置300的结构示意图,如图3所示,该意图识别模型训练装置300可以包括获取模块301,第一生成模块302,第二生成模块303,第一训练模块304,第三生成模块305,第二训练模块306。

获取模块301,用于获取k个训练样本集,k个训练样本集中的每个训练样本集均包括多个语料文本样本和多个语料文本样本中每个语料文本样本的标签信息;k为正整数;

第一生成模块302,用于针对k个训练样本集中每个训练样本集,将每个训练样本集中的多个语料文本样本分别输入至预先构建的语言模型中,生成语料文本样本的语义特征;

第二生成模块303,用于将语料文本样本对应的语义特征分别输入至p个分类器中,生成语料文本样本的p个第一意图识别结果;p个第一意图识别结果与p个分类器一一对应;p为正整数;

第一训练模块304,用于针对p个第一意图识别结果中的每个第一意图识别结果,根据第一意图识别结果和语料文本样本的标签信息训练第一意图识别模型,以得到N个第一意图识别模型;其中,p个第一意图识别模型中的每个第一意图识别模型均包括语言模型和p个分类器中的一个分类器,N=p*k;

第三生成模块305,用于将每个语料文本样本分别输入至预先训练的N个第一意图识别模型中,生成每个语料文本样本的N个概率分布特征向量;其中,概率分布特征向量包括语料文本样本在多种意图下各自的概率值;

第二训练模块306,用于根据语料文本样本N个概率分布特征向量和语料文本样本的标签信息对随机森林模型进行训练,直至随机森林模型收敛,得到训练好的第二意图识别模型。

在一种可能的实现方式中,多个语料文本样本中包括多个第一语料文本样本和对多个语料文本样本进行数据增强后得到的多个第二语料文本样本;获取模块301用于:

获取多个第一语料文本样本;

对多个第一语料文本样本进行随机删除词语、谐音词替换、混淆音词替换、基于BERT模型的完形填空数据增强以及回译数据增强中的至少一项,得到多个第二语料文本样本;

将多个第一语料文本样本和多个语料文本样本划分为k个训练样本集。

在一种可能的实现方式中,语言模型包括多层隐藏层;第一生成模块302用于:

将语料文本样本输入至预先构建的语言模型中,提取多层中间隐藏层分别输出的第一语义特征和最后一层隐藏层输出的第二语义特征;

将多层中间隐藏层分别输出的第一语义特征和第二语义特征进行融合,生成语料文本样本的语义特征。

在一种可能的实现方式中,语言模型为RoBERT模型。

在一种可能的实现方式中,获取模块301用于:

对多个语料文本样本进行预处理,预处理包括调整编码格式、删除非法字符、标点符号格式转换、划分语料段落和数字形式转换中的至少一项。

本申请实施例提供的意图识别模型训练装置装置能够执行图1对应的实施例中的方法的步骤,并能够达到相同的技术效果,为避免重复,在此不再详细说明。

本申请实施例提供的意图识别模型训练装置,通过设置多个训练样本集和多个分类器能够衍生多个第一意图识别模型,并基于第一意图识别模型确定语料文本样本在多种意图下的概率分布,得到多个概率分布特征向量。基于多个概率分布特征向量对随机森林进行训练,从而得到第一意图识别模型。将多个第一意图识别模型和训练好的第二意图识别模型结合,进行意图识别,提高了在小样本的场景下训练得到的模型进行意图识别准确率。

基于上述实施例中的意图识别方法,本申请实施例还提供了一种意图识别装置。图4是本申请实施例提供的意图识别装置400的结构示意图,如图4所示,本申请实施例提供的意图识别装置400可以包括获取模块401,生成模块402和确定模块403。

获取模块401,用于获取语料文本;

生成模块402,用于将语料文本输入至第二方面或第二方面任一种可能的实现方式中的N个第一意图识别模型中,生成语料文本的N个概率分布特征向量,概率分布特征向量为语料文本在多种意图下各自的概率值;

确定模块403,用于将N个概率分布特征向量输入至第二方面或第二方面任一种可能的实现方式中的训练好的第二意图识别模型,确定语料文本对应的意图结果。

本申请实施例提供的意图识别装置能够执行图2对应的实施例中的方法的步骤,并能够达到相同的技术效果,为避免重复,在此不再详细说明。

本申请实施例提供的意图识别装置,通过将预料文本输入至经过图1对应的实施例训练后的模型中进行意图识别。其中,设置多个训练样本集和多个分类器能够衍生多个第一意图识别模型,并基于第一意图识别模型确定语料文本样本在多种意图下的概率分布,得到多个概率分布特征向量。基于多个概率分布特征向量对随机森林进行训练,从而得到第一意图识别模型。将多个第一意图识别模型和训练好的第二意图识别模型结合,进行意图识别,提高了在小样本的场景下训练得到的模型进行意图识别准确率。

下面介绍本申请实施例提供的一种计算机设备。

图5是本申请实施例提供的一种计算机设备的结构示意图。如图5所示,本申请实施例提供的计算机设备可用于实现上述方法实施例中描述的意图识别模型训练装置方法或意图识别方法。

计算机设备可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。

存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请中的方法所描述的操作。

处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种意图识别模型训练装置方法或意图识别方法。

在一个示例中,电子设备还可包括通信接口505和总线510。其中,如图5所示,处理器501、存储器502、通信接口505通过总线510连接并完成相互间的通信。

通信接口505,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

另外,结合上述实施例,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种意图识别模型训练装置方法或意图识别方法。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。

以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

相关技术
  • 一种可连续进出料的超临界萃取釜及萃取方法
  • 一种萃取植物挥发性物质的超临界萃取仪及萃取方法
  • 一种实现挥发性和半/非挥发性物质同步萃取的萃取头及一体化固相微萃取方法和应用
技术分类

06120116424740