掌桥专利:专业的专利平台
掌桥专利
首页

意图识别方法、装置、电子设备及可读存储介质

文献发布时间:2023-06-19 11:42:32


意图识别方法、装置、电子设备及可读存储介质

技术领域

本发明涉及智能决策领域,尤其涉及一种意图识别方法、装置、电子设备及可读存储介质。

背景技术

在自然语言处理领域中,意图识别对于语言数据的理解至关重要。现有的意图识别方案主要以基于规则的意图识别和基于机器学习模型的意图识别为主,然而,基于规则的意图识别方案不能满足语言逻辑的多样化、复杂化发展,当前基于机器学习模型的意图识别方案通常采用单个模型进行识别,然而单个模型识别得到的意图准确度不够高。因此,亟需一种意图识别方法,以提高意图识别的准确性。

发明内容

鉴于以上内容,有必要提供一种意图识别方法,旨在提高意图识别的准确性。

本发明提供的意图识别方法,包括:

从样本库中抽取第一数量的携带标注信息的样本作为样本集,从模型库中抽取第二数量的初始模型作为初始模型集;

基于所述样本集从所述初始模型集中筛选第三数量的初始模型作为意图识别模型,将所述意图识别模型的集合作为意图识别模型集;

解析用户基于第一客户端发出的意图识别请求,获取所述意图识别请求携带的待识别文本;

对所述待识别文本执行实体识别处理,对得到的实体识别结果进行泛化处理,得到意图词语序列;

判断意图库中是否存在与所述意图词语序列匹配的实例,当所述意图库中没有与所述意图词语序列匹配的实例时,将所述意图词语序列输入所述意图识别模型集的每个意图识别模型中,得到每个意图识别模型输出的一个候选意图列表;

基于所述候选意图列表确定所述待识别文本对应的目标意图。

可选的,所述基于所述样本集从所述初始模型集中筛选第三数量的初始模型作为意图识别模型包括:

将所述样本集分别输入所述初始模型集的每个初始模型中,得到每个初始模型为所述样本集中每个样本输出的一个预测意图;

基于所述标注信息确定每个样本的真实意图,根据所述真实意图及预测意图确定每个初始模型的预测准确率;

将预测准确率最高的第三数量的初始模型作为意图识别模型。

可选的,所述基于所述候选意图列表确定所述待识别文本对应的目标意图包括:

抽取每个所述候选意图列表中排序最前的候选意图,得到第一候选意图集,判断所述第一候选意图集中是否存在相同的候选意图;

当所述第一候选意图集中不存在相同的意图,或者相同的候选意图的数量小于第一阈值时,抽取每个候选意图列表中排序靠前的第四数量的候选意图,得到第二候选意图集;

获取所述第二候选意图集中每个候选意图对应的实例集合,基于所述实例集合计算所述第二候选意图集中每个候选意图的置信度值;

基于所述置信度值确定所述待识别文本对应的目标意图。

可选的,所述基于所述置信度值确定所述待识别文本对应的目标意图包括:

将所述第二候选意图集中置信度值最高的候选意图作为所述待识别文本对应的期望意图;

判断所述期望意图的置信度值是否大于第二阈值;

当判断所述期望意图的置信度值大于第二阈值时,将所述期望意图作为所述待识别文本对应的目标意图。

可选的,所述基于所述实例集合计算所述第二候选意图集中每个候选意图的置信度值包括:

计算所述第二候选意图集中各个候选意图对应的实例集合中每个实例与所述待识别文本的相关性系数,得到所述第二候选意图集中每个候选意图对应的相关性系数集;

将相关性系数集中最大的相关性系数作为所述第二候选意图集中对应的候选意图的置信度值。

可选的,在所述判断所述第一候选意图集中是否存在相同的候选意图之后,所述方法还包括:

若判断所述第一候选意图集中相同的候选意图的数量大于或等于所述第一阈值,则将所述相同的候选意图作为所述待识别文本对应的目标意图。

可选的,在所述判断所述期望意图的置信度值是否大于第二阈值之后,所述方法还包括:

若所述期望意图的置信度值小于或等于所述第二阈值,则将所述待识别文本发送到第二客户端;

接收所述第二客户端反馈的目标意图,将所述目标意图发送到所述第一客户端。

为了解决上述问题,本发明还提供一种意图识别装置,所述装置包括:

抽取模块,用于从样本库中抽取第一数量的携带标注信息的样本作为样本集,从模型库中抽取第二数量的初始模型作为初始模型集;

筛选模块,用于基于所述样本集从所述初始模型集中筛选第三数量的初始模型作为意图识别模型,将所述意图识别模型的集合作为意图识别模型集;

解析模块,用于解析用户基于第一客户端发出的意图识别请求,获取所述意图识别请求携带的待识别文本;

泛化模块,用于对所述待识别文本执行实体识别处理,对得到的实体识别结果进行泛化处理,得到意图词语序列;

判断模块,用于判断意图库中是否存在与所述意图词语序列匹配的实例,当所述意图库中没有与所述意图词语序列匹配的实例时,将所述意图词语序列输入所述意图识别模型集的每个意图识别模型中,得到每个意图识别模型输出的一个候选意图列表;

确定模块,用于基于所述候选意图列表确定所述待识别文本对应的目标意图。

为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的意图识别程序,所述意图识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述意图识别方法。

为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有意图识别程序,所述意图识别程序可被一个或者多个处理器执行,以实现上述意图识别方法。

相较现有技术,本发明首先基于样本集从初始模型集中筛选初始模型作为意图识别模型,将意图识别模型的集合作为意图识别模型集;接着,对待识别文本执行实体识别处理,对得到的实体识别结果进行泛化处理,得到意图词语序列,该步骤通过泛化处理删除了不关键的实体,保证了意图词语序列中意图词语的精准性;然后,当意图库中没有与意图词语序列匹配的实例时,将意图词语序列输入意图识别模型集的每个意图识别模型中,得到每个意图识别模型输出的一个候选意图列表;最后,基于候选意图列表确定待识别文本对应的目标意图,该步骤融合多个意图识别模型的意图识别结果确定目标意图,使得目标意图更为准确。因此,本发明提高了意图识别的准确性。

附图说明

图1为本发明一实施例提供的意图识别方法的流程示意图;

图2为本发明一实施例提供的意图识别装置的模块示意图;

图3为本发明一实施例提供的实现意图识别方法的电子设备的结构示意图;

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明提供一种意图识别方法。参照图1所示,为本发明一实施例提供的意图识别方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。

本实施例中,意图识别方法包括:

S1、从样本库中抽取第一数量的携带标注信息的样本作为样本集,从模型库中抽取第二数量的初始模型作为初始模型集。

本实施例中,所述样本库中存储了多个用户问题作为样本,每个样本携带标注信息,所述标注信息为用户问题对应的真实意图,例如,样本“请问xx物品的价格是多少”的标注信息为“询价”。

所述模型库中存储有多个用于意图识别的初始模型,例如RNN、SVM、GRU、ReCNN、fasttext、TextCNN等模型。

S2、基于所述样本集从所述初始模型集中筛选第三数量的初始模型作为意图识别模型,将所述意图识别模型的集合作为意图识别模型集。

模型库中的初始模型的意图识别准确度各不相同,需要从中筛选准确度较高的模型作为意图识别模型。

所述基于所述样本集从所述初始模型集中筛选第三数量的初始模型作为意图识别模型包括:

A11、将所述样本集分别输入所述初始模型集的每个初始模型中,得到每个初始模型为所述样本集中每个样本输出的一个预测意图;

若样本集中共1000个样本、初始模型集中共10个初始模型,则将1000个样本分别输入这10个初始模型中,每个初始模型都输出1000个预测意图,共得到10000个预测意图。

A12、基于所述标注信息确定每个样本的真实意图,根据所述真实意图及预测意图确定每个初始模型的预测准确率;

例如,若SVM模型对1000个样本的预测结果中,有960个样本的预测意图与真实意图一致,则SVM模型的预测准确率为96%。

A13、将预测准确率最高的第三数量的初始模型作为意图识别模型。

本实施例中,所述第三数量可以是3,假设预测准确率最高的三个模型是TextCNN、fasttext、SVM,则将这三个模型的集合作为意图识别模型集。

S3、解析用户基于第一客户端发出的意图识别请求,获取所述意图识别请求携带的待识别文本。

所述第一客户端可以是用户的智能终端,例如,用户的手机、电脑,所述待识别文本为用户提出的问题。

S4、对所述待识别文本执行实体识别处理,对得到的实体识别结果进行泛化处理,得到意图词语序列。

本实施例中,所述实体识别处理为识别待识别文本中的人名、地名、机构名、指标、时间等实体。

所述实体识别结果包括实体名称及实体类别,所述对得到的实体识别结果进行泛化处理,得到意图词语序列,包括:

B11、根据实体类别与意图词语的映射关系确定所述待识别文本对应的第一意图词语集;

本实施例预先为实体类别设置了对应的意图词语,例如,实体类别“注册地址”、“营业收入”分别属于机构信息中的机构基本信息及机构财务信息,本实施例设置了通过意图词语“机构”来涵盖查询机构相关信息的问题,以对机构相关指标做进一步的抽象,即映射关系中实体类别“注册地址”、“营业收入”对应的意图词语都是“机构”,而其它实体类别对应的意图词语即为实体类别本身,例如,实体类别“时间”、“机构名称”对应的意图词语分别为“时间”、“机构名称”。

若待识别文本为“请问xx集团最近半年的平均月收入是怎样的”,则实体识别结果为:xx集团(机构名称)、最近半年(时间)、平均月收入(指标名称),对应的意图词语分别为机构名称、时间、机构。

B12、抽取所述第一意图词语集中的关键意图词语得到第二意图词语集;

本实施例中预先配置了关键意图词语库,例如,配置了机构名称、机构为关键意图词语,时间为非关键意图词语,则待识别文本“请问xx集团最近半年的平均月收入是怎样的”对应的第二意图词语集为{机构名称、机构}。

B13、按照实体名称在所述待识别文本中的位置拼接所述第二意图词语集中的意图词语,得到意图词语序列。

待识别文本“请问xx集团最近半年的平均月收入是怎样的”对应的意图词语序列为“机构名称机构”。

S5、判断意图库中是否存在与所述意图词语序列匹配的实例,当所述意图库中没有与所述意图词语序列匹配的实例时,将所述意图词语序列输入所述意图识别模型集的每个意图识别模型中,得到每个意图识别模型输出的一个候选意图列表。

本实施例中,意图库中存储了多个意图,且每个意图对应多个实例,例如意图“查询企业持仓情况”对应的实例包括“企业名称持仓趋势”、“企业名称敞口”等。

当意图库中没有与意图词语序列匹配的实例时,将意图词语序列输入意图识别模型集的每个意图识别模型中进行意图识别,每个意图识别模型皆输出一个候选意图列表。

在所述判断意图库中是否存在与所述意图词语序列匹配的实例之后,所述方法还包括:

若判断意图库中存在与所述意图词语序列匹配的实例,则将所述意图库中匹配的实例对应的意图作为所述待识别文本对应的目标意图。

例如,若意图库中的实例包括“机构名称机构”,则将实例“机构名称机构”对应的意图“查询机构相关信息”作为待识别文本“请问xx集团最近半年的平均月收入是怎样的”对应的目标意图。

S6、基于所述候选意图列表确定所述待识别文本对应的目标意图。

本实施例中,所述候选意图列表中按照匹配度从高到低的顺序列出了所述待识别文本对应的多个候选意图。

所述基于所述候选意图列表确定所述待识别文本对应的目标意图包括:

C11、抽取每个所述候选意图列表中排序最前的候选意图,得到第一候选意图集,判断所述第一候选意图集中是否存在相同的候选意图;

若意图识别模型集中有3个意图识别模型,则共得到3个候选意图列表,第一候选意图集中有3个候选意图。

C12、当所述第一候选意图集中不存在相同的意图,或者相同的候选意图的数量小于第一阈值时,抽取每个候选意图列表中排序靠前的第四数量的候选意图,得到第二候选意图集;

当第一候选意图集中的候选意图各不相同,或者相同的候选意图的数量小于第一阈值(例如,2),则说明无法直接从第一候选意图集中确定目标意图,此时需要扩大候选集范围。

假设第四数量为5,则第二候选意图集中共3*5=15个候选意图。

C13、获取所述第二候选意图集中每个候选意图对应的实例集合,基于所述实例集合计算所述第二候选意图集中每个候选意图的置信度值;

每个候选意图对应一个实例集合(一个实例集合中大概有30~50个实例),根据实例集合可计算出第二候选意图集中每个候选意图的置信度值。

C14、基于所述置信度值确定所述待识别文本对应的目标意图。

所述基于所述置信度值确定所述待识别文本对应的目标意图包括:

D11、将所述第二候选意图集中置信度值最高的候选意图作为所述待识别文本对应的期望意图;

D12、判断所述期望意图的置信度值是否大于第二阈值;

D13、当判断所述期望意图的置信度值大于第二阈值时,将所述期望意图作为所述待识别文本对应的目标意图。

本实施例中,所述第二阈值为0.7,若期望意图的置信度值大于0.7,则将期望意图作为待识别文本对应的目标意图。

所述基于所述实例集合计算所述第二候选意图集中每个候选意图的置信度值包括:

E11、计算所述第二候选意图集中各个候选意图对应的实例集合中每个实例与所述待识别文本的相关性系数,得到所述第二候选意图集中每个候选意图对应的相关性系数集;

E12、将相关性系数集中最大的相关性系数作为所述第二候选意图集中对应的候选意图的置信度值。

所述相关性系数的计算公式为:

其中,r

在将词语转换为词向量时,可设置词向量的维度总数,例如,本实施例设置将词语转换为100维的词向量。

在所述判断所述第一候选意图集中是否存在相同的候选意图之后,所述方法还包括:

若判断所述第一候选意图集中相同的候选意图的数量大于或等于所述第一阈值,则将所述相同的候选意图作为所述待识别文本对应的目标意图。

若第一候选意图集中相同的候选意图的数量等于2,则说明3个意图识别模型中有两个输出的TOP1候选意图是一样的,则将这个相同的候选意图作为待识别文本对应的目标意图。

本实施例中,在所述判断所述期望意图的置信度值是否大于第二阈值之后,所述方法还包括:

F11、若所述期望意图的置信度值小于或等于所述第二阈值,则将所述待识别文本发送到第二客户端;

F12、接收所述第二客户端反馈的目标意图,将所述目标意图发送到所述第一客户端。

若期望意图的置信度小于或等于0.7,则说明第二候选意图集中没有与待识别文本匹配的候选意图,此时将待识别文本发送到第二客户端进行人工处理,并接收人工反馈的目标意图,再将目标意图发送给第一客户端的用户。

由上述实施例可知,本发明提出的意图识别方法,首先,基于样本集从初始模型集中筛选初始模型作为意图识别模型,将意图识别模型的集合作为意图识别模型集;接着,对待识别文本执行实体识别处理,对得到的实体识别结果进行泛化处理,得到意图词语序列,该步骤通过泛化处理删除了不关键的实体,保证了意图词语序列中意图词语的精准性;然后,当意图库中没有与意图词语序列匹配的实例时,将意图词语序列输入意图识别模型集的每个意图识别模型中,得到每个意图识别模型输出的一个候选意图列表;最后,基于候选意图列表确定待识别文本对应的目标意图,该步骤融合多个意图识别模型的意图识别结果确定目标意图,使得目标意图更为准确。因此,本发明提高了意图识别的准确性。

如图2所示,为本发明一实施例提供的意图识别装置的模块示意图。

本发明所述意图识别装置100可以安装于电子设备中。根据实现的功能,所述意图识别装置100可以包括抽取模块110、筛选模块120、解析模块130、泛化模块140、判断模块150及确定模块160。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。

在本实施例中,关于各模块/单元的功能如下:

抽取模块110,用于从样本库中抽取第一数量的携带标注信息的样本作为样本集,从模型库中抽取第二数量的初始模型作为初始模型集。

本实施例中,所述样本库中存储了多个用户问题作为样本,每个样本携带标注信息,所述标注信息为用户问题对应的真实意图,例如,样本“请问xx物品的价格是多少”的标注信息为“询价”。

所述模型库中存储有多个用于意图识别的初始模型,例如RNN、SVM、GRU、ReCNN、fasttext、TextCNN等模型。

筛选模块120,用于基于所述样本集从所述初始模型集中筛选第三数量的初始模型作为意图识别模型,将所述意图识别模型的集合作为意图识别模型集。

模型库中的初始模型的意图识别准确度各不相同,需要从中筛选准确度较高的模型作为意图识别模型。

所述基于所述样本集从所述初始模型集中筛选第三数量的初始模型作为意图识别模型包括:

A21、将所述样本集分别输入所述初始模型集的每个初始模型中,得到每个初始模型为所述样本集中每个样本输出的一个预测意图;

若样本集中共1000个样本、初始模型集中共10个初始模型,则将1000个样本分别输入这10个初始模型中,每个初始模型都输出1000个预测意图,共得到10000个预测意图。

A22、基于所述标注信息确定每个样本的真实意图,根据所述真实意图及预测意图确定每个初始模型的预测准确率;

例如,若SVM模型对1000个样本的预测结果中,有960个样本的预测意图与真实意图一致,则SVM模型的预测准确率为96%。

A23、将预测准确率最高的第三数量的初始模型作为意图识别模型。

本实施例中,所述第三数量可以是3,假设预测准确率最高的三个模型是TextCNN、fasttext、SVM,则将这三个模型的集合作为意图识别模型集。

解析模块130,用于解析用户基于第一客户端发出的意图识别请求,获取所述意图识别请求携带的待识别文本。

所述第一客户端可以是用户的智能终端,例如,用户的手机、电脑,所述待识别文本为用户提出的问题。

泛化模块140,用于对所述待识别文本执行实体识别处理,对得到的实体识别结果进行泛化处理,得到意图词语序列。

本实施例中,所述实体识别处理为识别待识别文本中的人名、地名、机构名、指标、时间等实体。

所述实体识别结果包括实体名称及实体类别,所述对得到的实体识别结果进行泛化处理,得到意图词语序列,包括:

B21、根据实体类别与意图词语的映射关系确定所述待识别文本对应的第一意图词语集;

本实施例预先为实体类别设置了对应的意图词语,例如,实体类别“注册地址”、“营业收入”分别属于机构信息中的机构基本信息及机构财务信息,本实施例设置了通过意图词语“机构”来涵盖查询机构相关信息的问题,以对机构相关指标做进一步的抽象,即映射关系中实体类别“注册地址”、“营业收入”对应的意图词语都是“机构”,而其它实体类别对应的意图词语即为实体类别本身,例如,实体类别“时间”、“机构名称”对应的意图词语分别为“时间”、“机构名称”。

若待识别文本为“请问xx集团最近半年的平均月收入是怎样的”,则实体识别结果为:xx集团(机构名称)、最近半年(时间)、平均月收入(指标名称),对应的意图词语分别为机构名称、时间、机构。

B22、抽取所述第一意图词语集中的关键意图词语得到第二意图词语集;

本实施例中预先配置了关键意图词语库,例如,配置了机构名称、机构为关键意图词语,时间为非关键意图词语,则待识别文本“请问xx集团最近半年的平均月收入是怎样的”对应的第二意图词语集为{机构名称、机构}。

B23、按照实体名称在所述待识别文本中的位置拼接所述第二意图词语集中的意图词语,得到意图词语序列。

待识别文本“请问xx集团最近半年的平均月收入是怎样的”对应的意图词语序列为“机构名称机构”。

判断模块150,用于判断意图库中是否存在与所述意图词语序列匹配的实例,当所述意图库中没有与所述意图词语序列匹配的实例时,将所述意图词语序列输入所述意图识别模型集的每个意图识别模型中,得到每个意图识别模型输出的一个候选意图列表。

本实施例中,意图库中存储了多个意图,且每个意图对应多个实例,例如意图“查询企业持仓情况”对应的实例包括“企业名称持仓趋势”、“企业名称敞口”等。

当意图库中没有与意图词语序列匹配的实例时,将意图词语序列输入意图识别模型集的每个意图识别模型中进行意图识别,每个意图识别模型皆输出一个候选意图列表。

在所述判断意图库中是否存在与所述意图词语序列匹配的实例之后,所述判断模块150还用于:

若判断意图库中存在与所述意图词语序列匹配的实例,则将所述意图库中匹配的实例对应的意图作为所述待识别文本对应的目标意图。

例如,若意图库中的实例包括“机构名称机构”,则将实例“机构名称机构”对应的意图“查询机构相关信息”作为待识别文本“请问xx集团最近半年的平均月收入是怎样的”对应的目标意图。

确定模块160,用于基于所述候选意图列表确定所述待识别文本对应的目标意图。

本实施例中,所述候选意图列表中按照匹配度从高到低的顺序列出了所述待识别文本对应的多个候选意图。

所述基于所述候选意图列表确定所述待识别文本对应的目标意图包括:

C21、抽取每个所述候选意图列表中排序最前的候选意图,得到第一候选意图集,判断所述第一候选意图集中是否存在相同的候选意图;

若意图识别模型集中有3个意图识别模型,则共得到3个候选意图列表,第一候选意图集中有3个候选意图。

C22、当所述第一候选意图集中不存在相同的意图,或者相同的候选意图的数量小于第一阈值时,抽取每个候选意图列表中排序靠前的第四数量的候选意图,得到第二候选意图集;

当第一候选意图集中的候选意图各不相同,或者相同的候选意图的数量小于第一阈值(例如,2),则说明无法直接从第一候选意图集中确定目标意图,此时需要扩大候选集范围。

假设第四数量为5,则第二候选意图集中共3*5=15个候选意图。

C23、获取所述第二候选意图集中每个候选意图对应的实例集合,基于所述实例集合计算所述第二候选意图集中每个候选意图的置信度值;

每个候选意图对应一个实例集合(一个实例集合中大概有30~50个实例),根据实例集合可计算出第二候选意图集中每个候选意图的置信度值。

C24、基于所述置信度值确定所述待识别文本对应的目标意图。

所述基于所述置信度值确定所述待识别文本对应的目标意图包括:

D21、将所述第二候选意图集中置信度值最高的候选意图作为所述待识别文本对应的期望意图;

D22、判断所述期望意图的置信度值是否大于第二阈值;

D23、当判断所述期望意图的置信度值大于第二阈值时,将所述期望意图作为所述待识别文本对应的目标意图。

本实施例中,所述第二阈值为0.7,若期望意图的置信度值大于0.7,则将期望意图作为待识别文本对应的目标意图。

所述基于所述实例集合计算所述第二候选意图集中每个候选意图的置信度值包括:

E21、计算所述第二候选意图集中各个候选意图对应的实例集合中每个实例与所述待识别文本的相关性系数,得到所述第二候选意图集中每个候选意图对应的相关性系数集;

E22、将相关性系数集中最大的相关性系数作为所述第二候选意图集中对应的候选意图的置信度值。

所述相关性系数的计算公式为:

其中,r

在将词语转换为词向量时,可设置词向量的维度总数,例如,本实施例设置将词语转换为100维的词向量。

在所述判断所述第一候选意图集中是否存在相同的候选意图之后,所述确定模块160还用于:

若判断所述第一候选意图集中相同的候选意图的数量大于或等于所述第一阈值,则将所述相同的候选意图作为所述待识别文本对应的目标意图。

若第一候选意图集中相同的候选意图的数量等于2,则说明3个意图识别模型中有两个输出的TOP1候选意图是一样的,则将这个相同的候选意图作为待识别文本对应的目标意图。

本实施例中,在所述判断所述期望意图的置信度值是否大于第二阈值之后,所述确定模块160还用于:

F21、若所述期望意图的置信度值小于或等于所述第二阈值,则将所述待识别文本发送到第二客户端;

F22、接收所述第二客户端反馈的目标意图,将所述目标意图发送到所述第一客户端。

若期望意图的置信度小于或等于0.7,则说明第二候选意图集中没有与待识别文本匹配的候选意图,此时将待识别文本发送到第二客户端进行人工处理,并接收人工反馈的目标意图,再将目标意图发送给第一客户端的用户。

如图3所示,为本发明一实施例提供的实现意图识别方法的电子设备的结构示意图。

所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有意图识别程序10,所述意图识别程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及意图识别程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的意图识别程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行意图识别程序10等。

网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。

可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的意图识别程序10是多个指令的组合,在所述处理器12中运行时,可以实现:

从样本库中抽取第一数量的携带标注信息的样本作为样本集,从模型库中抽取第二数量的初始模型作为初始模型集;

基于所述样本集从所述初始模型集中筛选第三数量的初始模型作为意图识别模型,将所述意图识别模型的集合作为意图识别模型集;

解析用户基于第一客户端发出的意图识别请求,获取所述意图识别请求携带的待识别文本;

对所述待识别文本执行实体识别处理,对得到的实体识别结果进行泛化处理,得到意图词语序列;

判断意图库中是否存在与所述意图词语序列匹配的实例,当所述意图库中没有与所述意图词语序列匹配的实例时,将所述意图词语序列输入所述意图识别模型集的每个意图识别模型中,得到每个意图识别模型输出的一个候选意图列表;

基于所述候选意图列表确定所述待识别文本对应的目标意图。

具体地,所述处理器12对上述意图识别程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。

进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。

所述计算机可读存储介质上存储有意图识别程序10,所述意图识别程序10可被一个或者多个处理器执行,以实现如下步骤:

从样本库中抽取第一数量的携带标注信息的样本作为样本集,从模型库中抽取第二数量的初始模型作为初始模型集;

基于所述样本集从所述初始模型集中筛选第三数量的初始模型作为意图识别模型,将所述意图识别模型的集合作为意图识别模型集;

解析用户基于第一客户端发出的意图识别请求,获取所述意图识别请求携带的待识别文本;

对所述待识别文本执行实体识别处理,对得到的实体识别结果进行泛化处理,得到意图词语序列;

判断意图库中是否存在与所述意图词语序列匹配的实例,当所述意图库中没有与所述意图词语序列匹配的实例时,将所述意图词语序列输入所述意图识别模型集的每个意图识别模型中,得到每个意图识别模型输出的一个候选意图列表;

基于所述候选意图列表确定所述待识别文本对应的目标意图。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

相关技术
  • 意图识别方法、装置、电子设备及可读存储介质
  • 一种意图识别方法、装置、电子设备及可读存储介质
技术分类

06120113023014