掌桥专利:专业的专利平台
掌桥专利
首页

一种用户意图识别方法、设备及模型构建方法

文献发布时间:2023-06-19 10:35:20


一种用户意图识别方法、设备及模型构建方法

技术领域

本发明属于信息搜索技术领域,具体地涉及一种用户意图识别方法、设备及模型构建方法。

背景技术

随着互联网上的数据量激增,作为对信息资源进行组织、提取、搜索的有效工具,搜索引擎能为用户快速定位想要的互联网资源提供帮助。搜索引擎的工作成效既取决于搜索用户是否能将自己的意图需求变换为准确的查询词,也取决于查询词被搜索引擎理解的良好程度,当这两方面都能被很好地完成时,返回结果的质量就能得到较大提高。目前的搜索引擎在用户搜索意图识别方面,能力显得非常孱弱。尤其是在问答中,由于提问者的水平参差不齐,且口语随意性较强,可能有缺失很多内容,语法错误也较多,存在提问意图不清的情况,具有歧义性。另外,知识图谱中的信息量往往是有限的,无法实时更新信息数据,具有滞后性。这些都增加了意图识别的难度。

申请号为201810877616.5的发明专利公开了“一种基于迁移学习的用户意图识别的方法”,其通过用户意图标注语料进行模型训练,实现用户意图识别,但是,采用标注语料其存在相关语法噪音,这些噪音的存在将会给意图识别带来难度,降低用户意图的识别准确度。

发明内容

为了解决现有用户意图识别模块在语音存在歧义时识别精度不高的问题,本发明提供一种用户意图识别方法、设备及模型构建方法,其通过将待搜索语料解析成包含实体和关系的节点语并作为用户意图识别模型的输入,可避免在识别过程中语法噪音的存在,大大提高意图识别的准确度。

本发明通过以下技术方案实现:

一种用户意图识别模型构建方法,包括以下步骤:

收集训练集语料并将其解析为包含有实体和关系的节点语句;

构建并训练翻译模型,所述翻译模型包括编码器网络和解码器网络;

在训练完成的编码器网络上增加注意力和全连接网络,构成用户意图识别模型;

固定编码器网络参数,使用解析后的训练集训练用户意图识别模型。

本方案的用户意图识别模型通过在编码器网络中加入注意力和全链接网络构筑用户意图识别模型,以实体及关系的节点语句作为用户意图识别模型的训练语料,在满足训练数据需求量少的前提下,通过将语料解析为实体和关系的节点语句,避免语法噪音的存在,大大提高了意图识别准确度。

一种用户意图识别方法,包括以下步骤:

获取用户的待搜索语料;

根据知识图谱,将待搜索语料解析为包含有实体和关系的节点语句并确定其所属行业;

将解析含有实体和关系的节点语句输入采用上述方法构建的用户意图识别模型中,获得用户意图。

该方法通过将待搜索语料解析成包含实体和关系的节点语句,用户意图识别模型将其作为输入,可避免在识别过程中语法噪音的存在,大大提高意图识别的准确度。

一种用户意图识别设备,包括:

用于存储知识图谱的存储模块;

获取待搜索语料的待搜索语料获取模块;

根据知识图谱将待搜索语料解析为包含有实体和关系的节点语句的解析模块;

采用上述方法构建的用户意图识别模块。

该设备的解析模块根据存储模块中的知识图谱对获取的待搜索语料进行解析,解析成包含实体和关系的节点语句,意图识别模块以解析成包含实体和关系的节点语句为输入,输出识别的用户意图给相关搜索引擎进行相关内容搜索,该设备在识别过程中,可减小或者避免语法噪音,大大提高用户意图识别的准确度。

本发明与现有技术相比,至少具有以下优点和有益效果:

1、本方案的识别模型构建方法通过将训练集语料解析成包含实体和关系的节点语句,且用户意图识别模型通过在编码器网络中加入注意力和全链接网络构筑用户意图识别模型,减小对训练数据需求量,且可大大提高用户意图识别模型的意图识别准确度。

2、本方案的用户意图识别方法及设备基于实体和关系的节点语句,可大大提高用户意图识别模型的意图识别准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明模型构建方法的流程图。

图2是本发明用户意图识别模型的原理框图。

图3是本发明用户意图识别方法的流程图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明虽然是用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。

应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。

应当理解,在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时,表示不存在中间单元。另外,应当以类似方式来解释用于描述单元之间的关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。

应当理解,本文使用的术语仅用于描述特定实施例,并不意在限制本发明的示例实施例。若本文所使用的,单数形式“一”、“一个”以及“该”意在包括复数形式,除非上下文明确指示相反意思。还应当理解,若术语“包括”、“包括了”、“包含”和/或“包含了”在本文中被使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

应当理解,还应当注意到在一些备选可能设计中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。

应当理解,在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以非必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。

实施例1

如图1所示的一种用户意图识别模型构建方法,包括以下步骤:

收集训练集语料并将其解析为包含有实体和关系的节点语句;

构建并训练翻译模型,所述翻译模型包括编码器网络和解码器网络;

在训练完成的编码器网络上增加注意力和全连接网络,构成用户意图识别模型;

固定编码器网络参数,使用解析后的训练集训练用户意图识别模型。

实施例2

基于上述构建方法原理,本实施例公开一具体实施方式。

收集解析第一训练集语料:收集用户待搜索语料并存储解析,将其解析为包含实体和关系的节点语句,以“姚明的身高”为例,解析后其实体为“姚明”、关系为“身高”,又譬如“姚明妻子的身高”,解析后其实体为“姚明”、关系为“妻子”、“身高”。该步骤在训练用户意图识别模型之前完成即可。

收集第二训练集语料:收集翻译语料,翻译语料包括源语言和对应的目标语言,并对翻译语料进行按词分词,其中,源语言可以是中文、英文、德文等语言,同样目标语言可以是中文、英文、德文等语言。此步骤在训练翻译模型之前完成即可。

构建翻译模型,翻译模型包括编码器网络和解码器网络,两者均包含Embedding层、NN层,解码器网络还包含全连接层和输出层,编码器网络和解码器网络的NN层一致,为BILSTM、LSTM、GRU、CNN中的一种。

利用第二训练集语料训练翻译模型直至翻译模型可准确的将源语言翻译成目标语音,从而得到翻译模型。

构建用户意图识别模型,在训练完成的编码器网络上增加注意力和全连接网络,构成用户意图识别模型。

载入编码器参数至用户意图识别模型,利用第一训练集语料训练该模型直至用户意图识别模型收敛。

采用上述识别模型构建方法通过将训练集语料解析成包含实体和关系的节点语句,且用户意图识别模型通过在编码器网络中加入注意力和全链接网络构筑用户意图识别模型,减小对训练数据需求量,且可大大提高用户意图识别模型的意图识别准确度。

用户意识模型构建完成后,其识别准确率较高。该方法应用于智能设备中,如他2所示,该设备包括存储模块、待搜索语料获取模块、解析模块、用户意图识别模块、歧义判断模块、消歧模块、歧义确认模块、交互模块。

存储模块用于存储知识图谱,该知识图谱为图计算和推理提供数据基础,其根据不同行业构建不同的专业知识图谱,根据搜索语句的关键词选用不同行业的知识图谱;知识图谱建立完成后,以RDF形式存储到存储模块。

待搜索语料获取模块面向用户用于获取待搜索语料信息。

解析模块根据知识图谱将待搜索语料解析为包含有实体和关系的节点语句以确定所属领域。

歧义判断模块根据解析结果中的实体判断是否存在歧义。

歧义确认模块在存在歧义时向用户发送歧义信息并等待客户确认,并接收返回客户的确认信息。

消歧模块在存在歧义的情况下计算歧义概率并根据客户确认信息对数据进行消歧处理。

用户意图识别模块即采用上述方法构建的用户意图识别模块,其以实体和关系的节点语句为输入。

交互模块根据用户意图,返回展示相关实体搜索结果给用户,实现人机交互。

该用户意图识别模块可以固化在智能设备中,也可在使用中下载至智能设备中,此时,智能设备还包括用于获取用户意图识别模块的数据获取模块,数据获取模块可以是WIFI模块、4G模块、5G模块、usb等。

具体的,该设备对用户意图识别时,其具体方法如图3所示,具体为:

通过待搜索语料获取模块获取用户的待搜索语料;

根据知识图谱,将待搜索语料解析为包含有实体和关系的节点语句并确定其所属行业;

判断解析后的实体是否存在歧义,若有歧义,则利用消歧模型计算出歧义概率,生成歧义问题并发送给用户后根据用户反馈信息对实体进行消歧处理;若无歧义,则不进行消歧处理,直接将解析出的实体和关系的节点语句发送给采用上述方法构建的用户意图识别模型;

用户意图识别模型对语句进行识别,获得用户意图;

根据用户意图,返回展示相关实体搜索结果。

采用上述用户意图识别方法及设备,其基于实体和关系的节点语句和上述实施例方法构建的用户意图识别模型,可大大提高用户意图识别模型的意图识别准确度。针对用户提问的输入文本,根据知识图谱自动进行意图识别,当用户搜索语句意图不清时,可在自行推理后,通过自动反问实现意图收敛,消除歧义性。

以上所描述的实施例仅仅是示意性的,若涉及到作为分离部件说明的单元,其可以是或者也可以不是物理上分开的;若涉及到作为单元显示的部件,其可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

相关技术
  • 一种用户意图识别方法、设备及模型构建方法
  • 一种基于智能对话模型的用户意图识别方法及装置
技术分类

06120112607621