掌桥专利:专业的专利平台
掌桥专利
首页

搜索提示的生成方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 19:30:30


搜索提示的生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及信息检索技术领域,特别是涉及一种搜索提示的生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

在金融资管领域,多属性查询主要依靠人工手动选择需要的属性来完成,例如一个证券有上百个属性的信息,用户需要从众多属性中筛选出自己需要的无疑是费时低效的,而且有时候用户也不确定自己想要属性的准确名称。

因此,现有的多属性查询的方法存在数据提取不充分,和匹配精度较差的问题。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高匹配效果的搜索提示的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面,本申请提供了一种搜索提示的生成方法,所述方法包括:

获取用户的查询文本;

根据词向量预训练模型,得到所述查询文本的查询文本向量;

采用注意力机制对所述查询文本向量进行加权,得到查询向量;

从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,通过预先训练的编码模型分别得到一阶属性路径向量和二阶属性路径向量;

基于所述编码模型的注意力机制对所述查询文本向量进行加权,得到查询向量;

将所述查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将所述一阶属性路径向量和所述二阶属性路径向量中相似度较大值对应的路径作为所述查询文本的搜索提示输出。

在其中一个实施例中,所述基于所述编码模型的注意力机制对所述查询文本向量进行加权,得到查询向量,包括:

通过所述编码模型的路径注意力机制,获得路径的注意力向量;

根据所述路径的注意力向量对所述查询文本向量进行加权,得到查询向量。

在其中一个实施例中,所述通过所述编码模型的路径注意力机制,获得路径的注意力向量,包括:

通过所述编码模型的路径注意力机制,得到一阶属性路径的中间向量和二阶属性路径的中间向量;

根据预设注意力权重、预设注意力偏移量、所述一阶属性路径的中间向量和所述二阶属性路径的中间向量,得到所述路径的注意力向量。

在其中一个实施例中,所述构建知识图谱的方法,包括:

从目标业务领域的资产管理数据库中获取数据,构建多个属性和属性对应的数据文本;

根据所述属性对应数据文本抽取属性、属性的一阶属性路径,和属性的二阶属性路径;

对抽取得到的属性、属性的一阶属性路径,和属性的二阶属性路径,进行预处理,得到所述一阶属性路径对应的一阶属性路径向量,以及所述二阶属性路径对应的二阶属性路径向量;

根据各属性的一阶属性路径向量和二阶属性路径向量,构建所述目标业务领域的知识图谱。

在其中一个实施例中,所述对抽取得到的属性、属性的一阶属性路径,和属性的二阶属性路径,进行预处理,得到所述一阶属性路径对应的一阶属性路径向量,以及所述二阶属性路径对应的二阶属性路径向量,包括:

基于抽取得到的属性的一阶属性路径和属性的二阶属性路径进行关键词提取;

根据属性的一阶属性路径的关键词,得到一阶目标文本;

根据属性的二阶属性路径的关键词,得到二阶目标文本;

基于所述词向量预训练模型,得到所述一阶目标文本的一阶文本向量,以及二阶目标文本的二阶文本向量;

对所述一阶文本向量和所述二阶文本向量进行编码得到所述一阶文本向量的一阶属性路径向量,以及所述二阶文本向量的二阶属性路径向量。

在其中一个实施例中,所述数据文本中包含目标属性,所述从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,包括:

在知识图谱中以所述目标属性为起点,对所述查询文本的一阶路径进行抽取,得到目标属性相关的一阶属性路径;

在知识图谱中以所述目标属性为起点,对所述查询文本的二阶路径进行抽取,得到目标属性相关的二阶属性路径。

第二方面,本申请提供了一种搜索提示的生成装置,所述装置包括:

获取模块,用于获取用户的查询文本;

词向量模块,用于根据词向量预训练模型,得到所述查询文本的查询文本向量;

查询编码模块,用于从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,通过预先训练的编码模型分别得到一阶属性路径向量和二阶属性路径向量;

处理模块,用于基于所述编码模型的注意力机制对所述查询文本向量进行加权,得到查询向量;

计算模块,用于将所述查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将所述一阶属性路径向量和所述二阶属性路径向量中相似度较大值对应的路径作为所述查询文本的搜索提示输出。

在其中一个实施例中,所述查询编码模块,还用于通过所述编码模型的路径注意力机制,获得路径的注意力向量;根据所述路径的注意力向量对所述查询文本向量进行加权,得到查询向量。

在其中一个实施例中,所述查询编码模块,还用于通过所述编码模型的路径注意力机制,得到一阶属性路径的中间向量和二阶属性路径的中间向量;根据预设注意力权重、预设注意力偏移量、所述一阶属性路径的中间向量和所述二阶属性路径的中间向量,得到所述路径的注意力向量。

在其中一个实施例中,所述装置还包括:构建模块,用于从目标业务领域的资产管理数据库中获取数据,构建多个属性和属性对应的数据文本;根据所述属性对应数据文本抽取属性、属性的一阶属性路径,和属性的二阶属性路径;对抽取得到的属性、属性的一阶属性路径,和属性的二阶属性路径,进行预处理,得到所述一阶属性路径对应的一阶属性路径向量,以及所述二阶属性路径对应的二阶属性路径向量;根据各属性的一阶属性路径向量和二阶属性路径向量,构建所述目标业务领域的知识图谱。

在其中一个实施例中,所述构建模块,还用于基于抽取得到的属性的一阶属性路径和属性的二阶属性路径进行关键词提取;根据属性的一阶属性路径的关键词,得到一阶目标文本;根据属性的二阶属性路径的关键词,得到二阶目标文本;基于所述词向量预训练模型,得到所述一阶目标文本的一阶文本向量,以及二阶目标文本的二阶文本向量;对所述一阶文本向量和所述二阶文本向量进行编码得到所述一阶文本向量的一阶属性路径向量,以及所述二阶文本向量的二阶属性路径向量。

在其中一个实施例中,数据文本中包含目标属性,所述处理模块,还用于在知识图谱中以所述目标属性为起点,对所述查询文本的一阶路径进行抽取,得到目标属性相关的一阶属性路径;在知识图谱中以所述目标属性为起点,对所述查询文本的二阶路径进行抽取,得到目标属性相关的二阶属性路径。

第三方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下的方法的步骤:

获取用户的查询文本;

根据词向量预训练模型,得到所述查询文本的查询文本向量;

从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,通过预先训练的编码模型分别得到一阶属性路径向量和二阶属性路径向量;

基于所述编码模型的注意力机制对所述查询文本向量进行加权,得到查询向量;

将所述查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将所述一阶属性路径向量和所述二阶属性路径向量中相似度较大值对应的路径作为所述查询文本的搜索提示输出。

第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下的方法的步骤:

获取用户的查询文本;

根据词向量预训练模型,得到所述查询文本的查询文本向量;

从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,通过预先训练的编码模型分别得到一阶属性路径向量和二阶属性路径向量;

基于所述编码模型的注意力机制对所述查询文本向量进行加权,得到查询向量;

将所述查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将所述一阶属性路径向量和所述二阶属性路径向量中相似度较大值对应的路径作为所述查询文本的搜索提示输出。

第五方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下的方法的步骤:

获取用户的查询文本;

根据词向量预训练模型,得到所述查询文本的查询文本向量;

从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,通过预先训练的编码模型分别得到一阶属性路径向量和二阶属性路径向量;

基于所述编码模型的注意力机制对所述查询文本向量进行加权,得到查询向量;

将所述查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将所述一阶属性路径向量和所述二阶属性路径向量中相似度较大值对应的路径作为所述查询文本的搜索提示输出。

上述搜索提示的生成方法、装置、计算机设备、存储介质和计算机程序产品,通过获取用户的查询文本,根据词向量预训练模型,得到查询文本向量,将用户的查询文本向量化,便于与路径向量的匹配、计算关联程度,采用注意力机制对查询文本向量进行加权,得到查询结果向量,使用注意力机制,将查询文本向量进行加权,可以提高查询文本与路径向量的匹配精度,从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,将查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将一阶属性路径向量和二阶属性路径向量中相似度较大值对应的路径作为查询文本的搜索提示输出。该方法,一方面,通过从知识图谱中抽取一阶路径和二阶路径,和查询文本相匹配,可以充分提取数据,另一方面,通过采用注意力机制对查询文本向量加权,考虑了查询文本和属性路径的相关程度,进而,得到准确的搜索提示,提高了匹配的准确度。

附图说明

图1为一个实施例中搜索提示的生成方法的应用环境图;

图2为一个实施例中搜索提示的生成方法的流程示意图;

图3为一个实施例中构建知识图谱的方法的流程示意图;

图4为一个实施例中属性路径向量的生成方法的流程示意图;

图5为一个实施例中基于属性多节路径匹配的搜索提示方法的流程示意图;

图6为一个实施例中的查询文本和搜索提示的示意图;

图7为一个实施例中搜索提示的生成装置的结构框图;

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在金融资管领域,多属性查询主要依靠人工手动选择需要的属性来完成,例如一个证券有上百个属性的信息,用户需要从众多属性中筛选出自己需要的无疑是费时低效的,而且有时候用户也不确定自己想要属性的准确名称。

由此,出现了根据用户输入的查询文本对查询文本的内容进行推荐,返回查询提示(搜索提示)。

搜索提示是一种通过读取用户查询关键词,生成一系列提示语句,最终返回搜索提示给用户的技术。它可分为两类,一类是开放领域搜索提示,如百度等搜索引擎的提示都是开放式的,输入问题,提示可能直接返回答案。第二类是特定领域特定对象范围的搜索提示,输入问题,一般返回的是对象的某些属性。对于第一类搜索提示的生成方法,搜索引擎一般采取字符串搜索匹配的方法,根据用户查询关键词,去数据库中匹配包含这些关键词的提示文本;对于第二类搜索提示的生成方法,限定对象范围的属性匹配,既可以使用关键词文本匹配的方法,现在更多是使用语义编码匹配的方法。

对于金融资管领域一般使用三种方法,对用户输入的查询文本进行处理,并匹配搜索提示,(1)基于数据挖掘和关键词匹配,在金融资管领域进行数据挖掘,得到金融领域的包含关系型的结构化数据表,再将用户输入的查询文本和关系型的结构化数据表进行匹配,得到查询文本的搜索提示。(2)基于深度学习,基于过往的查询历史,进行数据挖掘,建立查询推荐模型,该方式,无法对未查询的文本进行判断,局限性较大。(3)通过提取实际查询和属性的特征进行匹配,关键在于特征提取和匹配方法,采用Bilstm+CRT网络,可能存在数据提取不充分和匹配精准度差的问题。

有鉴于此,本申请实施例提供的搜索提示的生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。

服务器104从终端102获取用户的查询文本;服务器104根据词向量预训练模型,得到查询文本的查询文本向量;服务器104从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,通过预先训练的编码模型分别得到一阶属性路径向量和二阶属性路径向量;服务器104基于编码模型的注意力机制对查询文本向量进行加权,得到查询向量;服务器104将查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将一阶属性路径向量和二阶属性路径向量中相似度较大值对应的路径作为查询文本的搜索提示输出至终端102。

其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种搜索提示的生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

S202,获取用户的查询文本。

其中,查询文本是用户的查询或检索的意思表示,例如,用户在对某些特定领域进行专业词汇检索时,输入的查询词、查询语句就属于查询文本。

具体地,金融证券为例,查询文本可以是,类别、地点、发行人等。其中,类别可以表示证券代码中特殊条款的类别,地点可以是公司注册地或证券发行人所在地,发行人可以是证券的发行人等。

S204,根据词向量预训练模型,得到查询文本的查询文本向量。

其中,词向量预训练模型指基于大量特定领域语料进行训练的模型,特定领域可以包括金融证券、医疗健康、环境环保等领域。以特定领域为金融证券领域为例,词向量预训练模型可以是基于金融资产管理数据库和证券管理数据库的数据为语料进行训练的模型。

其中,预训练模型可以是词向量预训练模型,词向量训练模型通过获取查询文本,对查询文本向量化,得到查询文本的查询文本向量。

具体地,词向量训练模型可以是训练好的FinBert模型,将查询文本q输入到FinBert模型中,模型的表达式可以是:

V

其中,V

S206,从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,通过预先训练的编码模型分别得到一阶属性路径向量和二阶属性路径向量。

其中,知识图谱可以表示多个属性之间的相关关系,具体地,构建知识图谱的过程包括:构建可视化的描述知识内容以及知识内容的载体,构建和显示知识内容和知识内容的载体之间的相互关系,根据多个知识内容和载体以及知识内容之间的相关关系完成知识图谱的构建。

需说明的,常见的知识图谱通过节点和节点之间的连线表示,节点表示实体(知识内容),节点之间的连线表示实体之间的关系(相互关系)。

知识图谱通常可以用三元组来描述知识图谱中的实体之间的关系,或者,实体、属性和属性值。例如,地点-发行人-注册地,或,发行人-注册地-上海。

其中,一阶属性路径包括一阶属性,二阶属性路径可以包含二阶属性,此外,还有三阶属性路径或更多阶属性路径,需说明的,三阶属性路径对于搜索提示问题,抽取到二阶属性路径基本能覆盖到所有可能路径了,为了减少计算量,加快系统响应速度,没有必要继续抽取三阶属性路径。

具体地,一阶属性是知识图谱上一跳路径o1-p1-o2上的属性p1,二阶属性是知识图谱上的两跳路径o1-p1-o2-p2-o3上的属性p1和p2。以二阶属性的o1为地点,属性p1可以是发行人的地点,属性p2可以是发行人的地点所在的省份。可以理解的,二阶属性路径相较于一阶属性路径,路径表现更加复杂,所包含的信息更多。

其中,可以通过判断一阶属性路径和二阶属性路径的属性名(o1、o2和o3)与查询文本q之间的相关程度,进而找到查询文本相关的一阶属性路径和二阶属性路径。

其中,得到查询文本相关的一阶属性路径和二阶属性路径后,在知识图谱中的属性路径对应的数据文本中抽取得到一阶属性路径的一阶属性路径向量,以及二阶属性路径的二阶属性路径向量。

S208,基于编码模型的注意力机制对查询文本向量进行加权,得到查询向量。

其中,注意力机制源自对人类视觉的研究,基于信息处理瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。

具体地,可以采用注意力机制模型,获取查询文本向量相关的注意力权重、注意力偏移向量,其中,注意力权重和注意力偏移向量与注意力机制模型的初始设置以及模型的迭代次数有关。

对于训练好的注意力机制模型,将查询文本向量可以根据注意力权重和注意力偏移向量计算查询文本向量的权重,再根据权重和查询文本向量计算得到查询向量R

需说明的,匹配词可以是单个词,也可以是多个词,可以是多个词以及多个词之间的相互关系。

S210,将查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将一阶属性路径向量和二阶属性路径向量中相似度较大值对应的路径作为查询文本的搜索提示输出。

其中,将查询向量R

具体地,可以相似度匹配的方式可以是余弦相似度匹配,对于查询向量R

其中,match

对于查询向量R

其中,match

将一阶属性路径向量和二阶属性路径向量中相似度较大值对应的路径作为查询文本的搜索提示输出。

其中,对于模型训练时查询向量R

max(0,γ-Match(R

其中,其中,R′

上述搜索提示的生成方法中,通过获取用户的查询文本,根据词向量预训练模型,得到查询文本向量,将用户的查询文本向量化,便于与路径向量的匹配、计算关联程度,采用注意力机制对查询文本向量进行加权,得到查询结果向量,使用注意力机制,将查询文本向量进行加权,可以提高查询文本与路径向量的匹配精度,从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,将查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将一阶属性路径向量和二阶属性路径向量中相似度较大值对应的路径作为查询文本的搜索提示输出。该方法,一方面,通过从知识图谱中抽取一阶路径和二阶路径,和查询文本相匹配,可以充分提取数据,另一方面,通过采用注意力机制对查询文本向量加权,考虑了查询文本和属性路径的相关程度,进而,得到准确的搜索提示,提高了匹配的准确度。

在一个实施例中,基于编码模型的注意力机制对查询文本向量进行加权,得到查询向量,包括:通过编码模型的路径注意力机制,获得路径的注意力向量;根据路径的注意力向量对查询文本向量进行加权,得到查询向量。

其中,在对查询文本进行编码时知识图谱构建时需要抽取与查询文本相关的一阶属性路径和二阶属性路径,在抽取一阶属性路径和二阶属性路径过程中,引入注意力机制,得到了查询文本向量相关的路径的注意力向量

具体地,可以根据注意力机制中的注意力权重W

获取查询文本向量V

本实施例中,通过采用注意力机制对查询文本向量加权,考虑了查询文本和属性路径的相关程度,进而,得到准确的搜索提示,提高了匹配的准确度。

在一个实施例中,通过编码模型的路径注意力机制,获得路径的注意力向量,包括:通过编码模型的路径注意力机制,得到一阶属性路径的中间向量和二阶属性路径的中间向量;根据预设注意力权重、预设注意力偏移量、一阶属性路径的中间向量和二阶属性路径的中间向量,得到路径的注意力向量。

其中,编码模型可以是共享权重的神经网络模型,共享权重的神经网络模型由两个BiLSTM网络,即,孪生网络模型)。其中,BiLSTM是由两个LSTM组合而成,一个是正向去处理输入序列;另一个反向处理序列,处理完成后将两个LSTM的输出拼接起来。只有所有的时间步计算完成后,才能得到最终的BiLSTM的输出结果。正向的LSTM经过预设数量的时间步得到一个结果向量;反向的LSTM同样经过预设数量的时间步后得到另一个结果,将这两个结果向量拼接起来,得到最终的BiLSTM输出结果。

具体地,采用编码模型的注意力机制对一阶文本向量和二阶文本向量进行编码过程中,得到一阶属性路径的中间向量

根据预设注意力权重、预设注意力偏移量、一阶属性路径的中间向量和二阶属性路径的中间向量,得到加权系数。

其中,加权系数a

其中,

需要说明的,还可以根据一阶属性路径的中间向量

具体地,一阶属性路径向量R

二阶属性路径向量R′

其中,

本实施例中,通过基于共享权重的神经网络模型对一阶文本向量和二阶文本向量进行编码,得到了加权系数,通过采用注意力机制对查询文本向量加权,考虑了查询文本和属性路径的相关程度,进而,得到准确的搜索提示,提高了匹配的准确度。

在一个实施例中,如图3所示,提供了一种构建知识图谱的方法,包括:

S302,从目标业务领域的资产管理数据库中获取数据,构建多个属性和属性对应的数据文本。

其中,目标业务领域可以是金融证券、医疗健康、环境环保等领域,以目标业务领域为金融证券领域为例,进行说明。

具体地,在金融证券领域的资产管理数据库或者查询界面中获取数据,对数据进行清洗,采用实体识别,实体连接等步骤,构建多个属性和属性对应的数据文本。

其中,属性对应的数据文本可以通过查询关系型数据库,获取该属性那一列的所有文本数据,数据文本可以是结构化数据类型也可以是半结构化数据类型。

S304,根据属性对应数据文本抽取属性、属性的一阶属性路径,和属性的二阶属性路径。

其中,可以根据知识图谱的原有架构,以某一属性为目标属性,根据目标属性对应的数据文本,对目标属性、目标属性的一阶属性路径,和目标属性的二阶属性路径进行抽取,得到以目标属性为起点的目标属性的一阶属性路径,和目标属性的二阶属性路径。

S306,对抽取得到的属性、属性的一阶属性路径,和属性的二阶属性路径,进行预处理,得到一阶属性路径对应的一阶属性路径向量,以及二阶属性路径对应的二阶属性路径向量。

其中,抽取得到的属性、属性的一阶属性路径,和属性的二阶属性路径,进行预处理的方法包括:对属性的一阶属性路径,和属性的二阶属性路径的关键词进行提取、对关键词提取后的文本进行编码等。

具体地,可以采用无监督学习算法TextRank从属性的一阶路径和属性的二阶路径中提取关键词,可以将提取得到的多个关键词按序排列,得到关键词提取后的文本,将文本进行编码等,得到属性的一阶属性路径向量和二阶属性路径向量,可以得到该属性下属性的一阶路径和属性的二阶路径的在特定领域语料向量空间内的空间位置和方向,便于后续和特定领域语料向量空间的其他匹配词的匹配过程,以得到与查询文本匹配程度最高的匹配词。

S308,根据各属性的一阶属性路径向量和二阶属性路径向量,构建目标业务领域的知识图谱。

其中,可以以属性为节点,一阶属性路径和二阶属性路径为节点之间的连线,构建目标业务领域的知识图谱。

本实施例中,通过实现对目标业务领域属性进行一阶路径和二阶路径的抽取,得到属性的一阶属性路径向量和二阶属性路径向量,可以得到该属性下属性的一阶路径和属性的二阶路径的在特定领域语料向量空间内的空间位置和方向,便于后续和特定领域语料向量空间的其他匹配词的匹配过程,以得到与查询文本匹配程度最高的匹配词。

在一个实施例中,如图4所示的属性路径向量的生成方法,对抽取得到的属性、属性的一阶属性路径,和属性的二阶属性路径,进行预处理,得到一阶属性路径对应的一阶属性路径向量,以及二阶属性路径对应的二阶属性路径向量,包括:

S402,基于抽取得到的属性的一阶属性路径和属性的二阶属性路径进行关键词提取。

其中,对于属性对应的数据文本进行抽取,一般来说,对于某些属性来说的完整文本数据,为长文本,例如,对于金融证券领域的属性“特殊条款”一般为长文本,需要从长文本中抽取关键词。

具体地,对于属性的一阶属性路径p′

其中,关键词提取的算法可以使用多种算法,如Tfidf,TextRank,LDA话题模型等。

S404,根据属性的一阶属性路径的关键词,得到一阶目标文本。

其中,根据属性的一阶属性路径的关键词key

S406,根据属性的二阶属性路径的关键词,得到二阶目标文本。

其中,根据属性的二阶属性路径的关键词key

S408,基于词向量预训练模型,得到一阶目标文本的一阶文本向量,以及二阶目标文本的二阶文本向量。

其中,词向量训练模型可以是训练好的FinBert模型,将一阶目标文本p′

V

同理,可以将二阶目标文本p″

V′

S410,对一阶文本向量和二阶文本向量进行编码得到一阶文本向量的一阶属性路径向量,以及二阶文本向量的二阶属性路径向量。

其中,一阶文本向量V

其中,二阶文本向量V

本实施例中,通过对抽取得到的属性、属性的一阶属性路径,和属性的二阶属性路径,进行预处理,得到一阶属性路径对应的一阶属性路径向量,以及二阶属性路径对应的二阶属性路径向量,属性的一阶属性路径,和属性的二阶属性路径,进行关键字提取,充分提取数据,为后续匹配步骤提供依据。

在一个实施例中,数据文本中包含目标属性,从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,包括:在知识图谱中以目标属性为起点,对查询文本的一阶路径进行抽取,得到目标属性相关的一阶属性路径;在知识图谱中以目标属性为起点,对查询文本的二阶路径进行抽取,得到目标属性相关的二阶属性路径。

其中,目标属性可以是查询文本经过一定处理后匹配的属性,可以理解的查询文本可能匹配的属性为多个,按照查询文本的相关程度进行筛选,选取预设数量的相关程度较高的属性作为目标属性。

以目标属性为起点可以基于知识图谱的原有架构,抽取目标属性的一阶属性路径和目标属性的二阶属性路径。

需说明的,抽取目标属性的一阶属性路径的数量可以为多个,抽取目标属性的二阶属性路径的数量也可以为多个,二阶属性路径的语义深度大于一阶属性路径,即,所包含的信息更多。

本实施例中,通过以目标属性为起点抽取一阶属性路径和二阶属性路径,能够快速抽取得到与查询文本相关的一阶属性路径和二阶属性路径,为后续匹配步骤提供依据。

在一个实施例中,如图5所示,提供了一种基于属性多节路径匹配的搜索提示方法,包括:

第一部分,构建知识图谱,包括:

S502,从目标业务领域的资产管理数据库中获取数据,构建多个属性和属性对应的数据文本。

S504,根据属性对应数据文本抽取属性、属性的一阶属性路径,和属性的二阶属性路径。

S506,基于抽取得到的属性的一阶属性路径和属性的二阶属性路径进行关键词提取。

S508,根据属性的一阶属性路径的关键词,得到一阶目标文本。

S510,根据属性的二阶属性路径的关键词,得到二阶目标文本。

S512,基于词向量预训练模型,得到一阶目标文本的一阶文本向量,以及二阶目标文本的二阶文本向量。

S514,对一阶文本向量和二阶文本向量进行编码得到一阶文本向量的一阶属性路径向量,以及二阶文本向量的二阶属性路径向量。

S516,根据各属性的一阶属性路径向量和二阶属性路径向量,构建目标业务领域的知识图谱。

第二部分,基于构建好的知识图谱进行属性多阶路径匹配搜索提示,包括:

需说明的,多阶路径可以是一阶属性路径、二阶属性路径或更多阶属性路径,对于大于二阶的属性路径,例如,三阶属性路径,对于搜索提示问题,抽取到二阶属性路径基本能覆盖到所有可能路径了,为了减少计算量,加快系统响应速度,没有必要继续抽取三阶属性路径。

所以以一阶和二阶属性路径为例,进行说明。

S518,获取用户的查询文本。

S520,根据词向量预训练模型,得到查询文本的查询文本向量。

S522,从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,通过预先训练的编码模型分别得到一阶属性路径向量和二阶属性路径向量。

其中,在知识图谱中以目标属性为起点,对查询文本的一阶路径进行抽取,得到目标属性相关的一阶属性路径;在知识图谱中以目标属性为起点,对查询文本的二阶路径进行抽取,得到目标属性相关的二阶属性路径。

S524,通过编码模型的路径注意力机制,得到一阶属性路径的中间向量和二阶属性路径的中间向量。

S526,根据预设注意力权重、预设注意力偏移量、一阶属性路径的中间向量和二阶属性路径的中间向量,得到路径的注意力向量。

S529,根据路径的注意力向量对查询文本向量进行加权,得到查询向量。

S530,将查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将一阶属性路径向量和二阶属性路径向量中相似度较大值对应的路径作为查询文本的搜索提示输出。

其中,如图6所示的查询文本和搜索提示的示意图,包括:

其中,当用户在查询框中输入查询文本“类别”后,自动弹出搜索提示,“您是否想搜:1、特殊条款(关键字:品种);2、发行人;等”,并将品种-特殊条款的一阶属性路径作为搜索提示推送给用户。

具体地,一阶属性路径如下所示:

表1品种-特殊条款表示意表

其中,当用户在查询框中输入查询文本“地点”后,自动弹出搜索提示,“您是否想搜:1、发行人(路径:发行人-省份);2、特殊条款;等”,并将地点-发行人-省份的二阶属性路径作为搜索提示推送给用户。

具体地,二阶属性路径如下所示:

表2地点-发行人-省份示意表

本实施例中,通过获取用户的查询文本,根据词向量预训练模型,得到查询文本向量,将用户的查询文本向量化,便于与路径向量的匹配、计算关联程度,采用注意力机制对查询文本向量进行加权,得到查询结果向量,使用注意力机制,将查询文本向量进行加权,可以提高查询文本与路径向量的匹配精度,从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,将查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将一阶属性路径向量和二阶属性路径向量中相似度较大值对应的路径作为查询文本的搜索提示输出。该方法,一方面,通过从知识图谱中抽取一阶路径和二阶路径,和查询文本相匹配,可以充分提取数据,另一方面,通过采用注意力机制对查询文本向量加权,考虑了查询文本和属性路径的相关程度,进而,得到准确的搜索提示,提高了匹配的准确度。

应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的搜索提示的生成方法的搜索提示的生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个搜索提示的生成装置实施例中的具体限定可以参见上文中对于搜索提示的生成方法的限定,在此不再赘述。

在一个实施例中,如图7所示,提供了一种搜索提示的生成装置,包括:获取模块702、词向量模块704、查询编码模块706、处理模块708和计算模块710,其中:

获取模块702,用于获取用户的查询文本;

词向量模块704,用于根据词向量预训练模型,得到查询文本的查询文本向量;

查询编码模块706,用于从预先构建好的知识图谱中的数据文本中抽取与查询文本相关的一阶属性路径和二阶属性路径,通过预先训练的编码模型分别得到一阶属性路径向量和二阶属性路径向量;

处理模块708,用于基于编码模型的注意力机制对查询文本向量进行加权,得到查询向量;

计算模块710,用于将查询向量分别与一阶属性路径向量、二阶属性路径向量进行相似度匹配,将一阶属性路径向量和二阶属性路径向量中相似度较大值对应的路径作为查询文本的搜索提示输出。

在一个实施例中,查询编码模块706,还用于通过编码模型的路径注意力机制,获得路径的注意力向量;根据路径的注意力向量对查询文本向量进行加权,得到查询向量。

在一个实施例中,查询编码模块706,还用于通过编码模型的路径注意力机制,得到一阶属性路径的中间向量和二阶属性路径的中间向量;根据预设注意力权重、预设注意力偏移量、一阶属性路径的中间向量和二阶属性路径的中间向量,得到路径的注意力向量。

在一个实施例中,搜索提示的生成装置还包括,构建模块,用于从目标业务领域的资产管理数据库中获取数据,构建多个属性和属性对应的数据文本;根据属性对应数据文本抽取属性、属性的一阶属性路径,和属性的二阶属性路径;对抽取得到的属性、属性的一阶属性路径,和属性的二阶属性路径,进行预处理,得到一阶属性路径对应的一阶属性路径向量,以及二阶属性路径对应的二阶属性路径向量;根据各属性的一阶属性路径向量和二阶属性路径向量,构建目标业务领域的知识图谱。

在一个实施例中,构建模块,还用于基于抽取得到的属性的一阶属性路径和属性的二阶属性路径进行关键词提取;根据属性的一阶属性路径的关键词,得到一阶目标文本;根据属性的二阶属性路径的关键词,得到二阶目标文本;基于词向量预训练模型,得到一阶目标文本的一阶文本向量,以及二阶目标文本的二阶文本向量;对一阶文本向量和二阶文本向量进行编码得到一阶文本向量的一阶属性路径向量,以及二阶文本向量的二阶属性路径向量。

在一个实施例中,数据文本中包含目标属性,处理模块708,还用于在知识图谱中以目标属性为起点,对查询文本的一阶路径进行抽取,得到目标属性相关的一阶属性路径;在知识图谱中以目标属性为起点,对查询文本的二阶路径进行抽取,得到目标属性相关的二阶属性路径。

上述搜索提示的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储一阶属性路径向量和二阶属性路径向量数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种搜索提示的生成方法。

本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以上方法步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上方法步骤。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以上方法步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

技术分类

06120115938768