掌桥专利:专业的专利平台
掌桥专利
首页

基于query分析的图谱优化方法、装置、设备及介质

文献发布时间:2023-06-19 12:13:22


基于query分析的图谱优化方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种基于query分析的图谱优化方法、装置、设备及介质。

背景技术

现有技术中普遍采用的用于构建知识图谱的数据源主要是结构化和半结构化数据,比如金融产品的知识图谱,数据来源一方面是相关公司历史金融产品数据库,另一方面是一些金融专业网站公布的半结构化网页数据。这些数据的优点是比较规整,方便转换成知识图谱。但是,也存在一定的缺陷,具体如下:

1.数据量有限;很多公司的积累数据库是不够的,甚至有些数据并没有存储到数据库中,因此无法支持完整的知识图谱构建;

2.一些数据库由于权限问题无法获取。

因此,传统方式构建的知识图谱不够完整,知识的覆盖面较小。

另外,采用现有技术构建的知识图谱与用户需求的关联度较小,当现有技术构建的知识图谱被用于用户搜索等交互场景时,由于答案反馈主要基于的是数据库数据和知识图谱数据,因此,将可能导致下面问题的产生:

1.由于知识图谱中的数据不够完整,因此回答不详细;

2.由于知识图谱中的数据与用户的关联度较低,因此匹配的答案不准确。

发明内容

本发明实施例提供了一种基于query分析的图谱优化方法、装置、设备及介质,能够通过query分析,抽取到用户关注的实体及关系,形成用户关注领域的知识,有效解决了回答不清楚、不准确等的问题,同时,结合query分析及搜索引擎,将与用户关注点强相关的实体及关系更新至知识图谱,使构建的图谱更加具有针对性,进而实现了对知识图谱的优化更新,扩充及丰富了知识图谱的规模。

第一方面,本发明实施例提供了一种基于query分析的图谱优化方法,其包括:

获取预设时长内产生的query日志;

从所述query日志中获取浏览信息,并根据所述浏览信息确定待优化query;

调用指定搜索引擎,并利用所述指定搜索引擎查询所述待优化query,得到至少一个非结构化文本;

利用改进的BiLSTM模型对所述至少一个非结构化文本进行实体及关系抽取,得到候选实体及候选关系;

从所述至少一个非结构化文本中获取抽取失败的文本,利用改进的基于ERNIE的实体关系联合抽取模型对所述抽取失败的文本进行补充抽取,并将抽取到的数据补充至所述候选实体及所述候选关系;

调用初始知识图谱,并利用所述初始知识图谱对所述候选实体及所述候选关系进行清洗,得到目标实体及目标关系;

将所述目标实体及所述目标关系更新至所述初始知识图谱,得到目标图谱。

根据本发明优选实施例,所述根据所述浏览信息确定待优化query包括:

从所述浏览信息中捕获停留时长大于或者等于配置时长,且没有点击操作的页面,将捕获到的页面所对应的query确定为所述待优化query;及/或

从所述浏览信息中读取用户的消极反馈记录,并获取与所述消极反馈记录对应的query作为所述待优化query。

根据本发明优选实施例,所述利用所述指定搜索引擎查询所述待优化query,得到至少一个非结构化文本包括:

向所述指定搜索引擎发起带有所述待优化query的查询请求;

接收所述指定搜索引擎针对所述待优化query反馈的页面,其中,所述指定搜索引擎根据所述待优化query生成Request包,并基于HTTP库向目标站点发送所述Request包,所述指定搜索引擎接收所述目标站点反馈的Response包,并返回所述Response包的内容作为所述指定搜索引擎针对所述待优化query反馈的页面;

获取排在预设位之前的页面作为目标页面;

将所述目标页面内的数据确定为所述至少一个非结构化文本。

根据本发明优选实施例,在利用改进的BiLSTM模型对所述至少一个非结构化文本进行实体及关系抽取前,所述方法还包括:

调用初始BiLSTM模型,并在所述初始BiLSTM模型的输出层添加关系分类器;

获取第一训练样本,将所述第一训练样本进行向量化处理,得到所述第一训练样本的嵌入表示;

获取所述第一训练样本的实体标签及关系标签;

将所述第一训练样本的嵌入表示确定为输入,将所述第一训练样本的实体标签及关系标签确定为训练目标,并对所述初始BiLSTM模型及所述关系分类器进行联合训练;

当所述初始BiLSTM模型及所述关系分类器同时收敛时,停止训练,得到所述改进的BiLSTM模型。

根据本发明优选实施例,在利用改进的基于ERNIE的实体关系联合抽取模型对所述抽取失败的文本进行补充抽取前,所述方法还包括:

从通用中文库中获取第二训练样本;

随机屏蔽所述第二训练样本中的短语,并将屏蔽掉的短语替换为预设标记,得到屏蔽样本;

调用初始ERNIE模型;

根据所述屏蔽样本对所述初始ERNIE模型进行屏蔽短语预测训练;

当所述初始ERNIE模型达到收敛时,停止训练,得到所述改进的基于ERNIE的实体关系联合抽取模型。

根据本发明优选实施例,所述调用初始知识图谱包括:

获取所述改进的BiLSTM模型及/或所述改进的基于ERNIE的实体关系联合抽取模型所对应的实体类别标识及关系类别标识;

从指定数据库中获取具有所述实体类别标识及所述关系类别标识的知识图谱;

将获取到的知识图谱确定为所述初始知识图谱。

根据本发明优选实施例,所述利用所述初始知识图谱对所述候选实体及所述候选关系进行清洗,得到目标实体及目标关系包括:

从所述候选实体中识别所述初始知识图谱中存在的实体,并从所述候选实体中删除识别到的实体,得到第一实体;

合并所述第一实体中重复的实体,得到所述目标实体;

从所述候选关系中识别所述初始知识图谱中存在的关系,并从所述候选关系中删除识别到的关系,得到第一关系;

合并所述第一关系中重复的关系,得到所述目标关系。

第二方面,本发明实施例提供了一种基于query分析的图谱优化装置,其包括:

获取单元,用于获取预设时长内产生的query日志;

确定单元,用于从所述query日志中获取浏览信息,并根据所述浏览信息确定待优化query;

查询单元,用于调用指定搜索引擎,并利用所述指定搜索引擎查询所述待优化query,得到至少一个非结构化文本;

抽取单元,用于利用改进的BiLSTM模型对所述至少一个非结构化文本进行实体及关系抽取,得到候选实体及候选关系;

所述抽取单元,还用于从所述至少一个非结构化文本中获取抽取失败的文本,利用改进的基于ERNIE的实体关系联合抽取模型对所述抽取失败的文本进行补充抽取,并将抽取到的数据补充至所述候选实体及所述候选关系;

清洗单元,用于调用初始知识图谱,并利用所述初始知识图谱对所述候选实体及所述候选关系进行清洗,得到目标实体及目标关系;

更新单元,用于将所述目标实体及所述目标关系更新至所述初始知识图谱,得到目标图谱。

第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于query分析的图谱优化方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于query分析的图谱优化方法。

本发明实施例提供了一种基于query分析的图谱优化方法、装置、设备及介质,能够通过query分析,抽取到用户关注的实体及关系,形成用户关注领域的知识,有效解决了回答不清楚、不准确等的问题,同时,结合query分析及搜索引擎,将与用户关注点强相关的实体及关系更新至知识图谱,使构建的图谱更加具有针对性,进而实现了对知识图谱的优化更新,扩充及丰富了知识图谱的规模。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于query分析的图谱优化方法的流程示意图;

图2为本发明实施例提供的基于query分析的图谱优化装置的示意性框图;

图3为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1,为本发明实施例提供的基于query分析的图谱优化方法的流程示意图。

S10,获取预设时长内产生的query日志。

其中,所述预设时长可以进行自定义配置,如一个月。

在本实施例中,所述query日志是系统产生的日志,所述query日志中存储着用户query,用户对于答案的点击情况等。

通过所述query日志,能够分析出用户对于所搜索的答案的认可度,如:当用户没有点击反馈的任意一条答案时,说明用户对反馈的答案不满意。

S11,从所述query日志中获取浏览信息,并根据所述浏览信息确定待优化query。

在本发明的至少一个实施例中,所述浏览信息可以包括,但不限于以下一种或者多种信息的组合:

对答案是否有点击、对页面的停留时间、对答案的点击次数。

在本发明的至少一个实施例中,所述根据所述浏览信息确定待优化query包括:

从所述浏览信息中捕获停留时长大于或者等于配置时长,且没有点击操作的页面,将捕获到的页面所对应的query确定为所述待优化query;及/或

从所述浏览信息中读取用户的消极反馈记录,并获取与所述消极反馈记录对应的query作为所述待优化query。

其中,所述配置时长可以进行自定义配置,如3分钟。

可以理解的是,当用户在搜索后的浏览界面停留时间过长,却没有执行进一步的操作时,说明用户对搜索后得到的查询结果并不满意,因此未点击答案反馈界面中的任何一条内容。

例如:当用户输入的问题语句为“XX产品怎么样”时,答案反馈界面中的所有内容都未涉及到“XX产品”,显然,当前的答案反馈结果与用户输入的问题相关性较低,用户在浏览答案反馈界面时,并未找到能够进一步点击查看的内容,因此,会出现一直停留在答案反馈界面,却并没有点击操作的情况。这种情况也可以说明用户对反馈的查询结果并不满意,需要进一步优化,因此,将获取的页面所对应的query确定为所述待优化query,以提升用户体验。

同理,当用户对反馈的答案不满意时,可能会给相关平台提出一些消极反馈,如“反馈结果有误”等,因此,当从所述浏览信息中获取到用户的消极反馈记录时,即可获取与所述消极反馈记录对应的query作为所述待优化query,以提升用户体验。

当然,在其他实施例中,匹配不同的应用场景,还可以采用其他方式确定搜索待优化query,本发明不限制。

S12,调用指定搜索引擎,并利用所述指定搜索引擎查询所述待优化query,得到至少一个非结构化文本。

在本发明的至少一个实施例中,所述指定搜索引擎可以包括市面上通用的搜索引擎,所述指定搜索引擎可以具有较高的使用率,且搜索结果具有较高的准确率,能够提供可靠的搜索结果。

通过调用所述指定搜索引擎,能够结合所述指定搜索引擎所反馈的结果进一步优化所述待优化query。

在本发明的至少一个实施例中,所述利用所述指定搜索引擎查询所述待优化query,得到至少一个非结构化文本包括:

向所述指定搜索引擎发起带有所述待优化query的查询请求;

接收所述指定搜索引擎针对所述待优化query反馈的页面,其中,所述指定搜索引擎根据所述待优化query生成Request包,并基于HTTP(Hypertext Transfer Protocol,超文本传输协议)库向目标站点发送所述Request包,所述指定搜索引擎接收所述目标站点反馈的Response包,并返回所述Response包的内容作为所述指定搜索引擎针对所述待优化query反馈的页面;

获取排在预设位之前的页面作为目标页面;

将所述目标页面内的数据确定为所述至少一个非结构化文本。

其中,所述目标站点是指需要向其请求数据的站点。

其中,所述至少一个非结构化文本是指针对于所述待优化query反馈的页面中的数据。

其中,所述预设位可以进行自定义配置,例如:为了使后续建立的知识图谱更加可靠,所述预设位可以配置为5。

可以理解的是,各个搜索引擎对于搜索结果的默认显示顺序是:与问题的相关度越高,则反馈的答案越靠前。

因此,在本实施例中,所述预设位的取值越小,代表反馈的答案与所述待优化query越相关,所述预设位的取值越大,代表反馈的答案与所述待优化query越不相关。本实施例选择排在所述预设位之前的页面作为所述目标页面,能够使后续建立的知识图谱也更加准确。

S13,利用改进的BiLSTM(Bi-directional Long Short-Term Memory)模型对所述至少一个非结构化文本进行实体及关系抽取,得到候选实体及候选关系。

在本实施例中,所述候选实体是指抽取到的实体,如:姓名、产品名等。

需要说明的是,传统的实体抽取技术主要包括,但不限于:词典匹配+模板匹配+机器学习模型。

如:条件随机场(conditional random field algorithm,CRF)作为传统的序列标注模型,虽然模型的训练考虑到了上下文特征,训练速度快,但是需要特征工程,而且能学习的上下文范围比较窄;

长短期记忆模型(Long Short-Term Memory,LSTM)是一种深度学习RNN(Recurrent Neural Network,循环神经网络)模型,能够学习更远的全局的上下文特征,输入是词向量,不需要特征工程,但是训练时间相对较长。

在本实施例中,所述候选关系是指抽取到的实体间的关系,如:两个用户的姓名间的关系等。

需要说明的是,传统的关系抽取技术主要包括,但不限于:模板匹配+远程监督的ATT(Attention,注意力机制)+BERT(Bidirectional Encoder Representations fromTransformers),或者ATT+CNN(Convolutional Neural Networks,卷积神经网络)。

还包括一些联合抽取方法,如:基于BERT的联合抽取。

鉴于以上实体及关系抽取方式的缺陷,本实施例改进了BiLSTM模型。

在本发明的至少一个实施例中,在利用改进的BiLSTM模型对所述至少一个非结构化文本进行实体及关系抽取前,所述方法还包括:

调用初始BiLSTM模型,并在所述初始BiLSTM模型的输出层添加关系分类器;

获取第一训练样本,将所述第一训练样本进行向量化处理,得到所述第一训练样本的嵌入表示;

获取所述第一训练样本的实体标签及关系标签;

将所述第一训练样本的嵌入表示确定为输入,将所述第一训练样本的实体标签及关系标签确定为训练目标,并对所述初始BiLSTM模型及所述关系分类器进行联合训练;

当所述初始BiLSTM模型及所述关系分类器同时收敛时,停止训练,得到所述改进的BiLSTM模型。

其中,所述关系分类器可以为Softmax,本发明不限制。

需要说明的是,传统的BiLSTM模型只能够抽取实体,并不包括能够对关系进行分类的分类器,实体的抽取模型及关系的抽取模型通常需要分开训练。

本实施方式改进了传统的BiLSTM模型,在BiLSTM模型的输出层添加一个分类器用于对关系进行分类,联合训练的方式能够共享特征权重及向量空间,且避免了前置训练的误差传递,使实体及关系的抽取效果更好。

S14,从所述至少一个非结构化文本中获取抽取失败的文本,利用改进的基于ERNIE(Enhanced Representation through Knowledge Integration,通过知识集成增强表示)的实体关系联合抽取模型对所述抽取失败的文本进行补充抽取,并将抽取到的数据补充至所述候选实体及所述候选关系。

需要说明的是,鉴于数据的复杂性,可能有部分文本抽取失败,此时,采用改进的基于ERNIE的实体关系联合抽取模型进行补充抽取,能够有效保证抽取的实体及关系更加全面,避免遗漏的情况产生。

在本发明的至少一个实施例中,在利用改进的基于ERNIE的实体关系联合抽取模型对所述抽取失败的文本进行补充抽取前,所述方法还包括:

从通用中文库中获取第二训练样本;

随机屏蔽所述第二训练样本中的短语,并将屏蔽掉的短语替换为预设标记,得到屏蔽样本;

调用初始ERNIE模型;

根据所述屏蔽样本对所述初始ERNIE模型进行屏蔽短语预测训练;

当所述初始ERNIE模型达到收敛时,停止训练,得到所述改进的基于ERNIE的实体关系联合抽取模型。

其中,所述通用中文库可以包括任意通用的,并且数据全面的中文语料库。

不同于传统的ERNIE 模型主要采用屏蔽单词的形式进行训练,本实施方式从通用中文语料库中获取数据作为训练样本,并以屏蔽短语的形式进行训练,更加符合中文语料的描述习惯,且训练数据充足,使训练得到的模型更加适用于对中文语料的实体及关系的抽取。

在上述实施方式中,首先采用速度较快的改进的BiLSTM模型进行实体及关系的抽取,再对抽取失败的文本利用改进的基于ERNIE的实体关系联合抽取模型进行补充抽取,不仅使抽取到的实体及关系更加全面,且保证了抽取效率。

S15,调用初始知识图谱,并利用所述初始知识图谱对所述候选实体及所述候选关系进行清洗,得到目标实体及目标关系。

在本实施例中,所述初始知识图谱是指需要被优化及改进的知识图谱,所述初始知识图谱可能仅根据某个平台或者企业内部的部分数据构建,因此数据覆盖面较小,不能完全满足用户的使用需求。

在本发明的至少一个实施例中,所述调用初始知识图谱包括:

获取所述改进的BiLSTM模型及/或所述改进的基于ERNIE的实体关系联合抽取模型所对应的实体类别标识及关系类别标识;

从指定数据库中获取具有所述实体类别标识及所述关系类别标识的知识图谱;

将获取到的知识图谱确定为所述初始知识图谱。

其中,所述指定数据库中存储着建立的所有知识图谱。

每个知识图谱都对应有相应的实体类别及关系类别,由所述实体类别标识标记所述实体类别,及由所述关系类别标识标记所述关系类别。

因此,从所述指定数据库中获取同时具有所述实体类别标识及所述关系类别标识的知识图谱,即可获取到与模型相对应的所述初始知识图谱。

通过上述实施方式,能够保证获取到的所述初始知识图谱与启用的实体/关系抽取模型具有对应关系,这样,由所述改进的BiLSTM模型及/或所述改进的基于ERNIE的实体关系联合抽取模型联合抽取的所述候选实体及所述候选关系即可以关联于所述初始知识图谱。

可以理解的是,由于同一平台或者数据库中数据的交叉使用,在抽取到的所述候选实体及所述候选关系中,还可能存在一些重复的数据,具体包括:

抽取的候选实体间的重复,抽取到的候选关系间的重复,以及抽取到的候选实体与所述初始知识图谱中的已存在实体间的重复,抽取到的候选关系与所述初始知识图谱中的已存在关系间的重复。

因此,为了解决上述问题,避免将重复数据添加到所述知识图谱中,还需要对所述候选实体及所述候选关系进行清洗。

在本发明的至少一个实施例中,所述利用所述初始知识图谱对所述候选实体及所述候选关系进行清洗,得到目标实体及目标关系包括:

从所述候选实体中识别所述初始知识图谱中存在的实体,并从所述候选实体中删除识别到的实体,得到第一实体;

合并所述第一实体中重复的实体,得到所述目标实体;

从所述候选关系中识别所述初始知识图谱中存在的关系,并从所述候选关系中删除识别到的关系,得到第一关系;

合并所述第一关系中重复的关系,得到所述目标关系。

通过上述实施方式,能够实现对所述候选实体及所述候选关系的清洗,避免将重复的数据添加至所述初始知识图谱,造成数据的冗余,不仅增加了系统负担,也给后续的使用带来不便。

S16,将所述目标实体及所述目标关系更新至所述初始知识图谱,得到目标图谱。

在本发明的至少一个实施例中,所述将所述目标实体及所述目标关系更新至所述初始知识图谱,得到目标图谱包括:

将所述目标实体确定为所述初始知识图谱的节点;

根据所述目标关系连接所述目标实体,得到所述目标图谱。

通过上述实施方式,结合query分析及搜索引擎实现了对知识图谱的优化更新,使更新后的知识图谱更加满足用户的实际需求,同时使知识图谱的覆盖面更加广泛,实用性更强。

传统的知识图谱的构建主要是从企业的数据库或者相关专业网站上获取数据,数据获取的难度较大,并且专业网站的数据也不一定是用户关注的数据,因此图谱构建的数据基础较小,且与用户的需求匹配率较低。

相比较而言,本实施方式通过query分析,能够抽取到用户关注的实体及关系,形成用户关注领域的知识,有效解决了回答不清楚、不准确等的问题,同时,结合query分析及搜索引擎,将与用户关注点强相关的实体及关系更新至知识图谱,使构建的图谱更加具有针对性,并扩充及丰富了知识图谱的规模。

在本发明的至少一个实施例中,在得到所述目标图谱后,为了方便后续使用,可以将所述目标图谱存储于相应的图数据库中,如NEO4J图数据库,本发明不限制。

需要说明的是,为了进一步确保数据的安全性,避免数据被恶意篡改,所述目标图谱可以存储于区块链节点上。

由以上技术方案可以看出,本发明通过query分析,能够抽取到用户关注的实体及关系,形成用户关注领域的知识,有效解决了回答不清楚、不准确等的问题,同时,结合query分析及搜索引擎,将与用户关注点强相关的实体及关系更新至知识图谱,使构建的图谱更加具有针对性,进而实现了对知识图谱的优化更新,扩充及丰富了知识图谱的规模。

本发明实施例还提供一种基于query分析的图谱优化装置,该基于query分析的图谱优化装置用于执行前述基于query分析的图谱优化方法的任一实施例。具体地,请参阅图2,图2是本发明实施例提供的基于query分析的图谱优化装置的示意性框图。

如图2所示,基于query分析的图谱优化装置100包括:获取单元101、确定单元102、查询单元103、抽取单元104、清洗单元105、更新单元106。

获取单元101获取预设时长内产生的query日志。

其中,所述预设时长可以进行自定义配置,如一个月。

在本实施例中,所述query日志是系统产生的日志,所述query日志中存储着用户query,用户对于答案的点击情况等。

通过所述query日志,能够分析出用户对于所搜索的答案的认可度,如:当用户没有点击反馈的任意一条答案时,说明用户对反馈的答案不满意。

确定单元102从所述query日志中获取浏览信息,并根据所述浏览信息确定待优化query。

在本发明的至少一个实施例中,所述浏览信息可以包括,但不限于以下一种或者多种信息的组合:

对答案是否有点击、对页面的停留时间、对答案的点击次数。

在本发明的至少一个实施例中,所述确定单元102根据所述浏览信息确定待优化query包括:

从所述浏览信息中捕获停留时长大于或者等于配置时长,且没有点击操作的页面,将捕获到的页面所对应的query确定为所述待优化query;及/或

从所述浏览信息中读取用户的消极反馈记录,并获取与所述消极反馈记录对应的query作为所述待优化query。

其中,所述配置时长可以进行自定义配置,如3分钟。

可以理解的是,当用户在搜索后的浏览界面停留时间过长,却没有执行进一步的操作时,说明用户对搜索后得到的查询结果并不满意,因此未点击答案反馈界面中的任何一条内容。

例如:当用户输入的问题语句为“XX产品怎么样”时,答案反馈界面中的所有内容都未涉及到“XX产品”,显然,当前的答案反馈结果与用户输入的问题相关性较低,用户在浏览答案反馈界面时,并未找到能够进一步点击查看的内容,因此,会出现一直停留在答案反馈界面,却并没有点击操作的情况。这种情况也可以说明用户对反馈的查询结果并不满意,需要进一步优化,因此,将获取的页面所对应的query确定为所述待优化query,以提升用户体验。

同理,当用户对反馈的答案不满意时,可能会给相关平台提出一些消极反馈,如“反馈结果有误”等,因此,当从所述浏览信息中获取到用户的消极反馈记录时,即可获取与所述消极反馈记录对应的query作为所述待优化query,以提升用户体验。

当然,在其他实施例中,匹配不同的应用场景,还可以采用其他方式确定搜索待优化query,本发明不限制。

查询单元103调用指定搜索引擎,并利用所述指定搜索引擎查询所述待优化query,得到至少一个非结构化文本。

在本发明的至少一个实施例中,所述指定搜索引擎可以包括市面上通用的搜索引擎,所述指定搜索引擎可以具有较高的使用率,且搜索结果具有较高的准确率,能够提供可靠的搜索结果。

通过调用所述指定搜索引擎,能够结合所述指定搜索引擎所反馈的结果进一步优化所述待优化query。

在本发明的至少一个实施例中,所述查询单元103利用所述指定搜索引擎查询所述待优化query,得到至少一个非结构化文本包括:

向所述指定搜索引擎发起带有所述待优化query的查询请求;

接收所述指定搜索引擎针对所述待优化query反馈的页面,其中,所述指定搜索引擎根据所述待优化query生成Request包,并基于HTTP(Hypertext Transfer Protocol,超文本传输协议)库向目标站点发送所述Request包,所述指定搜索引擎接收所述目标站点反馈的Response包,并返回所述Response包的内容作为所述指定搜索引擎针对所述待优化query反馈的页面;

获取排在预设位之前的页面作为目标页面;

将所述目标页面内的数据确定为所述至少一个非结构化文本。

其中,所述目标站点是指需要向其请求数据的站点。

其中,所述至少一个非结构化文本是指针对于所述待优化query反馈的页面中的数据。

其中,所述预设位可以进行自定义配置,例如:为了使后续建立的知识图谱更加可靠,所述预设位可以配置为5。

可以理解的是,各个搜索引擎对于搜索结果的默认显示顺序是:与问题的相关度越高,则反馈的答案越靠前。

因此,在本实施例中,所述预设位的取值越小,代表反馈的答案与所述待优化query越相关,所述预设位的取值越大,代表反馈的答案与所述待优化query越不相关。本实施例选择排在所述预设位之前的页面作为所述目标页面,能够使后续建立的知识图谱也更加准确。

抽取单元104利用改进的BiLSTM(Bi-directional Long Short-Term Memory)模型对所述至少一个非结构化文本进行实体及关系抽取,得到候选实体及候选关系。

在本实施例中,所述候选实体是指抽取到的实体,如:姓名、产品名等。

需要说明的是,传统的实体抽取技术主要包括,但不限于:词典匹配+模板匹配+机器学习模型。

如:条件随机场(conditional random field algorithm,CRF)作为传统的序列标注模型,虽然模型的训练考虑到了上下文特征,训练速度快,但是需要特征工程,而且能学习的上下文范围比较窄;

长短期记忆模型(Long Short-Term Memory,LSTM)是一种深度学习RNN(Recurrent Neural Network,循环神经网络)模型,能够学习更远的全局的上下文特征,输入是词向量,不需要特征工程,但是训练时间相对较长。

在本实施例中,所述候选关系是指抽取到的实体间的关系,如:两个用户的姓名间的关系等。

需要说明的是,传统的关系抽取技术主要包括,但不限于:模板匹配+远程监督的ATT(Attention,注意力机制)+BERT(Bidirectional Encoder Representations fromTransformers),或者ATT+CNN(Convolutional Neural Networks,卷积神经网络)。

还包括一些联合抽取方法,如:基于BERT的联合抽取。

鉴于以上实体及关系抽取方式的缺陷,本实施例改进了BiLSTM模型。

在本发明的至少一个实施例中,在利用改进的BiLSTM模型对所述至少一个非结构化文本进行实体及关系抽取前,调用初始BiLSTM模型,并在所述初始BiLSTM模型的输出层添加关系分类器;

获取第一训练样本,将所述第一训练样本进行向量化处理,得到所述第一训练样本的嵌入表示;

获取所述第一训练样本的实体标签及关系标签;

将所述第一训练样本的嵌入表示确定为输入,将所述第一训练样本的实体标签及关系标签确定为训练目标,并对所述初始BiLSTM模型及所述关系分类器进行联合训练;

当所述初始BiLSTM模型及所述关系分类器同时收敛时,停止训练,得到所述改进的BiLSTM模型。

其中,所述关系分类器可以为Softmax,本发明不限制。

需要说明的是,传统的BiLSTM模型只能够抽取实体,并不包括能够对关系进行分类的分类器,实体的抽取模型及关系的抽取模型通常需要分开训练。

本实施方式改进了传统的BiLSTM模型,在BiLSTM模型的输出层添加一个分类器用于对关系进行分类,联合训练的方式能够共享特征权重及向量空间,且避免了前置训练的误差传递,使实体及关系的抽取效果更好。

所述抽取单元104从所述至少一个非结构化文本中获取抽取失败的文本,利用改进的基于ERNIE(Enhanced Representation through Knowledge Integration,通过知识集成增强表示)的实体关系联合抽取模型对所述抽取失败的文本进行补充抽取,并将抽取到的数据补充至所述候选实体及所述候选关系。

需要说明的是,鉴于数据的复杂性,可能有部分文本抽取失败,此时,采用改进的基于ERNIE的实体关系联合抽取模型进行补充抽取,能够有效保证抽取的实体及关系更加全面,避免遗漏的情况产生。

在本发明的至少一个实施例中,在利用改进的基于ERNIE的实体关系联合抽取模型对所述抽取失败的文本进行补充抽取前,从通用中文库中获取第二训练样本;

随机屏蔽所述第二训练样本中的短语,并将屏蔽掉的短语替换为预设标记,得到屏蔽样本;

调用初始ERNIE模型;

根据所述屏蔽样本对所述初始ERNIE模型进行屏蔽短语预测训练;

当所述初始ERNIE模型达到收敛时,停止训练,得到所述改进的基于ERNIE的实体关系联合抽取模型。

其中,所述通用中文库可以包括任意通用的,并且数据全面的中文语料库。

不同于传统的ERNIE 模型主要采用屏蔽单词的形式进行训练,本实施方式从通用中文语料库中获取数据作为训练样本,并以屏蔽短语的形式进行训练,更加符合中文语料的描述习惯,且训练数据充足,使训练得到的模型更加适用于对中文语料的实体及关系的抽取。

在上述实施方式中,首先采用速度较快的改进的BiLSTM模型进行实体及关系的抽取,再对抽取失败的文本利用改进的基于ERNIE的实体关系联合抽取模型进行补充抽取,不仅使抽取到的实体及关系更加全面,且保证了抽取效率。

清洗单元105调用初始知识图谱,并利用所述初始知识图谱对所述候选实体及所述候选关系进行清洗,得到目标实体及目标关系。

在本实施例中,所述初始知识图谱是指需要被优化及改进的知识图谱,所述初始知识图谱可能仅根据某个平台或者企业内部的部分数据构建,因此数据覆盖面较小,不能完全满足用户的使用需求。

在本发明的至少一个实施例中,所述清洗单元105调用初始知识图谱包括:

获取所述改进的BiLSTM模型及/或所述改进的基于ERNIE的实体关系联合抽取模型所对应的实体类别标识及关系类别标识;

从指定数据库中获取具有所述实体类别标识及所述关系类别标识的知识图谱;

将获取到的知识图谱确定为所述初始知识图谱。

其中,所述指定数据库中存储着建立的所有知识图谱。

每个知识图谱都对应有相应的实体类别及关系类别,由所述实体类别标识标记所述实体类别,及由所述关系类别标识标记所述关系类别。

因此,从所述指定数据库中获取同时具有所述实体类别标识及所述关系类别标识的知识图谱,即可获取到与模型相对应的所述初始知识图谱。

通过上述实施方式,能够保证获取到的所述初始知识图谱与启用的实体/关系抽取模型具有对应关系,这样,由所述改进的BiLSTM模型及/或所述改进的基于ERNIE的实体关系联合抽取模型联合抽取的所述候选实体及所述候选关系即可以关联于所述初始知识图谱。

可以理解的是,由于同一平台或者数据库中数据的交叉使用,在抽取到的所述候选实体及所述候选关系中,还可能存在一些重复的数据,具体包括:

抽取的候选实体间的重复,抽取到的候选关系间的重复,以及抽取到的候选实体与所述初始知识图谱中的已存在实体间的重复,抽取到的候选关系与所述初始知识图谱中的已存在关系间的重复。

因此,为了解决上述问题,避免将重复数据添加到所述知识图谱中,还需要对所述候选实体及所述候选关系进行清洗。

在本发明的至少一个实施例中,所述清洗单元105利用所述初始知识图谱对所述候选实体及所述候选关系进行清洗,得到目标实体及目标关系包括:

从所述候选实体中识别所述初始知识图谱中存在的实体,并从所述候选实体中删除识别到的实体,得到第一实体;

合并所述第一实体中重复的实体,得到所述目标实体;

从所述候选关系中识别所述初始知识图谱中存在的关系,并从所述候选关系中删除识别到的关系,得到第一关系;

合并所述第一关系中重复的关系,得到所述目标关系。

通过上述实施方式,能够实现对所述候选实体及所述候选关系的清洗,避免将重复的数据添加至所述初始知识图谱,造成数据的冗余,不仅增加了系统负担,也给后续的使用带来不便。

更新单元106将所述目标实体及所述目标关系更新至所述初始知识图谱,得到目标图谱。

在本发明的至少一个实施例中,所述更新单元106将所述目标实体及所述目标关系更新至所述初始知识图谱,得到目标图谱包括:

将所述目标实体确定为所述初始知识图谱的节点;

根据所述目标关系连接所述目标实体,得到所述目标图谱。

通过上述实施方式,结合query分析及搜索引擎实现了对知识图谱的优化更新,使更新后的知识图谱更加满足用户的实际需求,同时使知识图谱的覆盖面更加广泛,实用性更强。

传统的知识图谱的构建主要是从企业的数据库或者相关专业网站上获取数据,数据获取的难度较大,并且专业网站的数据也不一定是用户关注的数据,因此图谱构建的数据基础较小,且与用户的需求匹配率较低。

相比较而言,本实施方式通过query分析,能够抽取到用户关注的实体及关系,形成用户关注领域的知识,有效解决了回答不清楚、不准确等的问题,同时,结合query分析及搜索引擎,将与用户关注点强相关的实体及关系更新至知识图谱,使构建的图谱更加具有针对性,并扩充及丰富了知识图谱的规模。

在本发明的至少一个实施例中,在得到所述目标图谱后,为了方便后续使用,可以将所述目标图谱存储于相应的图数据库中,如NEO4J图数据库,本发明不限制。

需要说明的是,为了进一步确保数据的安全性,避免数据被恶意篡改,所述目标图谱可以存储于区块链节点上。

由以上技术方案可以看出,本发明通过query分析,能够抽取到用户关注的实体及关系,形成用户关注领域的知识,有效解决了回答不清楚、不准确等的问题,同时,结合query分析及搜索引擎,将与用户关注点强相关的实体及关系更新至知识图谱,使构建的图谱更加具有针对性,进而实现了对知识图谱的优化更新,扩充及丰富了知识图谱的规模。

上述基于query分析的图谱优化装置可以实现为计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。

请参阅图3,图3是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。

参阅图3,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于query分析的图谱优化方法。

该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于query分析的图谱优化方法。

该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于query分析的图谱优化方法。

本领域技术人员可以理解,图3中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图3所示实施例一致,在此不再赘述。

应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于query分析的图谱优化方法。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 基于query分析的图谱优化方法、装置、设备及介质
  • 基于query分析的视频反馈方法、装置、设备及介质
技术分类

06120113212458