掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多关系选择的动态知识图谱推理方法及系统

文献发布时间:2024-04-18 19:52:40


一种基于多关系选择的动态知识图谱推理方法及系统

技术领域

本发明涉及知识图谱推理技术领域,更具体地,涉及一种基于多关系选择的动态知识图谱推理方法及系统。

背景技术

知识图谱技术近年来得到了国内学术界和工业界的极大关注,已经在金融、电商、健康、医疗等涉及国计民生的重要行业中展示出巨大的应用潜力,提供了一种从海量数据中挖掘和表达实体间关系的方法,是一种有效的知识表达形式,推动了一系列知识库的建立,例如DBpedia、YAGO、Freebase等等,为语义搜索、人机问答、个性推荐、智能手机助理等应用提供了重要支撑。

例如,中国专利CN112084344A公开了一种知识图谱推理方法,包括:获取待补全的初始知识图谱数据,初始知识图谱数据包括多组初始数据组,初始数据组仅包括头实体和实体关系;根据初始知识图谱数据,调用知识图谱推理模型得到补全后的目标知识图谱数据,知识图谱推理模型是基于强化学习预先训练得到的模型,目标知识谱图数据中的每组目标数据组均包括头实体、实体关系和尾实体。该专利的实施例通过调用基于强化学习训练得到的知识图谱推理模型对初始知识图谱进行知识推理,没有考虑时间的变化,采用多次训练来完善知识图谱。

目前有很多动态图嵌入的方法能够支持图上节点的在线嵌入学习,但是这些方法不能直接应用于动态知识图谱嵌入,因为它们所支持的节点嵌入是基于结构性近邻,而无法描述语义层面的关系边缘信息。目前还有一些时间知识图谱模型也能够用于动态知识图谱,但他们的目标是从带有时间戳的知识图谱快照中挖掘不断发展的知识,用于链式预测和时间预测。因此,现有的动态知识图谱不完备且时间关联性弱。

发明内容

本发明针对现有技术中存在的动态知识图谱的不完备、时间关联性弱的技术问题。

本发明提供了一种基于多关系选择的动态知识图谱推理方法,包括以下步骤:

S1,提取目标实体在不同关系对应下的隐藏特征,筛选出于目标实体关联性较强的关系信息,并聚合同一时间步下多关系对应的邻域信息;

S2,使用LSTM神经网络对时间序列上事件的动态信息进行编码;

S3,将编码序列输入多元分类器,提取特征,输出待预测实体或关系的概率分布。

优选地,所述S1具体包括:

在RGCN邻近聚合器的基础上,构建只保留需要预测的目标实体对应的多关系下的邻域信息的多关系邻近选择聚合器,然后用求取累积均值向量的方法,得到目标实体邻域信息的向量表示。

优选地,所述S1具体包括:

通过筛选所有的邻域信息,获得与目标实体关联性较强的邻域信息;

通过融合获取的特定领域信息与过去时间步的信息,实现多关系邻近选择性聚合。

优选地,所述S2具体包括:

S21,使用长短时记忆网络LSTM对时序知识进行建模,构建一个连续知识三元组预测模型;

S22,获得动态知识三元组在多时间、多关系上的依赖性,建立动态知识图谱的联合概率模型。

优选地,所述S21具体包括:

将动态知识图谱DCIKG表示为时序知识三元组的序列;

假设在一个时间点τ处的知识三元组集合G

计算出动态知识图谱的联合概率分布。

优选地,所述S3具体包括:

使用全连接层提取特征,选择逻辑回归激活函数(softmax)输出待预测实体或关系的概率分布。

优选地,所述S3具体包括:

使用多分类的交叉熵损失函数表示实体和关系的预测,然后得到RS-NET动态知识图谱推理模型的整体损失函数。

本发明还提供了一种基于多关系选择的动态知识图谱推理系统,所述系统用于实现基于多关系选择的动态知识图谱推理方法,包括:

多关系邻近选择聚合器,用于提取目标实体在不同关系对应下的隐藏特征,筛选出于目标实体关联性较强的关系信息,并聚合同一时间步下多关系对应的邻域信息;

时序知识编码器,用于,使用LSTM神经网络对时间序列上事件的动态信息进行编码;

时序知识推理模块,用于将编码序列输入多元分类器,提取特征,输出待预测实体或关系的概率分布。

本发明还提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于多关系选择的动态知识图谱推理方法的步骤。

本发明还提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于多关系选择的动态知识图谱推理方法的步骤。

有益效果:本发明提供的一种基于多关系选择的动态知识图谱推理方法及系统,其中方法包括:提取目标实体在不同关系对应下的隐藏特征,筛选出于目标实体关联性较强的关系信息,并聚合同一时间步下多关系对应的邻域信息;使用LSTM神经网络对时间序列上事件的动态信息进行编码;将编码序列输入多元分类器,提取特征,输出待预测实体或关系的概率分布。通过在RGCN邻近聚合器的基础之上,设计了一种多关系邻近选择聚合器,获取时间上相邻的实体的语义和结构信息,增强对同时间步内多个关系实体的聚合能力,充分利用相邻实体之间的关系结构依赖特征,从而提高动态知识图谱推理的性能。

附图说明

图1为本发明提供的一种基于多关系选择的动态知识图谱推理方法原理图;

图2为本发明提供的多关系邻近选择聚合模块的比较示意图;

图3为本发明提供的LSTM神经网络结构与计算公式图;

图4为本发明提供的一种可能的电子设备的硬件结构示意图;

图5为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

如图1所示,本发明实施例提供的一种基于多关系选择的动态知识图谱推理方法,包括以下步骤:

S1,提取目标实体在不同关系对应下的隐藏特征,筛选出于目标实体关联性较强的关系信息,并聚合同一时间步下多关系对应的邻域信息;

S2,使用LSTM神经网络对时间序列上事件的动态信息进行编码;

S3,将编码序列输入多元分类器,提取特征,输出待预测实体或关系的概率分布。

其中,动态知识图谱推理的核心任务是根据已知的实体、关系以及时间等信息,推理预测出时序事实四元组中缺失的实体、关系等知识元素,主要包括两种:

(1)时间条件已知,给定(h,r,τ)或者给定(r,t,τ),推理出缺失的尾实体或头实体,即判断事实四元组(h,r,t,τ)是否有效;

给定一个动态知识图谱的时间步范围从t

(2)时间条件已知,给定(h,t,τ

动态知识图谱可表示为:DKG=(E,R,T),其中,E,R,T分别表示动态知识图谱中的实体、关系、时间集合,一条时序知识,可视为一条带有时间标识的实体对及其关系,即事实四元组(头实体,关系,尾实体,时间),可表示为(h,r,t,τ)或者(h

优选的方案,步骤S1具体包括:通过筛选所有的邻域信息,获得与目标实体关联性较强的邻域信息;通过融合获取的特定领域信息与过去时间步的信息,实现多关系邻近选择性聚合。在一个具体的实施场景中:

在RGCN邻近聚合器的基础上,构建多关系邻近选择聚合器(Multi-RelationalSelected Graph Aggregator),如图2所示。多关系邻近选择聚合器只保留需要预测的目标实体对应的多关系下的邻域信息,能够有效避免非相关目标实体邻域信息的影响。最后使用求取累积均值向量的方法,得到目标实体邻域信息的向量表示。

多关系邻近选择聚合器在准确聚合邻域特征、提高推理效果的同时,还能够简化推理计算的复杂度、提升推理效率。

RGCN聚合器能够将目标节点的多重关系和多级邻近的信息都包含在内,聚合多关系邻域和多跳邻域的信息。

对于目标节点的每种关系都可以得到一个实体-关系局部结构图,而对于多关系图中,一个实体的信息来源于他的所有类型关系下的聚合信息的聚合,聚合函数η(·)将过去时间步中的信息进行结合,定义如下:

对于每个目标实体节点,它的初始隐层表示为

优选的方案,步骤S2具体包括:获得动态知识三元组在多时间、多关系上的依赖性,建立动态知识图谱的联合概率模型。在一个具体的实施场景中:

动态知识图谱本质上可视为带时间序列的知识三元组构成,具有很强的时间依赖性。对于动态知识图谱的推理,一般基于知识三元组的时间关联性,即利用知识三元组在时域上的动态关联性,预测即将发生的事件。循环事件编码器的核心就是通过构建一个连续知识三元组预测模型,获得动态知识三元组在多时间、多关系上的依赖性。具体来说,循环事件编码器的目的是建立动态知识图谱的联合概率模型。

动态知识图谱DCIKG可表示为时序知识三元组的序列,定义为G={G

假设在一个时间点τ处的知识三元组集合G

其中,E

由上式可知:给定所有过去时序事实G

基于上述表示,尾实体t

其中,

类似地,可以定义关系r和头实体h的概率,如下所示:

其中,

循环事件编码器能够在整个动态知识图谱的联合概率分布建模的基础上,有效捕捉知识三元组在时间上的相关性。Jin等人采用了循环神经网络(Recurrent NeuralNetwork,RNN)对时序事件序列进行建模,取得了较好的效果,但是对长时间关联的信息特征利用不足。García等人发现长短时记忆网络(Long Short-Term Memory,LSTM)能够有效捕捉时序知识在更长时间内的依赖信息。因此,本申请实施例选择使用LSTM对时序知识进行建模。LSTM的神经网络结构与计算公式,如图3所示。

LSTM神经网络的相关研究已较为成熟,不再赘叙。为方便表示与计算,后文以函数LSTM(·)来表示相关操作,如公式9所示:

h=LSTM(x

其中,x

全局表示H

H

其中,η(·)是前面构建的聚合函数;

优选的方案,步骤S3具体包括:将编码序列输入多元分类器,使用全连接层提取特征,选择逻辑回归激活函数(softmax)输出待预测实体或关系的概率分布。在一个具体的实施场景中:

通过LSTM编码器后,将编码序列输入多元分类器,使用全连接层提取特征,选择逻辑回归激活函数(softmax)输出待预测实体或关系的概率分布。

RS-NET动态知识图谱推理模型将实体预测和关系预测视为一个多分类任务,每个分类分别对应一个实体或关系对象。本实施例分别使用多分类的交叉熵损失函数表示实体和关系的预测:

可得,RS-NET动态知识图谱推理模型的整体损失函数:

其中,α与β是分别表示不同目标损失函数的权重系数,针对不同的动态知识图谱推理任务,α与β取值不同。

如图1所示,本发明实施例还提供了一种基于多关系选择的动态知识图谱推理系统,所述系统用于实现如前所述的基于多关系选择的动态知识图谱推理方法,包括:

多关系邻近选择聚合器,用于提取目标实体在不同关系对应下的隐藏特征,筛选出于目标实体关联性较强的关系信息,并聚合同一时间步下多关系对应的邻域信息;

时序知识编码器,用于,使用LSTM神经网络对时间序列上事件的动态信息进行编码;

时序知识推理模块,用于将编码序列输入多元分类器,提取特征,输出待预测实体或关系的概率分布。

请参阅图2为本发明实施例提供的电子设备的实施例示意图。如图2所示,本发明实施例提了一种电子设备,包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:S1,提取目标实体在不同关系对应下的隐藏特征,筛选出于目标实体关联性较强的关系信息,并聚合同一时间步下多关系对应的邻域信息;

S2,使用LSTM神经网络对时间序列上事件的动态信息进行编码;

S3,将编码序列输入多元分类器,提取特征,输出待预测实体或关系的概率分布。

请参阅图3为本发明提供的一种计算机可读存储介质的实施例示意图。如图3所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:S1,提取目标实体在不同关系对应下的隐藏特征,筛选出于目标实体关联性较强的关系信息,并聚合同一时间步下多关系对应的邻域信息;

S2,使用LSTM神经网络对时间序列上事件的动态信息进行编码;

S3,将编码序列输入多元分类器,提取特征,输出待预测实体或关系的概率分布。

需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

相关技术
  • 一种知识图谱推理方法、电子设备、存储介质及系统
  • 一种基于知识图谱的数据推理方法、装置、服务器和介质
  • 知识图谱向量表示方法、知识图谱关系推理方法及系统
  • 一种基于知识图谱的家族关系推理方法及系统
技术分类

06120116332954