掌桥专利:专业的专利平台
掌桥专利
首页

基于图神经网络的知识图谱对齐模型的训练方法

文献发布时间:2023-06-19 13:45:04


基于图神经网络的知识图谱对齐模型的训练方法

技术领域

本公开属于知识图谱融合领域,尤其设计基于图神经网络模型的实体对齐领域。

背景技术

实体对齐是知识图谱构建中的一项重要技术,也是近年来研究热点之一。实体对齐是指对异构数据源构成的知识图谱中,找出表述不同,但对应现实世界中同一实体的关系,通过实体对齐,可以将互相隔离的,不同来源的数据汇总融合,构成包含信息更为丰富的新知识库。

但是在现有的实体对齐方法中,对齐的效果比较差。

发明内容

本公开提供了一种基于图神经网络的知识图谱对齐模型的训练方法、对齐方法、装置、设备以及存储介质。

根据本公开的第一方面,提供了一种基于图神经网络的知识图谱对齐模型的训练方法,该方法包括:

获取训练样本,训练样本包括知识图谱及知识图谱中实体对应的标识,其中,知识图谱包括实体信息、边类型信息、边属性信息;

基于预设的关系图神经网络模型,得到知识图谱中所包括的实体的特征向量;

根据实体对应的标识,计算同一标识下多个实体的特征向量的差值,根据差值对关系图神经网络模型进行训练,得到知识图谱对齐模型;

其中,基于预设的关系图神经网络模型,得到知识图谱中所包括的实体的特征向量,包括:

基于预设的关系图神经网络模型,根据实体信息、边类型信息以及边属性信息,将知识图谱拆解为多个子图集合;

对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到多个实体的特征向量;其中,

一个子图集合属于同一实体,一个子图集合中的每个子图对应一个实体的至少一种边类型信息以及至少一种边属性信息。

在第一方面的一些实现方式中,对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到多个实体的特征向量,包括:

对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到每个子图集合中每个子图对应的实体的特征向量;

对每个子图集合中每个子图对应的实体的特征向量进行聚合,得到多个实体的特征向量。

在第一方面的一些实现方式中,对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到每个子图集合中每个子图对应的实体的特征向量,满足公式:

其中,

在第一方面的一些实现方式中,根据实体对应的标识,计算同一标识下多个实体的特征向量的差值,根据差值对关系图神经网络模型进行训练,得到知识图谱对齐模型,包括:

根据实体对应的标识,计算同一标识下多个实体的特征向量的差值;

根据差值更新关系图神经网络模型中的参数;

当更新参数后的关系图神经网络模型计算同一标识的多个实体的特征向量的差值小于第一预设阈值,且不同标识对应的实体之间的特征向量的差值大于第二预设阈值时,基于更新参数后的关系图神经网络模型得到知识图谱对齐模型。

在第一方面的一些实现方式中,在边类型信息为大于预设维度的高维向量的情况下,基于预设的关系图神经网络模型,根据实体信息、边类型信息以及边属性信息,将知识图谱拆解为多个子图集合,包括:

基于预设的关系图神经网络模型,根据实体信息、边类型信息以及边属性信息,通过偏置分解以及区块对角化分解的方式,将知识图谱拆解为多个子图集合。

根据本公开的第二方面,提供了一种基于图神经网络的知识图谱对齐方法,该方法包括:

获取待对齐知识图谱,其中,待对齐知识图谱包括实体信息、边类型信息以及边属性信息;

将待对齐知识图谱输入至知识图谱对齐模型中,得到多个实体的特征向量,其中,知识图谱对齐模型是根据第一方面,以及第一方面的一些实现方式中的任意一项训练方法得到的;

根据多个实体的特征向量,将不同的实体进行对齐。

在第二方面的一些实现方式中,根据特征向量,将不同的实体进行对齐,包括:

根据不同实体对应的特征向量,计算不同实体中除目标实体外每个实体对应的特征向量与目标实体对应的特征向量的差值;

当差值小于预设阈值时,将差值对应的实体与目标实体对齐。

根据本公开的第三方面,提供了一种基于图神经网络的知识图谱对齐模型的训练装置,该装置包括:

获取模块,用于获取训练样本,训练样本包括知识图谱及知识图谱中实体对应的标识,其中,知识图谱包括实体信息、边类型信息、边属性信息;

计算模块,用于基于预设的关系图神经网络模型,得到知识图谱中所包括的实体的特征向量;

训练模块,用于根据实体对应的标识,计算同一标识下多个实体的特征向量的差值,根据差值对关系图神经网络模型进行训练,得到知识图谱对齐模型;

其中,基于预设的关系图神经网络模型,得到知识图谱中所包括的实体的特征向量,包括:

基于预设的关系图神经网络模型,根据实体信息、边类型信息以及边属性信息,将知识图谱拆解为多个子图集合;

对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到多个实体的特征向量;其中,

一个子图集合属于同一实体,一个子图集合中的每个子图对应一个实体的至少一种边类型信息以及至少一种边属性信息。

根据本公开的第四方面,提供了一种基于图神经网络的知识图谱对齐装置,该装置包括:

获取模块,用于获取待对齐知识图谱,其中,所述待对齐知识图谱包括实体信息、边类型信息以及边属性信息;

计算模块,用于将所述待对齐知识图谱输入至知识图谱对齐模型中,得到多个实体的特征向量,其中,所述知识图谱对齐模型是根据第一方面,以及第一方面的一些实现方式中的任意一项训练方法得到的;

对齐模块,用于根据所述多个实体的特征向量,将不同的实体进行对齐。

根据本公开的第五方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述第一方面,以及第一方面的一些实现方式中基于图神经网络的知识图谱对齐模型的训练方法,或者实现如以上所述第二方面,以及第二方面的一些实现方式中基于图神经网络的知识图谱对齐方法。

根据本公开的第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述第一方面,以及第一方面的一些实现方式中基于图神经网络的知识图谱对齐模型的训练方法,或者实现如以上所述第二方面,以及第二方面的一些实现方式中基于图神经网络的知识图谱对齐方法。

本公开提供的基于图神经网络的知识图谱对齐模型的训练方法、对齐方法、装置、设备以及存储介质,预设的关系图神经网络模型在通过实体和边类型进行卷积的基础上,又在加入了边属性信息嵌入向量连接而成的图上进行卷积,是一种能够显示全面建模知识图谱上各种丰富信息的图卷积神经网络,因此得到的知识图谱对齐模型可以考虑知识图谱上除连边(边类型信息)和节点特征(实体信息)之外的其他重要信息,使得实体对齐的效果较好。

应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:

图1示出了一种本公开实施例的基于图神经网络的知识图谱对齐模型的训练方法的流程示意图;

图2示出了一种本公开实施例的知识图谱的示意图;

图3示出了一种本公开实施例的基于图神经网络的知识图谱对齐方法的流程示意图;

图4示出了一种本公开实施例的基于图神经网络的知识图谱对齐模型的训练装置的框图;

图5示出了一种本公开实施例的基于图神经网络的知识图谱对齐装置的框图;

图6示出了能够实施本公开的实施例的示例性电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

实体对齐是指对异构数据源构成的知识图谱中,找出表述不同,但对应现实世界中同一实体的关系,通过实体对齐,可以将互相隔离的,不同来源的数据汇总融合,构成包含信息更为丰富的新知识库。

知识图谱技术通过对海量异构数据进行建模分析和深度挖掘,能够大幅提高军事业务数据的综合利用能力,为复杂数据世界的多维审视提供了崭新视角,在情报侦察挖掘、作战指挥控制、战场态势感知、网电空间安全等方面有广阔应用空间。

早期的实体对齐算法建立在基于符号表示的知识上,需要花费大量的人工成本,或面向特定的领域制定相应的规则。

近年来,基于知识表示学习的模型广泛应用于实体对齐任务,知识表示学习将实体嵌入到低维稠密的向量空间中,通过计算实体嵌入向量间的距离进行实体对齐,其中主要有基于翻译的模型。基于翻译的模型将知识库中实体间的关系看做实体向量间的平移操作,通过使知识库中的所有实体尽可能地满足这种关系,模型可以学到实体间的部分语义信息。

除了翻译模型外,也出现了一些其他的知识表示学习模型,其中基于卷积模型的方法在部分问题的处理上优于翻译模型。基于卷积的模型早期使用 CNN作用到实体向量或元素组成的矩阵上,但 CNN 模型是为规则的阵列数据设计的,并不能很好地处理不规则的图结构的数据。

近年来,研究者提出基于GCN 模型的实体对齐算法,GCN 也被称为图卷积网络,是用来提取图结构数据特征的一种神经网络,它将卷积操作直接作用在图上,能够提取图的整体结构信息。有研究者在GCN 的基础上提出了R-GCN(Relational graph convolutionalnetwork,关系图卷积神经网络)模型,它是对GCN 的一个扩展,在图卷积网络的基础上加入了边的信息,因此可以用来学习知识图谱中的实体嵌入表示。关于R-GCN 关系图卷积,一个顶点的更新是由不同类型的边连接的顶点来决定的,在同一类型边下有分为进边和出边,还有假设指向自己的边类型,R-GCN 模型能够利用节点的特征来区分不同邻居的重要程度。

但是早期的基于符号表示的实体对齐算法往往费时费力,而且面临着计算效率低和扩展性差等问题。

基于翻译的模型只能学到实体间的部分语义信息,语义信息不够丰富,在实体和关系的表示中没有考虑到整幅图的结构。

基于卷积的模型是为规则的阵列数据设计的,并不能很好地处理不规则的图结构的数据。

基于图卷积网络的模型由于GCN 在无向图、无标记图上运行,会忽略知识图谱的关系信息,实体对齐表现欠佳。此外,R-GCN 模型也具有局限性,它忽略了网络上除了连边和节点特征之外的其他重要信息,也会导致实体对齐表现欠佳。

综上,在现有的实体对齐方法中,对齐的效果比较差。

在本公开中,发明人考虑到现有的基于R-GCN 的实体对齐算法是基于实体之间的关系结构构建,忽略了网络上除了连边和节点特征之外的其他重要信息,因此对现有的R-GCN模型进行改进,提供了一种基于图神经网络的知识图谱对齐模型的训练方法、对齐方法、装置、设备以及存储介质,通过获取训练样本,训练样本包括知识图谱及知识图谱中实体对应的标识,其中,知识图谱包括实体信息、边类型信息、边属性信息;之后基于预设的关系图神经网络模型,得到知识图谱中所包括的实体的特征向量;然后根据实体对应的标识,计算同一标识下多个实体的特征向量的差值,根据差值对关系图神经网络模型进行训练,得到知识图谱对齐模型;其中,基于预设的关系图神经网络模型,得到知识图谱中所包括的实体的特征向量,包括:基于预设的关系图神经网络模型,根据实体信息、边类型信息以及边属性信息,将知识图谱拆解为多个子图集合;对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到多个实体的特征向量;其中,一个子图集合属于同一实体,一个子图集合中的每个子图对应一个实体的至少一种边类型信息以及至少一种边属性信息。因为在训练知识图谱对齐模型的过程中,不仅考虑到知识图谱中的实体信息与边类型信息,还考虑到知识图谱中的边属性信息,之后基于实体信息与边类型信息以及边属性信息的对应关系作为训练样本,对预设的关系图神经网络模型进行训练,得到知识图谱对齐模型,所以得到的知识图谱对齐模型可以考虑知识图谱网络上除连边(边类型信息)和节点特征(实体信息)之外的其他重要信息,使得实体对齐效果较好。

下面结合附图对本公开实施例提供的技术方案进行描述。

图1是本公开实施例提供的一种基于图神经网络的知识图谱对齐模型的训练方法的流程示意图,如图1所示,基于图神经网络的知识图谱对齐模型的训练方法可以包括:

S101:获取训练样本,训练样本包括知识图谱及知识图谱中实体对应的标识,其中,知识图谱包括实体信息、边类型信息、边属性信息。

S102:基于预设的关系图神经网络模型,得到知识图谱中所包括的实体的特征向量。

S103:根据实体对应的标识,计算同一标识下多个实体的特征向量的差值,根据差值对关系图神经网络模型进行训练,得到知识图谱对齐模型。

其中,该标识属于实体的一种标记信息,可以理解的是,该标识为现实世界对同一实体的标记,例如A实体在一些环境下被称为C,在另一些环境下被称为D,那么C和D的标识即为A,以用于后续的实体识别模型训练。

在一个实施例中,基于预设的关系图神经网络模型,得到知识图谱中所包括的实体的特征向量,包括:

基于预设的关系图神经网络模型,根据实体信息、边类型信息以及边属性信息,将知识图谱拆解为多个子图集合;

对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到多个实体的特征向量;其中,

一个子图集合属于同一实体,一个子图集合中的每个子图对应一个实体的至少一种边类型信息以及至少一种边属性信息。此处属于同一实体的子图集合再以A为例的话,那该集合即为A实体的多个子图。

因为在S101-S104的训练知识图谱对齐模型的过程中,不仅考虑到知识图谱中的实体信息与边类型信息,还考虑到知识图谱中的边属性信息,之后基于实体信息与边类型信息以及边属性信息的对应关系作为训练样本,对预设的关系图神经网络模型进行训练,得到知识图谱对齐模型,所以得到的知识图谱对齐模型可以考虑网络上除连边(边类型信息)和节点特征(实体信息)之外的其他重要信息,使得实体对齐的效果较好。

在一个实施例中,上述预设的关系图神经网络模型属于一种改进后的R-GCN模型,该模型会将包含复杂额外信息的网络化数据拆解成多个不同的子图,此处的多个不同的子图对应一个实体,即为上述的子图集合,拆解后每个子图只包含单一的连边类型,对拆解后的每个子图利用传统的图卷积神经网络建模,最后将每个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到每个子图集合中每个子图对应的实体的特征向量,之后对每个子图集合中每个子图对应的实体的特征向量进行聚合,得到多个实体的特征向量。

在一个实施例中,基于改进后的R-GCN模型对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到每个子图集合中每个子图对应的实体的特征向量,满足公式(1):

在公式(1)中,

这样,改进后的R-GCN 模型可以在实体加边属性连接起来的知识图上进行卷积,学习实体基于属性信息的嵌入,再结合实体基于关系结构的嵌入,是一种能够同时利用实体的关系结特征和属性结构特征显示全面建模知识图谱上各种丰富信息的图卷积神经网络。在具体的学习训练过程,根据实体对应的标识,计算同一标识下多个实体的特征向量的差值,根据所述差值对所述关系图神经网络模型进行训练,得到知识图谱对齐模型,包括:

根据实体对应的标识,计算同一标识下多个实体的特征向量的差值;

根据所述差值更新所述关系图神经网络模型中的参数;

当更新参数后的关系图神经网络模型计算同一标识的多个实体的特征向量的差值小于第一预设阈值,且不同标识对应的实体之间的特征向量的差值大于第二预设阈值时,基于更新参数后的关系图神经网络模型得到知识图谱对齐模型。

具体地,在上述训练得到知识图谱对齐模型的过程中,同一标识的多个实体的特征向量的差值小于第一预设阈值可以理解为是期望对齐的实体之间的距离尽可能近。不同标识对应的实体之间的特征向量的差值大于第二预设阈值可以理解为是负实体对之间的距离尽可能远,因此可以利用如公式(2)所示的基于边缘的评分函数作为目标进行训练。

式中,

在一个实施例中,当边类型是高维向量时,连边的类型会随维度增长呈指数增长。此时直接应用关系图神经网络,需要分解成大量的子图,同时每个子图非常稀疏,在这种情况下节点很难学习到有效地表达。为了减少参数关系,在本公开中改进的R-GCN模型,即本公开中所使用的预设的关系图神经网络模型会使用两种不同的方式,偏置分解(basis-decomposition)和区块对角化分解(block-diagonaldecomposition)。

在一个具体的实施例中,包括边类型信息、边属性信息以及实体信息的知识图谱可以如图2所示,以方便对上述过程进行进一步理解。例如C战机在一种环境下以型号指代,在另一种环境下以绰号指代,但是该战机的型号和绰号在现实世界中都指代一种战机,本公开的目的就是根据知识图谱的边类型信息、边属性信息对不同环境下不同名称的同一个实体进行识别,例如对同一种战机进行识别。

本公开的核心创新点是改进R-GCN 模型,在常规R-GCN 模型的基础上又加入了边上的属性的信息,以增加对知识图谱中实体的分析以及识别。

本公开提供的基于图神经网络的知识图谱对齐模型的训练方法,在R-GCN 模型通过实体和边类型进行卷积的基础上进行改进,在加入了边属性信息嵌入向量连接而成的图上进行卷积,是一种能够显示全面建模知识图谱上各种丰富信息的图卷积神经网络,因此训练得到的知识图谱对齐模型可以考虑知识图谱上除连边(边类型信息)和节点特征(实体信息)之外的其他重要信息,使得实体对齐的效果较好。

与图1所示的基于图神经网络的知识图谱对齐模型的训练方法的流程示意图相对应,本公开还提供了一种基于图神经网络的知识图谱对齐方法。

图3是本公开实施例提供的一种基于图神经网络的知识图谱对齐方法的流程示意图,如图3所示,基于图神经网络的知识图谱对齐方法可以包括:

S301:获取待对齐知识图谱,其中,待对齐知识图谱包括实体信息、边类型信息以及边属性信息。

S302:将待对齐知识图谱输入至知识图谱对齐模型中,得到多个实体的特征向量,其中,知识图谱对齐模型是根据图1中的训练方法得到的。

S303:根据多个实体的特征向量,将不同的实体进行对齐。

在一个实施例中,根据特征向量,将不同的实体进行对齐,包括:

根据不同实体对应的特征向量,计算不同实体中除目标实体外每个实体对应的特征向量与目标实体对应的特征向量的差值;

当差值小于预设阈值时,将差值对应的实体与目标实体对齐。

其中,该目标实体具体是指待对齐的实体,例如,在一个实施例中,想将不同知识图谱中C战机不同名称的实体进行对齐,那C战机即为上述的目标实体。

具体地,在上述对齐的过程中,具体关系如公式(3)所示。

其中,

在本公开提供的基于图神经网络的知识图谱对齐方法中,因为使用的知识图谱对齐模型,是基于R-GCN 模型在通过实体和边类型进行卷积的基础上,在加入了边属性信息嵌入向量连接而成的图上进行卷积进行改进得到的,是一种能够显示全面建模知识图谱上各种丰富信息的图卷积神经网络,因此得到的知识图谱对齐模型可以考虑知识图谱上除连边(边类型信息)和节点特征(实体信息)之外的其他重要信息,进而使得在进行实体对齐时,效果较好。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。

与图1所示的基于图神经网络的知识图谱对齐模型的训练方法的流程示意图相对应,图4示出了一种基于图神经网络的知识图谱对齐模型的训练装置400的方框图。训练装置400如图4所示,可以包括:

获取模块401,可以用于获取训练样本,训练样本包括知识图谱及知识图谱中实体对应的标识,其中,知识图谱包括实体信息、边类型信息、边属性信息;

计算模块402,可以用于基于预设的关系图神经网络模型,得到知识图谱中所包括的实体的特征向量;

训练模块403,可以用于根据实体对应的标识,计算同一标识下多个实体的特征向量的差值,根据差值对关系图神经网络模型进行训练,得到知识图谱对齐模型;

其中,基于预设的关系图神经网络模型,得到知识图谱中所包括的实体的特征向量,包括:

基于预设的关系图神经网络模型,根据实体信息、边类型信息以及边属性信息,将知识图谱拆解为多个子图集合;

对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到多个实体的特征向量;其中,

一个子图集合属于同一实体,一个子图集合中的每个子图对应一个实体的至少一种边类型信息以及至少一种边属性信息。

在一个实施例中,训练模块403,还可以用于对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到每个子图集合中每个子图对应的实体的特征向量;以及对每个子图集合中每个子图对应的实体的特征向量进行聚合,得到多个实体的特征向量。

在一个实施例中,对多个子图集合中的每个子图对应的边类型信息以及边属性信息进行卷积,得到每个子图集合中每个子图对应的实体的特征向量,满足公式:

其中,

在一个实施例中,训练模块403,还可以用于根据实体对应的标识,计算同一标识下多个实体的特征向量的差值;根据差值更新关系图神经网络模型中的参数;当更新参数后的关系图神经网络模型计算同一标识的多个实体的特征向量的差值小于第一预设阈值,且不同标识对应的实体之间的特征向量的差值大于第二预设阈值时,基于更新参数后的关系图神经网络模型得到知识图谱对齐模型。

在一个实施例中,训练模块403,还可以用于在边类型信息为大于预设维度的高维向量的情况下,基于预设的关系图神经网络模型,根据实体信息、边类型信息以及边属性信息,通过偏置分解以及区块对角化分解的方式,将知识图谱拆解为多个子图集合。

本公开提供的基于图神经网络的知识图谱对齐模型的训练装置,在R-GCN 模型通过实体和边类型进行卷积的基础上进行改进,在加入了边属性信息嵌入向量连接而成的图上进行卷积,是一种能够显示全面建模知识图谱上各种丰富信息的图卷积神经网络,因此训练得到的知识图谱对齐模型可以考虑知识图谱上除连边(边类型信息)和节点特征(实体信息)之外的其他重要信息,使得实体对齐效果较好。

可以理解的是,图4所示的基于图神经网络的知识图谱对齐模型的训练装中的各个模块具有实现图1中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。

与图3所示的基于图神经网络的知识图谱对齐方法的流程示意图相对应,图5示出了一种基于图神经网络的知识图谱对齐装置500的方框图。训练装置500如图5所示,可以包括:

获取模块501,可以用于获取待对齐知识图谱,其中,待对齐知识图谱包括实体信息、边类型信息以及边属性信息;

计算模块502,可以用于将待对齐知识图谱输入至知识图谱对齐模型中,得到多个实体的特征向量,其中,知识图谱对齐模型是根据图1中的训练方法得到的;

对齐模块503,可以用于根据多个实体的特征向量,将不同的实体进行对齐。

在一个实施例中,对齐模块503,还可以用于根据不同实体对应的特征向量,计算不同实体中除目标实体外每个实体对应的特征向量与目标实体对应的特征向量的差值;当差值小于预设阈值时,将差值对应的实体与目标实体对齐。

在本公开提供的基于图神经网络的知识图谱对齐装置中,因为使用的知识图谱对齐模型,是基于R-GCN 模型在通过实体和边类型进行卷积的基础上,又在加入了边属性信息嵌入向量连接而成的图上进行卷积以及训练得到的,是一种能够显示全面建模知识图谱上各种丰富信息的图卷积神经网络,因此得到的知识图谱对齐模型可以考虑知识图谱上除连边(边类型信息)和节点特征(实体信息)之外的其他重要信息,进而使得在进行实体对齐时,效果较好。

可以理解的是,图5所示的基于图神经网络的知识图谱对齐装置中的各个模块具有实现图3中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如图1中基于图神经网络的知识图谱对齐模型的训练方法,或图3中基于图神经网络的知识图谱对齐方法。例如,在一些实施例中,图1中基于图神经网络的知识图谱对齐模型的训练方法,或图3中基于图神经网络的知识图谱对齐方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 606并由计算单元601执行时,可以执行上文描述的密钥的零知识证明方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图1中基于图神经网络的知识图谱对齐模型的训练方法,或图3中基于图神经网络的知识图谱对齐方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术分类

06120113791635