一种基于邻域特征的知识图谱实体对齐方法
文献发布时间:2024-04-18 19:58:26
技术领域
本发明涉及知识图谱技术,具体涉及一种基于邻域特征的知识图谱实体对齐方法。
背景技术
知识图谱是一种融合多语言和多知识信息的结构化知识存储形式,可以将结构化的数据和非结构化的数据整合到一个统一的模型中,并将其转换为机器可读的形式进行存储。在知识图谱中,知识以(s,o,p)形式的三元组进行表示,包括<头实体,关系,尾实体>和<实体,属性,属性值>两种形式,知识图谱利用这两种三元组形式可以有效表达复杂的知识结构,使现实世界中的知识在计算机世界中更加直观和易于理解,已经被广泛应用到了许多领域之中,包括问答系统、搜索引擎和推荐系统等。
然而,不同的知识图谱在构建时所依据的知识源并不相同,导致某个单一的知识图谱可能缺少某些特定领域的知识信息,从而难以应用到其他领域。此外,不同的知识图谱中关于某个实体的知识也可能并不完整,这些知识之间可以相互补充。为了获得更加完整的知识图谱,需要进行知识融合,整合不同知识源中的信息,从而使得知识图谱更加全面和准确。实体对齐是指在不同的知识图谱或者本体中,找到具有相同语义的实体进行匹配的过程,以便为知识融合和扩展提供基础依据。
现有的利用实体嵌入进行对齐的方法大多认为对应的实体具有相似的邻域结构,因此才能为等价的实体生成相似的嵌入。然而由于知识图谱间的异质性,实际的图谱中,等价的实体的邻居可能存在较大的差异,实体对齐精度会随着实体邻域的差异变大而显著降低,因此,这种图谱间的邻域异质性对实体对齐带来了重大挑战。
发明内容
本发明所要解决的技术问题是:提出一种基于邻域特征的知识图谱实体对齐方法,解决知识图谱间的异质性对对齐精度的影响,以提高知识图谱实体对齐的准确性和可靠性。
本发明解决上述技术问题采用的技术方案是:
一种基于邻域特征的知识图谱实体对齐方法,包括以下步骤:
A、输入训练数据,训练知识图谱实体对齐模型;所述训练数据包括源知识图谱G
A1、利用图神经网络,获得输入两知识图谱G
A2、利用邻域匹配模型,以源知识图谱G
所述邻域匹配模型的匹配过程包括:
A21、针对计算图谱G
A22、针对计算图谱G
A221、计算当前计算实体e
计算当前计算节点p与各节点q的注意力权重a
A222、计算当前计算实体e
A3、利用步骤A2获得的G
A4、判断是否完成训练,若是则获得完成训练的知识图谱实体对齐模型;否则,利用步骤A2获得的G
B、知识图谱实体对齐
B1、输入待进行实体对齐的源知识图谱G
B2、利用完成训练的知识图谱实体对齐模型,基于步骤A1~A2,获得G
B3、利用步骤B2获得的G
具体的,步骤A4中,利用获得的G
其中,
进一步的,步骤A4中,还包括:
按如下公式,对实体e
其中,
所述集合M
首先,针对M
然后,按如下公式计算实体对(m
P(r
其中,|·|表示计数。
进一步的,步骤A4中,所述预设的实体匹配阈值为自适应阈值Δ:
其中,sim
进一步的,步骤A1,利用图神经网络,获得输入两知识图谱G
A11、利用预训练模型,获得两知识图谱G
A12、以实体为节点、关系为边,分别将两知识图谱G
A13、以实体的初始化嵌入表征作为初始的节点嵌入表征,利用GCN网络,基于各节点在图中的邻居节点的节点嵌入表征,对各节点的节点嵌入表征进行更新,将各节点更新后的节点嵌入表征,作为其所对应实体的嵌入表征。
进一步的,步骤A11中,利用预训练模型,获得两知识图谱G
A111、将源知识图谱G
A112、以H
进一步的,步骤A13中,以实体的初始化嵌入表征作为初始的节点嵌入表征,利用图卷积神经网络,基于各节点在图中的邻居节点的节点嵌入表征,对各节点的节点嵌入表征进行更新,将各节点更新后的节点嵌入表征,作为其所对应实体的嵌入表征,包括:
A131、将实体的初始化嵌入表征作为节点嵌入表征,输入GCN网络;
A132、基于输入的节点嵌入表征
其中,
A133、按如下公式,对当前层的节点中间嵌入表征H′
H
其中,σ表示sigmod函数,⊙为元素乘法,
A134、根据预设的GCN网络层数,判断是否完成计算,若是则将步骤A133获得的H
进一步的,步骤A中,输入的训练数据还包括关系对种子集合Q
步骤A3中,模型的总损失还包括关系匹配损失,其计算过程包括:
C1、由步骤A112的预训练TransE模型,获得两知识图谱G
C2、针对各关系,分别构建关系子图;所述关系子图的节点包括关系节点和实体节点,所述关系节点对应关系子图的关系,所述实体节点为目标知识图谱G
C3、针对各关系,以步骤A1获得实体嵌入表征作为实体节点的节点嵌入表征,以步骤C1获得的关系的初始化嵌入表征作为初始的关系节点的关系嵌入表征;利用GCN网络,基于关系节点在关系子图中的邻居实体节点的节点嵌入表征,对关系节点的关系嵌入表征进行更新,将更新后的关系嵌入表征,作为其所对应关系的嵌入表征;
C4、利用步骤C3获得的G
步骤A4中,还包括:
利用步骤C3获得的G
进一步的,步骤C2中,所述关系子图的边包括入边和出边,并定义实体节点中头实体与关系节点的连接为入边,定义实体节点中尾实体与关系节点的连接为出边;
步骤C3中,针对各关系,首先,利用GCN网络,分别基于该关系的出边邻居实体节点和入边邻居实体节点的节点嵌入表征,按如下公式进行聚合,获得该关系的出边聚合a
然后,将该关系的出边聚合a
a=[a
x=MLP([a;x
其中,
进一步的,步骤A3中,模型总损失为:
其中,p、
其中,
其中,δ为距离超参数,d表示距离函数,S为正样本集合,(h,r,t)为正样本集合中的三元组,其基于实体对种子集合中的实体采样于输入的知识图谱;S′为负样本集合,(h′,r,t′)为负样本集合中的三元组,其由正样本集合中的三元组经头实体替换或尾实体替换而来,且不属于输入的知识图谱;
其中,
其中,γ为距离超参数,d表示距离函数,Q
其中,
其中,η为距离超参数,d表示距离函数,Q
其中,
其中,Q
进一步的,步骤A4中,利用步骤C3获得的G
其中,
然后,按如下公式,对各关系对的相似度
其中,|·|表示计数,
进一步的,步骤A21中,针对计算图谱G
其中,输入h
进一步的,步骤A221中,计算当前计算实体e
A2211、按如下公式,计算当前计算节点p与各节点q的注意力权重a
A2212、按如下公式,基于注意力权重a
A2213、按如下公式,基于当前计算节点p的匹配向量m
其中,β为权重超参数。
进一步的,步骤A222中,首先,按如下公式,计算当前计算实体e
其中,W
然后,按如下公式,基于聚合权重α
其中,W
本发明的有益效果是:
本发明的对齐方法,首先,基于相似度构建图谱间的实体对;然后,基于实体对,对各实体对的实体进行邻域匹配,获得匹配特征;最后,利用两图谱各实体的匹配特征,进行实体间的匹配,获得两图谱的实体对齐结果。而其主要改进在于:通过两次注意力,进行邻域匹配。进一步的讲,在进行邻域匹配时,分别以实体对中的一个实体作为当前计算实体、另一实体作为背景实体,并提取实体对各实体的邻居集;然后,首先,利用背景实体的各邻居,分别基于注意力,将其与当前计算实体的各邻居进行匹配,获得当前计算实体各邻居在两实体邻居间的匹配结果;然后,利用当前计算实体各邻居在两实体邻居间的匹配结果,对当前计算实体各邻居的表征进行更新;之后,利用当前计算实体各邻居的表征,基于注意力,获得当前计算实体的匹配特征。
也即,本发明的邻域匹配,首先基于实体筛选构建实体对,然后基于实体对,首先基于第一次注意力,进行实体对实体邻居间的匹配,然后,基于第二次注意力,利用实体邻居获得匹配特征,因此,无需实体间具有相似的邻域结构,避免了知识图谱间的异质性对对齐的影响,可提高知识图谱实体对齐的准确性和可靠性。
其次,在进行实体对齐模型训练时,均会利用一组预对齐的种子实体对来训练模型;而在现实中,这类种子实体对的数量稀少,需要人工进行标注。因此,在本发明的训练过程中,通过迭代更新预对齐的种子集合,解决预对齐的实体种子对数量稀少的问题,因此,能提高模型的训练效果,确保知识图谱实体对齐的准确性和可靠性。而进一步的,采用自适应阈值,能自适应的调整阈值,减少迭代过程中错误对齐的累积。
进一步的,当前主流的实体对齐方法,通常都忽略了“关系”的语义独立性。要么没有考虑到关系对实体对齐的增强效果,要么简单地通过关系所连接的实体来表示关系,未能对关系进行准确的表示,很容易导致错误地匹配。因此,本发明在训练阶段,进一步的利用图神经网络对关系特征进行建模,并考虑到关系的语义独立性,设计了独立的关系表示学习方法,利用实体对齐和关系对齐的正向互相增强特性,从而获得更好的训练效果。
附图说明
图1为本发明实施例知识图谱实体对齐模型的训练流程示意图。
具体实施方式
本发明旨在提出一种基于邻域特征的知识图谱实体对齐方法,解决知识图谱间的异质性对对齐精度的影响,以提高知识图谱实体对齐的准确性和可靠性。下面结合实施例进行进一步的描述。
实施例:
本实施例的一种基于邻域特征的知识图谱实体对齐方法,包括模型训练和模型应用两个阶段。其中,训练阶段,为了获得更好的训练效果,考虑到关系的语义独立性,分别利用图神经网络对实体特征和关系特征进行独立建模,利用实体对齐和关系对齐的正向互相增强特性,提高训练效果,具体如图1所示,包括:
S1、输入训练数据
输入的训练数据,包括源知识图谱G
其中,G
S2、获取初始化嵌入表征
本步骤,利用预训练模型,获得两知识图谱G
本实施例中,由于需要利用实体对齐和关系对齐的正向互相增强特性,提高训练效果,因此,在利用预训练Bert语言模型获得特征向量的基础上,利用预训练TransE模型,基于模型中的假设h+l≈t,构建实体和关系的交互在本实施例中,因此,初始化嵌入表征的获得,具体包括:
首先,将源知识图谱G
然后,以H
在训练阶段,若不对关系特征进行独立建模,则在本步骤中,仅需获取两知识图谱G
本实施例,引入了TransE模型,因此,需要对TransE模型,进行本地优化,将其损失作为总损失的一部分。具体的讲,利用本步骤获得的两知识图谱G
其中,δ为距离超参数,本实施例中,δ的取值为1.0,d表示距离函数,S为正样本集合,(h,r,t)为正样本集合中的三元组,其基于实体对种子集合中的实体采样于输入的知识图谱;S′为负样本集合,(h′,r,t′)为负样本集合中的三元组,其由正样本集合中的三元组经头实体替换或尾实体替换而来,且不属于输入的知识图谱。
S3、获取实体的嵌入表征
本步骤中,首先,以实体为节点、关系为边,分别将两知识图谱G
S31、将实体的初始化嵌入表征作为节点嵌入表征,输入GCN网络;
S32、基于输入的节点嵌入表征
其中,
S33、为了在聚合过程中使用高速策略控制噪声的传播,按如下公式,对当前层的节点中间嵌入表征H′
H
其中,σ表示sigmod函数,⊙为元素乘法,
S34、根据预设的GCN网络层数,判断是否完成计算,若是,则将步骤S33获得的H
本步骤中,利用获得的G
其中,γ为距离超参数,d表示距离函数,Q
S4、实体邻域匹配
本步骤中,其实质是对实体进行邻域采样,获得各实体邻域子图,对两个知识图谱中的所有实体进行邻域子图匹配,计算出各个实体的邻域匹配特征。
具体的讲,本步骤利用邻域匹配模型,以源知识图谱G
上述邻域匹配模型的匹配过程包括:
S41、针对计算图谱G
其中,输入h
然后,将该实体e
S42、针对计算图谱G
S421、计算当前计算实体e
首先,按如下公式,计算当前计算节点p与各节点q的注意力权重a
所述q为当前计算实体e
然后,按如下公式,基于注意力权重a
接着,按如下公式,基于当前计算节点p的匹配向量m
对于邻域子图中的每个目标邻居,可以通过m
S422、计算当前计算实体e
具体的,首先,按如下公式,计算当前计算实体e
其中,W
然后,按如下公式,基于聚合权重α
其中,W
本步骤中,利用获得的G
其中,Q
S5、获取关系的嵌入表征
本步骤,利用图神经网络对关系特征进行独立建模,利用图神经网络提取两个知识图谱中关系的嵌入表征。具体包括:
S51、构建关系子图
本步骤中,为了提取关系的特征,为每一个关系建立一张关系表示图,即关系子图,不同于一般的三元组转换后的图结构,在关系子图中,将关系也表示为节点的形式,即,关系子图的节点包括关系节点和实体节点,关系节点和实体节点之间通过边相连;其中,关系节点对应关系子图的关系,实体节点为目标知识图谱G
S52、利用GCN网络对关系子图中与关系相连的实体节点的嵌入表征进行聚合,来更新关系的初始化表征,获得关系的嵌入表征。为了进一步的保证特征提取效果,定义关系子图的边包括入边和出边,并定义实体节点中头实体与关系节点的连接为入边,定义实体节点中尾实体与关系节点的连接为出边。因此,针对每一个关系,其聚合过程,具体包括:
首先,利用GCN网络,分别基于该关系的出边邻居实体节点和入边邻居实体节点的节点嵌入表征,按如下公式进行聚合,获得该关系的出边聚合a
然后,将该关系的出边聚合a
a=[a
x=MLP([a;x
其中,
本步骤中,利用获得的G
其中,η为距离超参数,d表示距离函数,Q
S6、模型参数更新
本步骤,基于前序各步骤所获得的损失,计算模型总损失,基于模型的总损失对模型进行更新。所述模型的总损失,表示为:
其中,
S7、更新种子集合
在完成步骤S6后,即可判断是否完成训练,若是则获得完成训练的知识图谱实体对齐模型;否则,利用本步骤,对种子集合进行更新,然后,基于更新后的实体对种子集合Q
具体的讲,利用步骤S4获得的G
具体而言,本步骤中,利用获得的G
其中,
如果关系连接的实体数量越多,则该关系对实体对齐的影响度越低。因此,为了进一步的提高训练阶段匹配的准确性,以概率的形式定义关系对实体的影响,构建如下公式,对实体e
其中,
所述集合M
首先,针对M
然后,按如下公式计算实体对(m
P(r
其中,|·|表示计数。
本步骤中,利用获得的G
其中,
对于源知识图谱中的关系r
其中,|·|表示计数,
按上述方式计算获得相似度,皆可进行匹配,构建匹配实体对和匹配关系对。而实体匹配阈值和关系匹配阈值的设置,可以根据需要进行设置。在本实施例中,采用自适应阈值,
其中,所述预设的实体匹配阈值采用自适应阈值Δ:
其中,sim
所述预设的关系匹配阈值的自适应阈值,其计算公式与实体匹配阈值的计算公式相同,但需将sim
按照上述步骤S1~S7进行迭代训练,直至达到预设训练轮次或者模型收敛,即可获得训练完成的知识图谱实体对齐模型。
在模型应用阶段,也即利用上述训练完成的知识图谱实体对齐模型执行实体对齐任务,包括:
首先,输入待进行实体对齐的源知识图谱G
然后,将待对齐的知识图谱G
之后,将两知识图谱的结构化的知识三元组表格,输入至训练完成的知识图谱实体对齐模型中,利用对齐模型,采用上述步骤S2~S4的方式计算获得G
最后,按如下公式,利用G
并以与各实体e
最后应当说明的是,上述实施例仅是优选实施方式,并不用以限制本发明。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以做出若干修改,等同替换、改进等,均应包含在本发明的保护范围之内。
- 一种基于表示学习的医学知识图谱实体对齐方法
- 一种基于动态阈值的迭代式知识图谱实体对齐方法