掌桥专利:专业的专利平台
掌桥专利
首页

一种基于异构图注意力网络的实体对齐方法

文献发布时间:2023-06-19 10:58:46


一种基于异构图注意力网络的实体对齐方法

技术领域

本发明属于知识融合领域,具体地涉及实体对齐相关的基于异构图注意力网络的实体对齐方法。

背景技术

随着知识库规模的扩大和实体数量的增加,不同知识库之间的实体链接的重要性日益凸显,多知识图谱的实体对齐成为研究的热点方向。

目前的实体对齐相关技术与方法来源于数据库中的实体匹配,但是,在实际应用中,存在许多问题和挑战,其中最突出的是计算复杂度、数据对齐质量的问题。在大数据条件下,知识库数据量庞大繁杂,传统的实体对齐算法时间复杂度高,实体对齐精度不足。

发明内容

发明目的:为了克服现有技术中存在的不足,本发明提供一种时间复杂度低、实体对齐精度高的基于异构图注意力网络的实体对齐方法。

技术方案:为实现上述目的,本发明采用的技术方案为:

一种基于异构图注意力网络的实体对齐方法,包括以下步骤:

步骤1,基于BERT预训练实体名称得到的词向量,根据词向量计算得到实体语义名 称向量,并根据得到的实体语义名称向量进行聚类,将实体划分为

步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量。

基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:

其中,

将实体嵌入向量更新公式分解为节点级注意力和类型级注意力,实体嵌入向量更 新公式由节点级注意力和类型级注意力结合更新得到,将类型

采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量。

损失函数为:

其中,

步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性。

实体

其中,

其中,

步骤4,结合两知识图谱实体相似性矩阵,基于0-1整数规划识别等价实体对,得到实体对齐结果。

将等价实体对的识别问题建模为0-1整数规划问题,其目标函数为:

约束为:

其中,

优选的:步骤1中根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:

实体名称的词向量包括

优选的:幂平均参数

优选的:步骤1中根据实体语义名称向量采用K-means聚类方法将实体划分为

随机选取

优选的:步骤2中类型级注意力学习不同类型邻居的权重,实体

其中,

其中,

优选的:步骤2中节点级注意力通过直接计算实体与对应邻居实体之间的注意力 得到,实体

其中,

实体

其中,

优选的:步骤4中采用单纯形法求解0-1整数规划问题得到满足一对一约束的优化的对齐结果。

本发明相比现有技术,具有以下有益效果:

本发明基于实体的名称语义向量将实体划分为不同类别,获得实体的类别信息。利用异构图注意力网络获得实体的嵌入向量。基于实体嵌入距离和实体类别信息计算实体之间的相似性。将实体对齐问题建模为一个整数规划问题,提高实体对齐的质量和精度。

附图说明

图1是本发明实施例所公开的一种基于异构图注意力网络的实体对齐方法的流程示意图;

图2是本发明所公开的异构图注意力网络模型图。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于异构图注意力网络的实体对齐方法,如图1所示,包括以下步骤:

步骤1,基于BERT预训练实体名称得到的词向量,根据词向量计算得到实体语义名 称向量,并根据得到的实体语义名称向量进行聚类,将实体划分为

根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:

给定第

根据实体语义名称向量

随机选取

步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量。

如图2所示,基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:

其中,

将实体嵌入向量更新公式分解为由节点级注意力和类型级注意力组成的图注意力机制,具体而言:

类型级注意力学习不同类型邻居的权重,实体

其中,

其值初始化为1,在训练中为上一轮所得的两实体之间的注意力权重。在得到实体

其中,

节点级注意力通过直接计算实体与对应邻居实体之间的注意力得到,实体

其中,

同样,实体

其中,

最后,实体嵌入向量更新公式由节点级注意力和类型级注意力结合更新得到,将 类型

采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量。

损失函数为:

其中,

步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性。

实体

其中,

其中,

步骤4,结合两知识图谱实体相似性矩阵,基于0-1整数规划识别等价实体对,得到实体对齐结果。

将等价实体对的识别问题建模为0-1整数规划问题,其目标函数为:

约束为:

即最大化所有对齐实体之间总的相似值,约束条件分别表示决策变量对应矩阵的 每一行、每一列取值的和不能大于1,以保证每个实体最多只能与一个实体配对。其中,

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

相关技术
  • 一种基于异构图注意力网络的实体对齐方法
  • 一种基于异构图注意力网络的实体对齐方法
技术分类

06120112757909