掌桥专利:专业的专利平台
掌桥专利
首页

基于虚拟状态嵌入的知识图谱补全方法及装置

文献发布时间:2023-06-19 19:27:02


基于虚拟状态嵌入的知识图谱补全方法及装置

技术领域

本发明涉及人工智能的技术领域,尤其涉及一种基于虚拟状态嵌入的知识图谱补全方法,以及一种基于虚拟状态嵌入的知识图谱补全装置。

背景技术

知识图谱是知识库的一种主要形式,其中知识通常以图结构的形式存储在知识库中。使用知识图谱已经在人工智能和自然语言处理领域,比如语义分析、信息检索等,取得了巨大成功。知识图谱通常是一个有向图,其节点表示头/尾实体,边表示实体之间的关系。知识图谱中的结构化知识通常以三元组(h,r,t)的形式表示,其中h和t分别表示三元组中的头实体和尾实体,r表示头实体h和尾实体t之间的关系;例如,(法国,首都,巴黎)是三元组的具体表示形式。

尽管现有的知识图谱已经包括数百万甚至数千万个三元组,但因为仍有很多新兴知识的出现,因此还远远不够完整,从而会严重地阻碍其下游应用的性能。为了解决知识图谱不完整的问题,知识图谱补全的研究应运而生,它旨在通过已知的信息来预测知识图谱中丢失的信息。

目前越来越多的知识图谱补全方法被提出来,它们通常通过线性或者非线性映射的方式,把实体和关系映射到公共的低维空间中,再经过特定的深度学习模型来预测缺失的信息。现存的知识图谱补全方法大致可分为三类,包括基于翻译的方法、基于语义匹配的方法和基于卷积神经网络的方法。在这些方法中,基于翻译的方法通常是简单且高效的,如TransE、TransH和TransR。其中,TransE最初在一个共同的空间中定义了翻译机制h+r≈t,而TransE很难很好地模拟1对N、N对1和N对N的关系。为了解决这个问题,TransH根据不同的关系为一个实体学习不同的表示。虽然这些方法都取得了很好的效果,但是TransE和TransH都假设实体和关系在同一个空间。

近年来研究证明,几个实体在实体空间中可能彼此接近,但在关系空间中却相距甚远,这使得一个共同的空间不足以同时建模实体和关系。因此,TransR对实体和关系在不同空间的嵌入进行建模,然后将实体从实体空间投影到相应的关系空间。然而实体和关系只在其特定的空间中完全表达其语义,而TransR忽略了从实体空间到关系空间映射过程而产生的语义损失问题。同时,实体和关系中都包含着丰富的信息,从而有利于它们之间相互的表示学习。比如,两个三元组(苹果,味道,美味)和(苹果,系统,ios)中,关系“味道”和“系统”,分别对应两个三元组中的头实体“苹果”的概念为“水果”和“手机”。

因此实体和关系间充分的信息交互会促进它们各自的表示学习。然而目前的大多数方法都忽略了实体和关系由于位于不同空间而造成的语义差距的问题,以及很难解决不同空间的信息交互困难的问题。这促使我们探索更加合理,更具表达能力的模型来促进实体和关系之间的交互。

发明内容

为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于虚拟状态嵌入的知识图谱补全方法,其能够减少实体和关系间的巨大语义差距,达到信息交互的目的。

本发明的技术方案是:这种基于虚拟状态嵌入的知识图谱补全方法,包括以下步骤:

(1)实体和关系的低维特征向量通过混合注意力模块来初步捕捉实体和关系的内在关联性,其中混合注意力模块由通道注意力模块和空间注意力模块组合而成,

当给定头实体h和关系r,首先将头实体和关系的特征嵌入向量重构为二维矩阵,将重构后的头实体和关系进行拼接操作得到的特征F作为混合注意力模块的输入,用公式表示为:

其中,

(2)在上一步骤得到初步优化的实体和关系特征之后,再将它们输入到设计好的虚拟状态嵌入模块中,使其充分地对实体和关系之间的信息进行交互,其中该模块包括实体分支、关系分支和虚拟状态分支;

(3)在经过几次虚拟状态嵌入模块迭代之后,将增强的实体和关系表示h

其中W

(4)打分函数f

f

对于训练过程,使用Adam优化器来最小化交叉熵损失函数,损失函数表示为:

其中,

本发明引入虚拟状态嵌入作为实体和关系间的过渡,以减少实体和关系之间巨大的语义差距,从而提高链接预测性能。为了实现上述过程,本发明提出了差分聚合模块,该模块通过双信息对偶传播的方式对实体、关系和虚拟状态嵌入进行交互,以动态地传递它们之间的信息,因此能够减少实体和关系间的巨大语义差距,达到信息交互的目的。

还提供了一种基于虚拟状态嵌入的知识图谱补全装置,该装置包括:

混合注意力模块,实体和关系的低维特征向量通过混合注意力模块来初步捕捉实体和关系的内在关联性,其中混合注意力模块由通道注意力模块和空间注意力模块组合而成,

当给定头实体h和关系r,首先将头实体和关系的特征嵌入向量重构为二维矩阵,将重构后的头实体和关系进行拼接操作得到的特征F作为混合注意力模块的输入,用公式表示为:

其中,

虚拟状态嵌入模块,在上一步骤得到初步优化的实体和关系特征之后,再将它们输入到设计好的虚拟状态嵌入模块中,使其充分地对实体和关系之间的信息进行交互,其中该模块包括实体分支、关系分支和虚拟状态分支;

映射模块,其在经过几次虚拟状态嵌入模块迭代之后,将增强的实体和关系表示h

其中W

评价模块,其打分函数f

f

对于训练过程,使用Adam优化器来最小化交叉熵损失函数,损失函数表示为:

其中,

附图说明

图1示出了根据本发明的基于虚拟状态嵌入的知识图谱补全方法的流程图。

图2示出了基于虚拟状态嵌入的知识图谱补全模型原理图。

图3示出了基于虚拟状态嵌入的知识图谱补全模型图。

图4示出了差分聚合模块结构图。

具体实施方式

如图1所示,这种基于虚拟状态嵌入的知识图谱补全方法,包括以下步骤:

(1)实体和关系的低维特征向量通过混合注意力模块来初步捕捉实体和关系的内在关联性,其中混合注意力模块由通道注意力模块和空间注意力模块组合而成,

当给定头实体h和关系r,首先将头实体和关系的特征嵌入向量重构为二维矩阵,将重构后的头实体和关系进行拼接操作得到的特征F作为混合注意力模块的输入,用公式表示为:

其中,

(2)在上一步骤得到初步优化的实体和关系特征之后,再将它们输入到设计好的虚拟状态嵌入模块中,使其充分地对实体和关系之间的信息进行交互,其中该模块包括实体分支、关系分支和虚拟状态分支;

(3)在经过几次虚拟状态嵌入模块迭代之后,将增强的实体和关系表示h

其中W

(4)打分函数f

f

对于训练过程,使用Adam优化器来最小化交叉熵损失函数,损失函数表示为:

其中,

本发明引入虚拟状态嵌入作为实体和关系间的过渡,以减少实体和关系之间巨大的语义差距,从而提高链接预测性能。为了实现上述过程,本发明提出了差分聚合模块,该模块通过双信息对偶传播的方式对实体、关系和虚拟状态嵌入进行交互,以动态地传递它们之间的信息,因此能够减少实体和关系间的巨大语义差距,达到信息交互的目的。

优选地,所述步骤(1)包括以下分步骤:

(1.1)通道注意力模块使用全局最大池化机制、平均池化机制和全连接层来探索实体和关系之间的内在关联性,通道注意力模块表示为:

其中,

(1.2)对于空间注意力模块,通过沿通道轴应用最大和平均池化机制来捕捉空间的内在关系,空间注意力模块表示为:

其中,

最后将

(1.3)混合注意力模块表示为:

h

其中,[,;,]表示特征拼接操作;vec

HAM表示的是混合注意力模块。

优选地,所述步骤(2)包括以下分步骤:

(2.1)实体特征h

(2.2)将

(2.3)将迭代几次运行虚拟状态嵌入模块,计算过程如下:

h

其中,h

优选地,所述步骤(2.2)中,对于信息聚合子模块,当给定实体表示

其中,f

为了进一步聚合更有意义的信息来学习虚拟状态嵌入特征

其中,

对于信息分散子模块,将上一个模块得到的虚拟状态嵌入特征s

再次利用残差网络机制对实体和关系特征进行信息补充,如下所示:

最后,所有增强的特征h

其中,DAM表示的是差分聚合模块。

优选地,所述步骤(3)将以上过程表示为:

其中,M为本发明的模型。

本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种基于虚拟状态嵌入的知识图谱补全装置,该装置通常以与方法各步骤相对应的功能模块的形式表示。该装置包括:

混合注意力模块,实体和关系的低维特征向量通过混合注意力模块来初步捕捉实体和关系的内在关联性,其中混合注意力模块由通道注意力模块和空间注意力模块组合而成,

当给定头实体h和关系r,首先将头实体和关系的特征嵌入向量重构为二维矩阵,将重构后的头实体和关系进行拼接操作得到的特征F作为混合注意力模块的输入,用公式表示为:

其中,

虚拟状态嵌入模块,在上一步骤得到初步优化的实体和关系特征之后,再将它们输入到设计好的虚拟状态嵌入模块中,使其充分地对实体和关系之间的信息进行交互,其中该模块包括实体分支、关系分支和虚拟状态分支;

映射模块,其在经过几次虚拟状态嵌入模块迭代之后,将增强的实体和关系表示h

其中W

评价模块,其打分函数f

f

对于训练过程,使用Adam优化器来最小化交叉熵损失函数,损失函数表示为:

其中,

优选地,所述混合注意力模块执行以下分步骤:

(1.1)通道注意力模块使用全局最大池化机制、平均池化机制和全连接层来探索实体和关系之间的内在关联性,通道注意力模块表示为:

其中,

(1.2)对于空间注意力模块,通过沿通道轴应用最大和平均池化机制来捕捉空间的内在关系,空间注意力模块表示为:

其中,

最后将

(1.3)混合注意力模块表示为:

h

其中,[,;,]表示特征拼接操作;vec

HAM表示的是混合注意力模块。

优选地,所述虚拟状态嵌入模块执行以下分步骤:

(2.1)实体特征h

/>

(2.2)将

(2.3)将迭代几次运行虚拟状态嵌入模块,计算过程如下:

h

其中,h

优选地,所述步骤(2.2)中,对于信息聚合子模块,当给定实体表示

其中,f

为了进一步聚合更有意义的信息来学习虚拟状态嵌入特征

其中,

对于信息分散子模块,将上一个模块得到的虚拟状态嵌入特征s

再次利用残差网络机制对实体和关系特征进行信息补充,如下所示:

最后,所有增强的特征h

以便进行进一步的表示学习,过程表示如下:

其中,DAM表示的是差分聚合模块。

优选地,所述映射模块将以上过程表示为:

/>

其中,M为本发明的模型。

以下更详细地说明本发明的技术方案。

步骤一:捕捉实体和关系的内在关联性

首先,实体和关系的低维特征向量通过混合注意力模块来初步捕捉实体和关系的内在关联性。其中混合注意力模块由通道注意力模块和空间注意模块组合而成。

当给定头实体h和关系r,首先将头实体和关系的特征嵌入向量重构为二维矩阵。然后,将重构后的头实体和关系进行拼接操作得到的特征F作为混合注意力模块的输入,用公式表示为:

其中,

步骤1.1:通道注意力子模块

通道注意力子模块使用全局最大池化机制、平均池化机制和全连接层来探索实体和关系之间的内在关联性。通道注意力子模块可以表示为:

其中,

步骤1.2:空间注意力子模块

对于空间注意力子模块,我们再次通过沿通道轴应用最大和平均池化机制来捕捉空间的内在关系。空间注意力子模块可以表示为:

其中,

最后将

为了方便,混合注意力模块可以表示为:

h

其中,[,;,]表示特征拼接操作;vec

步骤二:虚拟状态嵌入模块

在上一步骤得到初步优化的实体和关系特征之后,再将它们输入到设计好的虚拟状态嵌入模块中,使其充分地对实体和关系之间的信息进行交互,其中该模块包括实体分支、关系分支和虚拟状态分支。

步骤2.1:卷积层

首先,实体特征h

步骤2.2:差分聚合模块

接着,将

对于信息聚合子模块,当给定实体表示

其中,f

为了进一步聚合更有意义的信息来学习虚拟状态嵌入特征

其中,

对于信息分散子模块,将上一个模块得到的虚拟状态嵌入特征s

再次利用残差网络机制对实体和关系特征进行信息补充,如下所示:

最后,所有增强的特征h

其中,DAM表示的是差分聚合模块。

步骤2.3:工作过程

因此,将迭代几次运行虚拟状态嵌入模块,计算过程如下:

h

其中,h

步骤三:映射到尾实体空间

在经过几次虚拟状态嵌入模块迭代之后,我们将增强的实体和关系表示h

其中W

为了接下来方便表示,本发明将以上过程表示为:

其中,M为本发明的模型。

步骤四:打分函数和损失函数

本发明中,打分函数f

f

对于训练过程,我们使用Adam优化器来最小化交叉熵损失函数。损失函数可以表示为:

其中,

本发明已经在WN18RR和FB15k-237两个公共数据集上得到验证,并取得了很好的实验效果。整个实验结果如表1所示。与其他知识图谱补全方法相比,本发明在WN18RR上获得了除Hit@10度量外的最佳性能,在FB15k-237上也取得了较好的结果,验证了本发明的有效性。

TuckER是对比方法中一个重要的基线,因为与本发明动机相似。与TuckER相比,本发明在WN18RR和FB15k-237上均获得了更好的性能。原因在于,本发明不是基于张量的实体与关系的简单交互,而是通过构建虚拟状态嵌入来缩小实体与关系之间的语义差距,并通过差分聚合模块动态传播信息,增强实体与关系之间的交互。实验结果清楚地证明了虚拟状态嵌入和差分聚合模块的有效性。

此外,TransE也是一个重要的基线,因为它充当了本方法的解码器。与TransE相比,所提出的方法在所有数据集的所有指标上都获得了明显的大幅改进。实验结果清楚地表明,我们提出的方法通过虚拟状态嵌入和混合注意模块学习了最佳的实体和关系表示。

上述现象均证明了虚拟状态嵌入模块和混合注意模块的有效性。

表1

其次,我们设计了两个消融实验来研究提出的方法中的关键模块对几个重要数据集的影响,相应的链路预测结果总结在表2中。消融实验一去掉了虚拟状态嵌入和差分聚合模块。消融实验二去掉了混合注意力模块。

从表2中,我们观察到我们提出的方法在所有数据集上都大大超过了消融实验一。例如,所提出的方法在WN18RR和FB15k-237的Hits@1下获得了2.3%和3.3%的改进。这一现象验证了虚拟状态嵌入能够有效解决实体和关系之间的信息交换困难,而差分聚合模块能够充分促进它们之间的信息聚合和分散,从而获得更好的链接预测性能。

此外,与消融实验二相比,我们提出的方法的性能可以获得一定程度的提升。例如,所提出的方法在WN18RR和FB15k237的Hits@1下获得了0.6%和1.2%的改进。这一现象表明,混合注意力模块同样可以捕捉到实体和关系之间的内在关联性。

因此,这些现象意味着我们提出的虚拟状态嵌入方法中的这些关键模块对链接预测性都能有所贡献。

表2

/>

以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

技术分类

06120115918760