掌桥专利:专业的专利平台
掌桥专利
首页

利用类型融合改进知识图嵌入的KGE-TF方法

文献发布时间:2024-04-18 19:58:30


利用类型融合改进知识图嵌入的KGE-TF方法

技术领域

本发明涉及知识图谱下的知识表示与推理技术领域,尤其是利用类型融合改进知识图嵌入的KGE-TF方法。

背景技术

知识图谱结合图论和自然语言处理方法,为Freebase知识的智能化组织与表示提供了高效的实现方式。知识图补全任务是将知识图内的实体和关系表示为一个低维空间的向量,预测三元组中缺失的头实体或尾实体,即给定不完整的三元组或,要求补全“?”处的实体。

在知识图中引入其他辅助信息有利于令实体和关系学习到更加丰富和准确的嵌入表示,如类型信息、文本信息、图像信息等。其中,类型信息相比文本信息和图像信息,具有处理简单,占用存储空间小,信息密度高,表达直观等特点,更重要的是,类型信息还能够直接体现对象的属性,能够方便地在表示学习过程中提供约束功能。图神经网络GNNs能够充分利用邻域特征来丰富中心实体的表示。

目前大多数考虑类型信息的模型将类型信息作为另外的投影矩阵或者是其他约束,通过投影矩阵或是融合类型来增强实体的嵌入,忽略了类型信息对于关系的作用。实际上,关系是连接两个实体之间的纽带,类型约束功能主要作用于关系上,关系对于头实体的类型以及尾实体的类型有着重要的辨别能力,比如给定关系“演唱”,很容易得出该关系的头实体应该包含“人”,“歌手”等类型,而不应该包含“植物”,“电影”等其他类型;相应地,尾实体则应该包含“作品”,“歌曲”等类型。拥有“头实体包含歌手,尾实体包含歌曲”这样信息的关系,从人类的推理角度,也非常容易得出该关系为“演唱”。也能够理解为:关系作为一种连接的桥梁,本身并不具有任何意义,而是与其相连的所有头尾实体具有的共性特征,赋予了关系的特征与约束性质。因此,将头实体的类型嵌入以及尾实体的类型嵌入融入到关系嵌入中,不仅能够起到丰富关系嵌入的作用,而且能够起到约束作用,如给定一个预测三元组,由于该关系已经拥有头尾实体的类型信息,因此能够在预测过程中偏向于实体类型包含“作品”,“歌曲”等的实体,从而提高知识图谱补全的准确度。

经过以上分析,本发明认为以往联合类型的知识表示学习模型待解决的问题如下:(1)将类型信息当成独立的矩阵或向量特征,容易受到数据稀疏的影响。(2)只考虑类型信息对于实体的影响,忽略了类型信息对于关系的影响。(3)过于依赖数据集,需要每个实体都拥有类型信息,以及类型层次信息等先验知识,严重限制模型的应用场景。(4)大多都是单一的模型,并不具备与当前各种知识表示学习模型共同协作的能力。

因此,本发明提出利用类型融合改进知识图嵌入(Improved Knowledge GraphEmbedding Using Type Fusion,KGE-TF)的知识表示学习框架,旨在解决上文提出的问题与不足。KGE-TF不是将类型信息作为映射实体的投影矩阵或是其他非向量特征,而是将类型信息作为任意维度的低维向量,并将类型信息映射到实体嵌入空间与关系嵌入空间中与其融合,丰富实体和关系的嵌入表示,缓解数据稀疏问题。由于类型作为附加的融合信息,因此不必每个实体都拥有类型,这扩大了模型的适用范围。最后,本发明约定统一的损失函数,形成一种通用的知识表示学习框架,以显著提高原有模型在知识补全任务上的性能。

发明内容

本发明提出利用类型融合改进知识图嵌入的KGE-TF方法,能将类型信息作为任意维度的低维向量,并将类型信息映射到实体嵌入空间与关系嵌入空间中与其融合,丰富实体和关系的嵌入表示,缓解数据稀疏问题,本发明还约定统一的损失函数,形成一种通用的知识表示学习框架,以显著提高原有模型在知识补全任务上的性能。

本发明采用以下技术方案。

利用类型融合改进知识图嵌入的KGE-TF方法,用于在知识图中引入其他辅助信息以有利于令实体和关系学习到更加丰富和准确的嵌入表示,所述方法利用实体类型聚合器和关系上下文类型聚合器,将类型信息融入知识图的实体嵌入和知识图的关系嵌入;

所述方法还包括利用类型融合改进知识图嵌入的知识表示学习框架,为基于KGE-TF模型的KGE-TF框架,所述框架通过约定统一的损失函数来形成通用的知识表示学习框架,所述框架将类型信息作为任意维度的低维向量,并将类型信息映射到实体嵌入空间与关系嵌入空间中与其融合,丰富实体和关系的嵌入表示,缓解数据稀疏问题;所述类型信息为附加的融合信息,不要求每个实体都拥有类型信息。

所述知识图以G={E,R,T,C}表示,E表示知识图中的实体集合,R表示知识图中的关系集合,C表示知识图中的类型集合,T表示知识图中的三元组集合。三元组表示为(h,r,t)∈T,其中h∈E表示头实体,r∈R表示关系,t∈E表示尾实体;

当引入类型信息时,每个实体e∈E都有各自的类型集合C

所述KGE-TF框架包括类型融合模块、基础模型和统一的二元交叉熵函数;所述类型融合模块包括实体类型聚合器ETA和关系上下文类型聚合器RCTA,分别用于将类型信息融入实体嵌入和关系嵌入中,以增强实体和关系的嵌入表示。

所述基础模型,即已被提出的知识表示学习模型;

所述二元交叉熵函数通过约定损失函数,提供统一的训练策略;

在训练KGE-TF模型时,将原始的知识图嵌入经过实体类型聚合器以及关系上下文类型聚合器,分别得到融合了类型的实体嵌入和关系嵌入,并将最终嵌入作为基础模型的输入进行模型训练。

所述KGE-TF模型的设计,包括实体类型聚合器、关系上下文类型聚合器、框架能力设计;

所述知识图中,每个实体都拥有若干个类型,各类型信息的直接组合直接反映实体的抽象信息。

所述实体类型聚合器采用平均聚合的方式来聚合实体的类型信息,以平等地照顾到实体的每个类型信息,即给定知识图中某个实体e以及e的类型集合C

其中

所述类型信息作为一种抽象信息,包含的信息比实体和关系更少,因此将类型表达为比实体与关系更加低维的向量,即

所述类型与实体不在同一向量空间中,通过设计一个投影矩阵

由于e

e'=e+e

知识图中,将关系与头实体以及尾实体的连接,称作关系上下文;关系在某个三元组中起着承上启下的作用,与该关系相关的三元组的头实体集合大多具有相似的类型和共性,尾实体集合也是如此,并且头尾实体的类型会有较大区别;所述关系上下文类型聚合器将关系上下文类型信息分为关系-头类型信息与关系-尾类型信息,通过分别聚合,并在最后加以组合的方式得到关系的类型聚合特征;给定知识图中某个关系r,令与关系r相关的所有头实体集合表示为E

此时需要将关系-头类型与关系-尾类型的嵌入有效地结合在一起,作为关系类型信息嵌入,可选择以下五种操作φ(r

相加融合:φ

相加映射融合:φ

相乘融合:

拼接融合:φ

拼接映射融合:φ

经过φ操作有效的融合关系-头类型与关系-尾类型后,得到关系的聚合类型信息,以公式表示为:

r

最后,为了增强关系r的嵌入表示,将关系r的类型嵌入r

r'=r+r

所述框架能力设计包括基础模型适配,还包括统一的训练策略与损失函数;所述训练策略使用1-N评分策略,对于批次中的每个(h,r),将知识图中所有实体作为候选尾实体t同时进行评分;

所述损失函数采用二元交叉熵函数BCE,令某个样本的标签以及成立概率作为输入,计算损失,BCE损失函数如下所示

其中i表示第i个三元组;y

所述基础模型适配的内容为:以BCE损失函数的输入为某个样本的成立概率,而基于边距的损失的输入为实际计算结果与得分函数约定的计算结果之间的差距;为了令其能够顺利移植到KGE-TF框架中,统一采用BCE损失函数进行模型训练优化,需要在不改变原模型的设计思想的基础上,对得分函数进行简单修改,修改得分函数的目的是令得分函数的输出为该三元组的成立概率;

在将损失函数统一为BCE损失函数,并抛弃了负采样策略后,修改后得分函数的公式的一种为

f(h,r,t)=σ(γ-||h+r-t||

γ依然为边距参数,σ为sigmoid激活函数;

经过σ激活之后,得分函数的输出为一个0~1之间的数,用于表示三元组成立的概率,因此,能够方便地应用于BCE损失函数中;

修改后得分函数的公式的另一种为

f(h,r,t)=σ(h

所述方法用于知识图谱的FB15k和FB15k-237-T数据集;FB15k是基于Freebase数据集构建的知识图谱数据集,Freebase是多领域的知识图谱数据集,收集了大量的实体、属性和关系信息;FB15k-237数据集是从FB15k数据集通过去除了许多逆关系的数据而得到的更具有挑战性的数据集。

所述方法采用链路预测来执行知识图补全任务,即:给定头/尾实体和关系,预测对应的尾/头实体,通过预测三元组中缺失的某一元素,来达到知识图补全的目的。

近年来,结合类型信息进行知识图嵌入逐渐成为了业内研究的焦点,针对现有考虑类型信息的方法存在容易受到数据稀疏问题的影响,忽略类型信息对于关系嵌入的影响,数据应用场景受限,无法形成框架等问题,本发明提出了一种利用类型融合改进知识图嵌入(KGE-TF)方法:利用发明中提出的实体类型聚合器和关系上下文类型聚合器,将类型信息融入实体嵌入和关系嵌入。本发明还提供了框架功能,可以将该方法应用到各种现有知识图嵌入模型上,大幅度提升原模型的性能。

本发明提出利用类型融合改进知识图嵌入(Improved Knowledge GraphEmbedding Using Type Fusion,KGE-TF)的知识表示学习框架,旨在解决上文提出的问题与不足;本发明的KGE-TF不是将类型信息作为映射实体的投影矩阵或是其他非向量特征,而是将类型信息作为任意维度的低维向量,并将类型信息映射到实体嵌入空间与关系嵌入空间中与其融合,丰富实体和关系的嵌入表示,缓解数据稀疏问题。由于类型作为附加的融合信息,因此不必每个实体都拥有类型,这扩大了模型的适用范围;最后,本发明约定统一的损失函数,形成一种通用的知识表示学习框架,以显著提高原有模型在知识补全任务上的性能,具体为:1、提出了利用类型融合改进知识图嵌入的框架方法KGE-TF。

2、本发明提出的算法提出类型融合机制,分别为实体类型聚合器以及关系上下文类型聚合器,将实体类型以附加的方式合理地融合到实体和关系的嵌入表示中,提升模型性能。

3、为了方便将各种模型适配到KGE-TF框架中,本发明提供了对得分函数的修改思路和关键。

本发明的优点还在于:

1、现有的大多数知识补全模型只利用结构信息,或考虑隐式类型,这容易受到数据稀疏的影响,影响实体的嵌入表示,本发明引入显式类型信息,使模型具有更丰富的信息,实现更高的知识补全准确度。

2、现有的引入类型信息的模型大多将类型作为实体的投影矩阵,或是作为衡量类型重合度的非向量表示,没有起到丰富实体嵌入和关系嵌入的作用,并忽略了类型信息对于关系嵌入的作用,本发明设计了实体类型聚合器和关系上下文类型聚合器,通过将类型信息融入实体和关系,丰富知识图嵌入,缓解数据稀疏问题。此外,由于本发明不强制要求每个实体都具备类型信息,能够比以往工作更容易地应用到各种数据场景中。

3、现有模型大多作为单个方法提出,存在难以适配的问题。本发明设计了框架能力,能够将各种基础模型应用到KGE-TF内,大幅度增强基础模型的性能,并且适用性广泛。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明:

附图1是本发明的KGE-TF总体框架示意图。

具体实施方式

如图所示,利用类型融合改进知识图嵌入的KGE-TF方法,用于在知识图中引入其他辅助信息以有利于令实体和关系学习到更加丰富和准确的嵌入表示,所述方法利用实体类型聚合器和关系上下文类型聚合器,将类型信息融入知识图的实体嵌入和知识图的关系嵌入;

所述方法还包括利用类型融合改进知识图嵌入的知识表示学习框架,为基于KGE-TF模型的KGE-TF框架,所述框架通过约定统一的损失函数来形成通用的知识表示学习框架,所述框架将类型信息作为任意维度的低维向量,并将类型信息映射到实体嵌入空间与关系嵌入空间中与其融合,丰富实体和关系的嵌入表示,缓解数据稀疏问题;所述类型信息为附加的融合信息,不要求每个实体都拥有类型信息。

所述知识图以G={E,R,T,C}表示,E表示知识图中的实体集合,R表示知识图中的关系集合,C表示知识图中的类型集合,T表示知识图中的三元组集合。三元组表示为(h,r,t)∈T,其中h∈E表示头实体,r∈R表示关系,t∈E表示尾实体;

当引入类型信息时,每个实体e∈E都有各自的类型集合C

所述KGE-TF框架包括类型融合模块、基础模型和统一的二元交叉熵函数;所述类型融合模块包括实体类型聚合器ETA和关系上下文类型聚合器RCTA,分别用于将类型信息融入实体嵌入和关系嵌入中,以增强实体和关系的嵌入表示。

所述基础模型,即已被提出的知识表示学习模型;

所述二元交叉熵函数通过约定损失函数,提供统一的训练策略;

在训练KGE-TF模型时,将原始的知识图嵌入经过实体类型聚合器以及关系上下文类型聚合器,分别得到融合了类型的实体嵌入和关系嵌入,并将最终嵌入作为基础模型的输入进行模型训练。

所述KGE-TF模型的设计,包括实体类型聚合器、关系上下文类型聚合器、框架能力设计;

所述知识图中,每个实体都拥有若干个类型,各类型信息的直接组合直接反映实体的抽象信息。

所述实体类型聚合器采用平均聚合的方式来聚合实体的类型信息,以平等地照顾到实体的每个类型信息,即给定知识图中某个实体e以及e的类型集合C

其中

所述类型信息作为一种抽象信息,包含的信息比实体和关系更少,因此将类型表达为比实体与关系更加低维的向量,即

所述类型与实体不在同一向量空间中,通过设计一个投影矩阵

e

由于e

e'=e+e

知识图中,将关系与头实体以及尾实体的连接,称作关系上下文;关系在某个三元组中起着承上启下的作用,与该关系相关的三元组的头实体集合大多具有相似的类型和共性,尾实体集合也是如此,并且头尾实体的类型会有较大区别;所述关系上下文类型聚合器将关系上下文类型信息分为关系-头类型信息与关系-尾类型信息,通过分别聚合,并在最后加以组合的方式得到关系的类型聚合特征;给定知识图中某个关系r,令与关系r相关的所有头实体集合表示为E

此时需要将关系-头类型与关系-尾类型的嵌入有效地结合在一起,作为关系类型信息嵌入,可选择以下五种操作φ(r

相加融合:φ

相加映射融合:φ

相乘融合:

拼接融合:φ

拼接映射融合:φ

经过φ操作有效的融合关系-头类型与关系-尾类型后,得到关系的聚合类型信息,以公式表示为:

r

最后,为了增强关系r的嵌入表示,将关系r的类型嵌入r

r'=r+r

所述框架能力设计包括基础模型适配,还包括统一的训练策略与损失函数;所述训练策略使用1-N评分策略,对于批次中的每个(h,r),将知识图中所有实体作为候选尾实体t同时进行评分;

所述损失函数采用二元交叉熵函数BCE,令某个样本的标签以及成立概率作为输入,计算损失,BCE损失函数如下所示

其中i表示第i个三元组;y

所述基础模型适配的内容为:以BCE损失函数的输入为某个样本的成立概率,而基于边距的损失的输入为实际计算结果与得分函数约定的计算结果之间的差距;为了令其能够顺利移植到KGE-TF框架中,统一采用BCE损失函数进行模型训练优化,需要在不改变原模型的设计思想的基础上,对得分函数进行简单修改,修改得分函数的目的是令得分函数的输出为该三元组的成立概率;

在将损失函数统一为BCE损失函数,并抛弃了负采样策略后,修改后得分函数的公式的一种为

f(h,r,t)=σ(γ-||h+r-t||

γ依然为边距参数,σ为sigmoid激活函数;

经过σ激活之后,得分函数的输出为一个0~1之间的数,用于表示三元组成立的概率,因此,能够方便地应用于BCE损失函数中;

修改后得分函数的公式的另一种为

f(h,r,t)=σ(h

所述方法用于知识图谱的FB15k和FB15k-237-T数据集;FB15k是基于Freebase数据集构建的知识图谱数据集,Freebase是多领域的知识图谱数据集,收集了大量的实体、属性和关系信息;FB15k-237数据集是从FB15k数据集通过去除了许多逆关系的数据而得到的更具有挑战性的数据集。

所述方法采用链路预测来执行知识图补全任务,即:给定头/尾实体和关系,预测对应的尾/头实体,通过预测三元组中缺失的某一元素,来达到知识图补全的目的。

相关技术
  • 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法
  • 基于语义和关系结构融合嵌入的知识图谱嵌入方法
  • 一种引入实体类型自动化表示的知识图谱嵌入与推理方法
技术分类

06120116499549