掌桥专利:专业的专利平台
掌桥专利
首页

一种结合外部逻辑知识库和神经网络的混合知识图谱推理算法

文献发布时间:2024-04-18 19:52:40


一种结合外部逻辑知识库和神经网络的混合知识图谱推理算法

技术领域

本发明属于自然语言处理领域。

背景技术

知识图谱推理算法的是从已有的实体、关系、规则和知识中推理出新的实体、关系、规则和知识的过程,知识图谱补全算法按照需要补全的实体是否存在于给定的知识图谱G={E,R,F}中,可以分为封闭区域的知识图谱补全和开放区域的知识图谱补全两类,在封闭区域的知识图谱补全任务中,原来的图谱中不存在的实体不会被引入。

基于已有的知识库中已存在的实体、关系、规则和知识进行知识图谱补全的方法即封闭领域知识图谱补全方法(如TransE模型)由于受到已有的知识图谱内容、关系、规则的限制,对已有的、连通性良好的实体之间的关系能实现补全功能,它对固定的、变化缓慢的知识图谱具有补全功能,然而对于连通性差,或是存在新的实体的关系的情况,封闭领域知识图谱补全方法就无法完成补全任务,然而现实中的知识图谱增长迅速,每时每刻都有新的实体和关系加入。TransE模型只适合处理一对一的关系,在一对多、多对一的情况下效果欠佳,并且忽略了实体和实体间本身存在的内部逻辑性,如“苹果”和“香蕉”是同位词的关系,而“苹果”和“水果”具有上下位的关系。如若能引入这些逻辑关系,将为知识图谱补全引入更多的信息。

发明内容

本发明提出一种基于外部逻辑知识库和神经网络混合的知识图谱推理方法。内容如下:

(1)首先给出了针对ConMask算法的改进算法———种结合外部逻辑知识库和神经网络的混合知识图谱推理方法(本文简称为ConMask-ELK算法),并给出了相应的总体框架图。

(2)然后在三组公开数据集(FB15k,DBPedia50k和DBPedia500k)上,针对开放区域的知识图谱补全任务和封闭区域的知识图谱补全任务对模型进行实验。

(3)最后,实验分析验证了ConMask-ELK算法的有效性,实验结果表明 ConMask-ELK算法有效地降低了KGC任务的MR指标,提高了HITS@10和 MRR指标。

附图说明

图1为本发明的算法整体框图。

图2为本发明的神经网络结构。

图3为本发明的目标融合部分结构。

图4为在DBPedia50k和DBPedia500k上的开放区域实体预测结果。

图5为算法测试所用的数据集介绍。

图6为封闭区域的知识图谱推理补全任务的头尾预测。

图7为DBPedia50k数据集上的实体预测结果。

具体实施方式

首先分析了现有基于封闭区域的知识图谱推理算法中存在的问题,针对为解决的问题提出解决方案并介绍ConMask-ELK算法的设计框架(如图1所示);之后对ConMask-ELK算法进行详细描述,包括与任务相关信息的定位、从相关文本中提取目标实体和目标实体解析方法等。最后在三组公开数据集 (FB15k,DBPedia50k和DBPedia500k)上对ConMask-ELK算法进行了实验验证和结果分析,实验对ConMask-ELK算法与TransE、DKRL等算法在开放区域知识图谱推理任务和封闭区域知识图谱推理任务中,对MR、MRR、 HITS@10等指标进行了比较,实验表明ConMask-ELK算法在上述指标中取得了显著提升,验证了算法的有效性。

举个例子,在给定三元组(李华,定居,x)中,假设给定目标实体描述:“我的故友李华在北平棉花厂工作多年”,对于人类读者而言,要对这个三元组进行补充,首先可能会摘出句子的重点“李华在北平工作”,然后可以推理出“李华住在北平”,最后可能根据语言习惯可能会修正为“李华定居在北京”,本文提出的ConMask-ELK算法受到这个流程的启发,想要提出一种能够增加新的实体,发现在原本知识图谱中连通性较弱的关系的算法。

本文提出的算法流程如图1所示,具体步骤如下:

步骤一:关键信息定位

为了解决封闭区域的知识图谱补全任务中,TransE模型存在的依赖实体连通性和存在性的问题,ConMask-ELK算法利用已有知识图谱的拓扑信息和文本信息中隐含的知识和关系进行知识图谱补全。

为了提取文本中的关键信息,略去文本中的无用信息,使用注意力机制对输入文本进行预处理。根据语境为语料库的实体描述中的单词分配一个与关系名称中的每一个单词的依赖关系的相似度评分,相似度评分权重使用如下公式表示

但是根据上述方法,相似度最高的词并不总是正确的目标实体,如给定三元组(Tom,eat,x),在文本描述“Tom taste a fresh watermelon”中,相似度评分最高的单词是与“eat”,虽然“eat”是与“taste”语义最相近的单词,然而没能正确完成三元组的补全任务。为了避免上述情况发生,给目标词分配正确的权重,对相似度评分权重方法做出了改进,用如下公式表示

其中,第i个单词的权重等于它本身和它前k

步骤二:目标融合

这一部分主要介绍ConMask-ELK方法如何提取基于单词的实体嵌入。由于这一步的输入是经过关键信息定位过的实体描述矩阵和关系名,输入中会包含许多0,因此选用全卷积神经网络FCN做实体嵌入,目标融合过程如图3所示,使用了三层FCN层,在每一层中,先做两次一维卷积运算,然后卷积运算结果经过sigmoid激活函数,再做一次批标准化,最后做最大池化,其中最后一层FCN用平均池化代替最大池化以得到唯一的K维嵌入。此外,为了将输入矩阵做峰值融合到目标实体的单个嵌入中,在每一层FCN之后减少了一半的目标嵌入数量,效果显著。

步骤三:目标实体解析

目标实体解析通过计算知识图谱中的候选目标实体和提取的实体嵌入和其他文本特征之间的相似度评分并进行排序,选取评分最高的实体作为最优结果。

生成候选实体与抽选实体嵌入之间的关联度排名,为了提高算法的性能,加快训练速度,设计一个排名损失函数。该函数可以进行正负目标采样,损失函数如下所示:

其中参数p

步骤四:实验结果与分析

(1)设置

设置嵌入单词长度k=200,最大实体内容和名称长度k

(2)实验数据集

虽然现在KGC任务中广泛使用的数据集为Freebase 15K(FB15k)数据集,但该数据集里存在大量相反或相同的三元组,并不能为基于内容的KGC方法提供足够的文本信息。由于文本内容有限,且FB15K数据集里存在的冗余信息太多,此处引入两个新的数据集:DBPedia50k、DBPedia500k,一起用于测试开放世界和封闭世界的KGC任务,各数据集统计情况如图5所示。

测试工作与其他算法测试类似,随机选择KG中90%的实体,并使用所选择的实体来生成KG子图,并在此简化的KG中进一步去除10%的图边,从而创建 KG

(3)开放区域实体预测

对于开放世界的KGC任务,使用KG

为了减少计算KG中所有实体的分数的迭代次数,对所有KGC模型应用了目标滤波方法。即,对于给定的部分三重{h,t,x}或{x,r,t},如果之前在训练集中没有通过关系r连接目标实体候选,就不去计算它,否则使用KGC模型计算实际关联度得分。简而言之,该方法会删除几乎没有意义的语句,减少了计算量,提高任务完成的效率。

实验发现,ConMask-ELK中的提取特性确实在两个数据集上提高了至少60%的语义排序效率,而并不是进行简单的语意平均。可以发现,较大的 DBPedia500k数据集上的性能提升比较小的DBPedia50k更优异,这表明提取特性能够从实体描述中搜索到有用的信息。

尽管ConMask-ELK不是用来预测封闭实体的,但封闭世界的假设条件比开放世界多,因而能够提供更多的信息,任务相对来说更容易进行,所以它也可以用来执行封闭世界的任务。因此,在图6中,对标准FB15k数据集以及两个新数据集进行了ConMask-ELK模型与其他封闭世界方法的比较。由于TransR模型在五天之内还没有完成训练,所以DBPedia500k数据集中没有记录到TransR 模型的结果。

实验结果表明,ConMask-ELK混合算法在封闭世界任务上的性能与单纯的封闭世界算法差别不大,甚至有时候表现更优异。

图7显示了4个KGC示例。在每一个例子中,提供实体头部以及关系,之后使用ConMask-ELK按照信息来预测尾部实体,其中ConMask-ELK成功地预测了前3个示例的尾部实体。

通过链接外部逻辑库实体并将其链接到知识图谱上是ConMask-ELK算法的基本思想,它使用关键信息提取,完全卷积神经网络,在开放区域和封闭区域的KGC任务上的实验表明,ConMask-ELK模型在两个任务中都有很好的性能。由于在标准的KGC数据集中发现了问题,发布了两个新的DBPedia数据集用于 KGC的研究和开发。ConMask-ELK在Mean Rank和MRR等指标上优于其他KGC模型,但它仍然存在局限性和改进的空间,它是一种提取算法,目前它只能在实体描述中表达必要信息的情况下预测关系。

相关技术
  • 一种基于堆叠神经网络的知识图谱关系推理算法
  • 一种知识图谱复杂逻辑推理方法、组件和知识图谱的查询检索方法
技术分类

06120116331516