掌桥专利:专业的专利平台
掌桥专利
首页

一种计算机构建的嵌入式对齐方法

文献发布时间:2023-06-19 19:04:00



技术领域

本发明涉及知识图谱上技术领域,涉及知识图谱上的语义信息和结构信息的实体对齐提升技术。

背景技术

近年来,随着各种知识图谱技术的发展,知识图谱的规模在不断扩大,各领域也纷纷开始根据自身需求去构建新的知识图谱。如今,知识图谱被广泛应用于检索,问答和推理等任务,支撑着许多行业的应用。然而,单一的知识图谱已经不能满足实际的应用需求,而各个知识图谱间又存在信息冗余,异构等问题,因此知识融合成为人们关注的话题。实体对齐是知识图谱融合的重要组成部分,目的是寻找不同知识图谱间指向真实世界同一实体的节点。

融合不同知识图谱的实体对齐工作具有重要意义同时也有诸多挑战。主要的挑战有计算复杂度,数据质量和先验知识的获取。

计算复杂度的挑战来源于在大数据时代,各类知识库蓬勃发展,使得其数据规模非常巨大。这种情况导致对齐两个知识图谱中的实体需要消耗巨大的计算资源,各种实体对齐方法的设计需要考虑在保证准确的同时减少计算复杂度,使得方法能够应用于日益增长的大规模知识图谱中。

数据质量的挑战来源于各种知识图谱的构建没有一个统一的标准。例如两个知识图谱可能侧重不同的领域,即使领域相同由于数据来源不同也可能导致描述语言不同,关系种类不同。这些由于不同构建方式和目的导致的问题直接反映到数据质量上:来源于两个知识图谱的相同实体可能会有不同的名称,例如“苹果”和“Apple”;相同名字可能指代不同的真实世界中的实体,例如“苹果”公司和水果“苹果”;相同实体在不同知识图谱中具有不同的领域结构和属性;相同实体由于没有规范的名称格式而出现因为缩写,空格,大小写等这类问题导致名称不一致,例如“DeoxyriboNucleic Acid”和“DNA”;还可能出现实体的粒度不同,例如“肺癌”在两个模式不同的知识图谱中可能被分别作为“疾病”和“癌症”。先验知识获取的挑战来源于对齐种子数据集,也就是监督学习中的训练集,其获取是具有一定难度的。在实践中,往往需要依赖专家人工标注或者众包算法来扩大对齐种子数据集的大小,并且尽量减少噪声数据的出现。这种挑战使得实体对齐的研究能够适应在较小的训练数据下取得尽可能高的准确率。

发明内容

有鉴于此,本发明提供一种解决或部分解决上述问题的一种计算机构建的嵌入式对齐方法。

为达到上述技术方案的效果,本发明的技术方案为:步骤一、设置所述基于变换器的双向编码器表示单元,所述基于变换器的双向编码器表示单元作用是将实体名称的词嵌入构造为均值为0且协方差矩阵为单位矩阵的向量;词嵌入是利用自然语言处理中语言模型与表征学习把一个维数为所有词的数量的高维空间嵌入到一个低维数的连续向量空间中,每个单词或词组被映射为实数域上的向量,然后通过基于变换器的双向编码器中表示单元中的大规模预训练语言模型获得两个知识图谱的N个实体名称的词嵌入集合

步骤二、当产生一词多义和名称相同问题时,判断通过所述基于变换器的双向编码器表示单元模型获得的词嵌入集合是否也相同,若产生一词多义和名称相同问题时无上下文信息提供给所述基于变换器的双向编码器表示单元,则开始进行步骤三,即使用知识图谱的结构信息来进一步提升实体对齐的效果;

步骤三、提取两个知识图谱中的对齐实体中有一定相似度的邻居,并且基于变换器的双向编码器中表示单元中的结构嵌入模型使用图注意力网络,将关系信息融入到基于变换器的双向编码器中表示单元中的结构嵌入模型中,然后判断对齐实体的直接邻居或远距离邻居中是否可能出现语义关联的信息,再开始将直接邻居和远距离邻居的语义关联的信息进行聚合;图注意力网络是基于空间的图卷积网络,图注意力网络的注意机制在聚合特征信息时,以注意机制表征方式用于确定节点邻域的权重;

步骤四、为能扩展多个跳跃的有效邻居,基于变换器的双向编码器中表示单元中采用门机制网络将一阶邻居和二阶邻居结合,从而扩展二阶到多阶范围的邻居实体,并以通过所述跳跃的有效邻居方式连接加速基于变换器的双向编码器中表示单元中的结构嵌入模型,以提高基于变换器的双向编码器中表示单元中的结构嵌入模型使用图注意力网络后的训练效果;

门机制网络作用是当对齐实体的一阶邻居在不同知识图谱中完成相同时或者不完全相同时,为了减少一阶邻居差异带来的噪声,基于变换器的双向编码器中表示单元中的结构嵌入模型进行二阶邻居的聚合;

当不同的具体实体分别为知识图谱中的中心实体和其一个一阶邻居实体,并设定第一注意力权重表示计算中心实体和其一个一阶邻居实体的不同关联,并通过非线性变换,使基于变换器的双向编码器中表示单元中的结构嵌入模型的输出的第一结果能够逼近非线性函数,进而处理更复杂的任务;为了使第一注意力权重在不同实体间可以进行比较,比较之前要进行归一化;

当不同的具体实体,即知识图谱中的中心实体和其一个二阶邻居实体,并设定第二注意力权重表示计算中心实体和一个二阶邻居实体的不同关联,并通过非线性变换,使基于变换器的双向编码器中表示单元中的结构嵌入模型的输出的第二结果能够逼近非线性函数,进而处理更复杂的任务;为了使第二注意力权重在不同实体间可以进行比较,比较之前要进行归一化;

分别使用两个矩阵

进一步地,结合一阶邻居和二阶邻居的信息的实体S的嵌入h

h

其中h

步骤五、采用第一特征线性调制层联合词嵌入和结构嵌入,第一特征线性调制的方法具体计算方式如下公式三所示:

h

其中h

步骤六、除此之外,对于给定的对齐种子集合实体对,当其中对齐实体对中的两个实体由于来自不同的知识图谱,当不同的知识图谱的邻域结构不同时,为尽最大效率利用对齐种子集合实体对中的信息,在对齐任务开始之前,先对其中的实体进行邻域结构的扩充,将两个知识图谱中包含对齐种子集合实体对中的三元组互为补充,从而增强图注意力网络识别同构子图的能力,并且通过更加相似的邻域结构,使对齐种子集合中的实体对得到相同的嵌入表示更容易,从而当通过图注意力网络处理和传播后,将有利的影响因子扩展到整个知识图谱的嵌入中去,得到效果更加精准;

设定步骤六中前置条件为:设定对齐损失函数和关系损失函数,通过对齐损失函数和关系损失函数计算图注意力网络每次迭代的前向计算结果与真实值的差距,从而指导下一步的训练向正确的方向进行,并通过将样本代入基于变换器的双向编码器中表示单元中的大规模预训练语言模型,计算输出的预测值;用对齐损失函数和关系损失函数计算预测值和真实值的误差;根据对齐损失函数和关系损失函数的导数,沿梯度最小方向将误差回传,修正前向计算公式中的可训练的矩阵和向量,当对齐损失函数和关系损失函数的损失值达到一个满意的值停止迭代,此时基于变换器的双向编码器中表示单元中的大规模预训练语言模型的训练完成;

步骤七、通过缩小正例实体间距离和扩大负例实体间距离来设计对齐损失函数L

其中G

步骤八、为了对图注意力网络引入关系信息,设定关系损失函数:

其中R代表所有关系的集合,T

关系损失函数减少引入具体关系嵌入带来的参数增加,并且知识图谱作为实体对齐数据集时没有提供关系对齐相关信息时,减轻不恰当的关系对齐方法导致对齐效果不理想的作用;

在训练过程中需要同时优化对齐损失函数和关系损失函数两个函数,通过设置一个超参数α将两个损失函数组合起来,成为最终的损失函数:L=L

实体对齐的任务最终目标是找到对齐实体对的集合,对齐实体通过计算实体向量的相似度得到,在训练过程中,将实体向量的模长限制为1,这样在计算余弦相似度时,只需要进行内积运算;在实体向量构成的矩阵中,需要进行矩阵乘法获得所有对齐实体对的余弦相似度;具体计算如下:

其中,sim(h

为使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:

实施例:本实施例具体说明一种计算机构建的嵌入式对齐方法的内容:为了极大获取知识图谱上的结构信息和语义信息,本发明工作通过预训练的语言模型获取实体、属性或实体类别的词嵌入,通过图注意力机制和图注意力网络的结合获取知识图谱的结构嵌入,最终将两者融合到一个迭代式的对齐模型中去。

本发明采用基于变换器的双向编码器表示单元作为实体名称的词嵌入方法,但由于基于变换器的双向编码器表示单元的词向量在空间中的分布呈现锥形,高频词的表示靠近原点,而低频词的表示远离原点。这会导致即使高频词与低频词具有相同的语义,但是由于词频不同导致两个词在表示上具有差异,从而词向量的距离不能很好的表达词间的语义相关性。所以比本发明最终使用基于变换器的双向编码器表示单元,通过使所有表示具有相同的均值和方差,让向量间的相似性可以用来代表语义相似度。对于通用知识图谱和生物医学知识图谱,本发明工作分别使用基于变换器的双向编码器表示单元模型,以最大化利用预训练模型中丰富的语义信息。对于提供属性和实体类别的知识图谱,获得词嵌入的方法与实体名称嵌入相同。

本发明设计一个联合词嵌入和结构嵌入的知识图谱对齐方法,通过使用大规模预训练语言模型基于变换器的双向编码器表示单元来将知识图谱中的语义信息表示出来,辅助实体对齐任务。然后通过分别对节点的一阶,二阶邻居使用图注意力网络进行聚合,实现捕捉二阶邻居的能力,使模型更好的利用到远距离实体信息,对于中心实体的对齐更加有帮助。通过将词嵌入和结构嵌入组合使用,提升实体对齐的准确率。

知识图谱上的数据往往带有语义信息,通过词语的形式出现。通过这些词,依照一些经验判断,能大致推断一些实体对是否对齐。例如,“AcquiredImmune DeficiencySyndrome”和“AIDS”。虽然不能完全通过词语进行高准确率的对齐,但是如果合理利用这些信息,对于实体对齐的效果提升必然是有帮助的。基于这点考虑,本发明引入知识图谱实体名称的词嵌入。

本发明使用大规模预训练语言模型基于变换器的双向编码器表示单元进行词嵌入。但是,本发明经过长时间的研究发现,未经微调的基于变换器的双向编码器表示单元模型在文本相似度计算任务上效果并不好,所以设定基于变换器的双向编码器表示单元模型时,还进行了微调,基于变换器的双向编码器表示单元的词嵌入在空间中呈锥形分布,高频词和低频词处于空间中不同的区域。高频词靠近原点(所有词嵌入的均值),而低频词远离原点,这种分布上的特点使高频词和低频词之间的相似度计算无法代表两者的语义相似性。而且低频词得不到充分的训练,分布稀疏,导致该区域存在语义不完整的地方,这样算出来的相似度也有问题。

本发明具有强大的基于嵌入的实体对齐的范式,也有识别同构子图的能力。然而,在不同的知识图谱中,对应实体通常具有非同构的邻域结构,这很容易导致产生不同的表示。为了解决这个问题,本发明使用一个带有门控机制的图注意力网络,旨在捕捉更加多样的邻域结构信息和突出有用的邻居节点。然后,通过门控机制聚合使用直接和远距离邻域信息。为了有效利用词嵌入和结构嵌入,本发明使用特征线性调制的方法将两者结合成实体嵌入。本发明模型还设置一个关系损失函数来改进实体表示。

为了将模型应用于实践,本发明实施三个已发布的生物医学知识图谱进行融合的过程,通过知识图谱应用平台将融合后的知识图谱发布出来,该平台是一个Web应用程序,使用开放源代码的网络应用框架框架开发,可以通过浏览器直接访问,该平台提供图谱检索,智能问答和实体推荐等功能。

基于变换器的双向编码器表示单元也是一种预训练的语言模型,本发明的模型架构是多层Transformer编码器的连接,每个编码器有两个子层,一个是多头注意力层,是利用多个自注意力机制学习句子中词语的内部关系;另一个是前馈图注意力网络层,包括两个线性变化和一个激活函数。每个子层都有一个残差连接模块。

基于变换器的双向编码器表示单元的核心是多头注意力机制。注意力,顾名思义,是处理一个问题时把注意力放到重要的地方。在实践中应用注意力机制具有参数少,可并行,效果显著的特点。多头注意力机制是通过多组不同的矩阵对由词向量构成的输入矩阵Q,K和V进行线性变换,最后将不同的注意力结果拼接起来,同时,因为三个输入矩阵相同,这种注意力也称为自注意力机制。

基于变换器的双向编码器表示单元模型的输入由三部分组成:一是标记嵌入,输入的句子或句子对通过WordPiece算法切成多个标记,对于分类任务需要在句首添加“CLS”标记,对于句子对任务需要在两个句子间添加“SEP”标记,然后将切分后的标记和添加的标记一起进行嵌入;二是段嵌入,在进行针对句子对的任务时,用来区分两个句子;三是位置嵌入,位置嵌入由模型中一套规则的产生方式生成。

基于变换器的双向编码器表示单元模型使用两个无监督预测任务进行预训练,分别是遮蔽语言模型和下一句预测。遮蔽语言模型是针对单个句子任务,做法是在句子中随机掩盖部分输入词,然后对那些被掩盖的词进行预测。在训练的过程中,首先在每一个训练序列中以15%的概率随机地选中某个标记的位置用于预测。被选中位置的标记80%的可能性被重新标记为“MASK”,10%的可能性是随机的其他标记,还有10%的可能性是原标记。通过这种训练方法使模型能够通过上下文预测被遮蔽的词语,从而使词向量反映词语间的相关性,在不同语境下具有不同的表示。

很多自然语言处理任务需要理解两个句子之间的关系,例如自动问答,下一句预测任务就是针对句子对级别任务进行设计的。具体的做法是:每一个训练样例由句子A和句子B来组成,50%的句子B就是句子A的下一句,剩下50%的句子B是随机句子,然后把训练样例输入到模型中进行二分类的预测。

在大规模语料上通过这两个任务进行基于变换器的双向编码器表示单元的预训练,就得到一个泛化能力很强的预训练语言模型。在不同的自然语言处理任务上使用时通过简单的微调就能达到很好的效果。

词语的研究是自然语言处理领域的重点。因为词语的粒度较小,由词语组成句子,句子再组成段落、篇章、文档,所以自然语言处理领域的很多研究都建立在词语的基础上。在研究词语时,首先要解决的是词语的表示问题。以判断词性为例,按照传统机器学习的步骤,一般的解决方法是用(x,y)表示样本,其中x是词语,y是对应词的词性,构建y=f(x)的映射。但是这个过程中所用的数学模型f(如图注意力网络和支持向量机)其输入是数值型,而词语是人类用来表达和传递信息抽象符号,无法直接输入到模型中去,需要使用一种合适的方法把词语转换成数值型,或者说嵌入到一个向量空间里。这种将词语嵌入到稠密向量空间中的方法,称为词嵌入方法。本发明将词语表示为低维空间中的稠密向量,方便各类下游任务使用。

本发明中的词嵌入模型有两种形式:一种叫做由上下文推测中间单词,一种叫做由中间词推测上下文词语,。为了减少计算量,核心思想是通过目标函数拟合共现矩阵中的信息,使词语表达成蕴含共现矩阵中统计信息的词向量。这些向量具有一定的语义特性,可以用于自然语言处理任务,例如通过求两个词向量的欧氏距离或余弦相似度来推断词语之间的语义相似性。每个词对应一个向量,这些词向量是静态的,无法处理多义词。例如单词“Apple”在不同语境下可能分别是水果和公司的名称。

图注意力网络模型是使用图注意力网络提取实体和关系的特征,然后将这些特征进行某种运算判断事实三元组的可信度。随着图注意力网络的发展,图注意力网络模型将传统欧氏空间上的图注意力网络模型迁移到图数据的建模中,通过端到端的方式自动学习和提取图数据的特征。图卷积网络是图注意力网络中一个热门的研究方向。图卷积网络模型主要包括基于卷积定理的谱方法和基于邻居聚合的空间方法两大类。任何一个图卷积网络都可以写成一个非线性函数。但是知识图谱是一种比较复杂的图结构,通常具有不同种类的实体类型和关系类型,而且关系类型是有向的。图卷积网络的提出是在只具有一种节点类型和关系类型的同质图的基础上的,显然传统图卷积网络不能充分利用知识图谱上的信息去表示知识图谱的实体和关系。

本发明中用注意力机制能突出数据中最重要部分的影响,本发明中图注意力网络中应用注意力机制时,即在聚合过程中使用注意力机制计算每个邻居节点的权重,进而将重要节点的信息凸显出来。图注意力网络是一种基于空间的图卷积网络,本发明的注意机制是在聚合特征信息时,将注意机制用于确定节点邻域的权重。图注意力网络主要具备如下几个方面的优势。1.计算高效,计算可以并行。2.相比于图卷积网络来说,为同一邻域的节点分配不同权重,可以扩充模型尺度。3.模型权值共享。4.不需要固定采样尺寸,算法可以处理整个邻域。5.利用节点特征计算注意力权重,而并非节点的结构特性,这样可以在不需要知道图结构的前提下计算。

不同的知识图谱,收集知识的方法,侧重和来源不同,使得现实世界中的实体在不同知识图谱上具有不同的名称,邻居结构或者属性。实体对齐的目的就是融合这些异构的知识图谱。设置基于变换器的双向编码器表示单元,基于变换器的双向编码器表示单元作用是将实体名称的词嵌入构造为均值为0且协方差矩阵为单位矩阵的向量;词嵌入是利用自然语言处理中语言模型与表征学习把一个维数为所有词的数量的高维空间嵌入到一个低维数的连续向量空间中,每个单词或词组被映射为实数域上的向量,然后通过基于变换器的双向编码器中表示单元中的大规模预训练语言模型获得两个知识图谱的N个实体名称的词嵌入集合

当产生一词多义和名称相同问题时,判断通过基于变换器的双向编码器表示单元模型获得的词嵌入集合是否也相同,若产生一词多义和名称相同问题时无上下文信息提供给基于变换器的双向编码器表示单元,则开始使用知识图谱的结构信息来进一步提升实体对齐的效果;

提取两个知识图谱中的对齐实体中有一定相似度的邻居,并且基于变换器的双向编码器中表示单元中的结构嵌入模型使用图注意力网络,将关系信息融入到基于变换器的双向编码器中表示单元中的结构嵌入模型中,然后把判断对齐实体的直接邻居或远距离邻居中是否可能出现语义关联的信息,然后开始将直接邻居和远距离邻居的语义关联的信息进行聚合;图注意力网络是基于空间的图卷积网络,图注意力网络的注意机制是在聚合特征信息时,将注意机制用于确定节点邻域的权重;

为能扩展更多跳跃的有效邻居,基于变换器的双向编码器中表示单元中采用门机制网络将一阶邻居和二阶邻居结合,从而扩展更多阶的邻居实体,并以通过这种跳跃连接加速基于变换器的双向编码器中表示单元中的结构嵌入模型使用图注意力网络后的训练效果;

门机制网络作用为:当对齐实体的一阶邻居在不同知识图谱中完成相同时或者不完全相同时,为了减少一阶邻居差异带来的噪声,基于变换器的双向编码器中表示单元中的结构嵌入模型进行二阶邻居的聚合;

当不同的具体实体分别为知识图谱中的中心实体和其一个一阶邻居实体,并设定第一注意力权重表示计算中心实体和其一个一阶邻居实体的不同关联,并通过非线性变换,使基于变换器的双向编码器中表示单元中的结构嵌入模型的输出的第一结果能够逼近非线性函数,进而处理更复杂的任务;为了使第一注意力权重在不同实体间可以进行比较,比较之前要进行归一化;

当不同的具体实体,即知识图谱中的中心实体和其一个二阶邻居实体,并设定第二注意力权重表示计算中心实体和一个二阶邻居实体的不同关联,并通过非线性变换,使基于变换器的双向编码器中表示单元中的结构嵌入模型的输出的第二结果能够逼近非线性函数,进而处理更复杂的任务;为了使第二注意力权重在不同实体间可以进行比较,比较之前要进行归一化;

分别使用两个矩阵

结合一阶邻居和二阶邻居的信息的实体S的嵌入h

h

其中h

采用第一特征线性调制层联合词嵌入和结构嵌入,第一特征线性调制的方法具体计算方式如下公式三所示:

h

其中h

除此之外,对于给定的对齐种子集合实体对,当其中对齐实体对中的两个实体由于来自不同的知识图谱,其邻域结构不同时,为尽可能利用对齐种子集合实体对中的信息,在对齐任务开始之前,先对其中的实体进行邻域结构的扩充,即将两个知识图谱中包含对齐种子集合实体对中的三元组互为补充,以尽可能发挥图注意力网络识别同构子图的能力,并且通过更加相似的邻域结构,更容易使对齐种子集合中的实体对得到相同的嵌入表示,从而使通过图注意力网络传播后,将有利的影响因子扩展到整个知识图谱的嵌入中去,得到效果更加精准;

设定步骤六中前置条件为:设定对齐损失函数和关系损失函数,通过对齐损失函数和关系损失函数计算图注意力网络每次迭代的前向计算结果与真实值的差距,从而指导下一步的训练向正确的方向进行,并通过将样本代入基于变换器的双向编码器中表示单元中的大规模预训练语言模型,计算输出的预测值;用对齐损失函数和关系损失函数计算预测值和真实值的误差;根据对齐损失函数和关系损失函数的导数,沿梯度最小方向将误差回传,修正前向计算公式中的可训练的矩阵和向量,当对齐损失函数和关系损失函数的损失值达到一个满意的值停止迭代,此时基于变换器的双向编码器中表示单元中的大规模预训练语言模型的训练完成;

通过缩小正例实体间距离和扩大负例实体间距离来设计对齐损失函数L

其中G

为了对图注意力网络引入关系信息,设定关系损失函数:

其中R代表所有关系的集合,T

关系损失函数减少引入具体关系嵌入带来的参数增加,并且知识图谱作为实体对齐数据集时没有提供关系对齐相关信息时,减轻不恰当的关系对齐方法导致对齐效果不理想的作用;

在训练过程中需要同时优化对齐损失函数和关系损失函数两个函数,通过设置一个超参数α将两个损失函数组合起来,成为最终的损失函数:L=L

实体对齐的任务最终目标是找到对齐实体对的集合,对齐实体通过计算实体向量的相似度得到,在训练过程中,将实体向量的模长限制为1,这样在计算余弦相似度时,只需要进行内积运算;在实体向量构成的矩阵中,需要进行矩阵乘法获得所有对齐实体对的余弦相似度;具体计算如下:

以上所述仅为本发明之较佳实施例,并非用以限定本发明的权利要求保护范围。同时以上说明,对于相关技术领域的技术人员应可以理解及实施,因此其他基于本发明所揭示内容所完成的等同改变,均应包含在本权利要求书的涵盖范围内。

有益成果:本发明提供一种计算机构建的嵌入式对齐方法,通过一个迭代过程,交替发现新的对齐实体和修正已有的对齐实体。发现对齐实体通过计算两个实体字符串的相似度比较选取,修正对齐实体则通过贪心算法和设计推理过程,实现在实践中,本发明将三个已公开的生物医学知识图谱进行实体对齐,融合成一个更大规模的知识图谱。通过开发知识图谱应用平台,将该知识图谱提供给其他研究人员使用。

相关技术
  • 一种查询图构建方法、装置、电子设备及计算机存储介质
  • 一种照明情境构建方法及系统、计算机设备和存储介质
  • 一种计算机构建的嵌入式对齐方法
  • 一种嵌入式计算机的模块化系统以及构建方法
技术分类

06120115784340