掌桥专利:专业的专利平台
掌桥专利
首页

一种文本增强的知识图谱联合表示学习方法及装置

文献发布时间:2023-06-19 09:52:39


一种文本增强的知识图谱联合表示学习方法及装置

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种文本增强的知识图谱联合表示学习方法及装置。

背景技术

知识图谱本质上是一种知识库,数据间以有向图的形式组织起来。其中,图的节点表示实体或者概念,边表示实体/概念之间的各种语义关系,常常以知识三元组(h,r,t)的表现形式。现有的知识图谱通常是不完善的,并且数据关联稀疏,导致其在自动问答、智能推荐等应用系统上的表现非常糟糕。知识图谱补全能够预测缺实的实体或关系事实,完善知识图谱结构信息,提高知识图谱在应用系统上推理计算的准确性和可解释性。由于知识库数据结构的特异性,导致很多模态信息数据如文本数据无法应用到,基于文本的增强表示学习技术,充分利用文本数据丰富的语义信息,并将与知识库关联的文本信息进行融合,能够增强实体关系向量的语义表示,增加计算模型的可解释性。

近年来,以深度学习为代表的知识图谱表示学习技术,通过对数据特征的提取及计算流程的规范化,将实体和关系的语义信息表示为低维连续空间向量,对向量的计算来预测实体、关系间的复杂语义信息,极大地提高了图数据链接预测及推理计算的效率。翻译概念模型是近些年研究的热门,通过将关系向量看成实体向量之间的平移,实现知识向量的规范化表示。不过通用的翻译模型仅利用知识库中的内部结构信息进行表示学习,存在拟合度高、语义解释性差等问题。文本描述信息也越来越多地用于知识图谱表示学习中,利用word2vec训练文本词向量,借助外部文本信息对结构向量进行辅助,使得关系预测的结果更加合理。

例如,专利CN107423820B公开了一种结合实体层次类别的知识图谱表示学习方法,包括:获取知识图谱的三元组关系以及实体的层次结构类别信息;根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;根据三元组关系的实体向量和关系向量以及类别映射矩阵,构建能量方程;根据能量方程构建基于边际的评价函数,通过最小化评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。

文本增强的知识图谱表示学习模型充分证明文本信息能够提升知识表示学习的效果,但对这个问题的研究仍处于初级阶段,仍存在-些问题:

(1)当前融入实体描述的知识图谱表示学习的工作大多采用词袋模型等方式学习实体描述的表示,忽略了实体描述中的词序,未能捕捉上下文的联系;

(2)现有工作未能将实体关联的多种文本重要程度进行有效的区分。

因此,如何在知识图谱表示学习中有侧重地融入外部关键文本信息,学习知识图谱中的实体和关系的增强向量表示,是本发明的核心问题。

此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于发明人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。

发明内容

针对现有技术之不足,本发明提供一种文本增强的知识图谱联合表示学习方法,其特征在于,所述方法至少包括:

基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;

对可靠特征信息的可信度进行区分并建立注意力机制模型,将不同句子中的向量聚合得到关联度区分的文本表示向量;

建立联合表示学习模型,采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于所述联合表示学习模型进行联合学习。

本发明针对现有的知识图谱存在关系稀疏,结构知识不完备,表示学习方法忽略了对知识库外部文本信息的有效利用的缺陷,提供一种引入文本描述信息的知识联合表示学习方法,通过卷积神经网络模型对文本数据提取可靠特征信息,并基于注意力机制对不同关系的特征可信度进行区分,从而对现有知识库中的实体关系结构向量进行增强表示,得到语义信息丰富的知识表示模型,并通过卷积神经网络对联合表示向量进行维度强化训练,进一步捕捉隐式向量间的关联特征,更好地对知识图谱中的实体关系向量进行关联度聚类区分,最后进行实体与关系的向量计算完成知识图谱的补全及推理。

优选的,本发明的方法还包括:

所述可靠特征信息是基于卷积神经网络模型学习提取得到的,其中,

基于所述卷积神经网络模型学习表示实体相关文本描述信息,以对结构表示向量进行语义增强。

本发明通过卷积神经网络模型来学习表示实体相关文本描述信息,能够使其文本表示向量与结构表示向量空间保持一致。

优选的,基于卷积神经网络模型学习表示实体相关文本描述信息的方法包括:

将知识图谱中的实体关系链接数据与文本进行关联并对同名实体进行自动标注;有利于实现知识图谱与文本的联合建模,形成高效的实体链接方法。

基于文本中的词向量集合的上下文关系对文本中的词向量序列进行局部语义组合并提取句子的局部语义特征;

基于卷积神经网络模型对文本中的序列向量进行训练,并且基于非线性激活函数以迭代训练的方式优化句子表示的向量语义,有利于提升模型的稳定性,最后采用最大池化操作对输出向量进行维度一致性处理。

优选的,对可靠特征信息的可信度进行区分的方法至少包括:

获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量;有利于推理计算得到文本表示向量的关系r向量;

基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化,使得同一实体在不同句子中的表示向量存在一定的区分度。

优选的,对可靠特征信息的可信度进行区分的方法还包括:根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。

优选的,构成文本表示向量的方法包括:

建立注意力权重矩阵,

基于知识图谱中的结构表示向量和句子的关系向量表示通过所述注意力权重矩阵计算句子的注意力权值,从而将不同句子中的向量聚合得到关联度区分的文本关系表示向量。

优选的,所述方法还包括:设置阈机制对结构表示向量和文本表示向量进行综合加成。其阈值与数据的复杂度相关,即对于结构相对复杂的知识图谱,其结构性向量表示的权重占比大,对于稀疏领域知识图谱而言,文本性向量表示的占比更大。

优选的,所述方法还包括:

基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行知识关联预测和/或数据智能推理。通过已经学习得到的基于三元组结构的表示向量与基于文本描述的表示向量进行联合学习,得到文本中共现实体的增强表示向量,才能更好地利用外部文本语料信息对现有知识库进行补全。

本发明还提供了一种文本增强的知识图谱联合表示学习装置,其特征在于,所述装置至少包括:

结构表示向量生成模块,用于基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;

文本表示向量生成模块,用于建立注意力机制模型以对可靠特征信息的可信度进行区分,将不同句子中的向量聚合得到关联度区分的文本表示向量;

联合表示学习模块,用于采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于联合表示学习模型进行联合学习。

优选的,所述装置还包括预测模块和/或推理模块,

所述预测模块基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行知识关联预测;

所述推理模块基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行数据智能推理。

附图说明

图1是本发明的文本处理的网络结构示意图;

图2是文本增强的联合训练模型的逻辑模块示意图。

附图标记列表

A1:输入层;A2:词表示层;A3:卷积层;A4:输出层;11:文本输入模块;12:实体标记模块;13:文本表示向量模块;21:知识图谱输入模块;22:翻译训练模块;23:结构表示向量模块;30:联合表示学习模块;40:预测模块;50:推理模块。

具体实施方式

下面结合附图进行详细说明。

基于现有技术的不足,本发明提供一种文本增强的知识图谱联合表示学习方法或装置,也可以称为一种文本增强的知识图谱联合表示学习系统。本发明还提供一种联合文本的知识图谱表示学习模型。

本发明提出的一种新型的联合文本的知识图谱表示学习模型TECRL,能够基于关联文本的重要程度对实体关系向量进行选择性增强,使得模型语义表现力更强,并采用2D卷积操作对联合表示向量进行训练,与传统翻译模型的得分函数训练方法进行对比,在链路预测及三元组分类等任务上具有更好的性能。

实施例1

本发明提供一种文本增强的知识图谱联合表示学习方法,其特征在于,所述方法至少包括:

S1:基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;

S2:建立注意力机制模型以基于阈值σ

S3:建立联合表示学习模型,采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于所述联合表示学习模型进行联合学习。

本发明针对现有的知识图谱存在关系稀疏,结构知识不完备,表示学习方法忽略了对知识库外部文本信息的有效利用的缺陷,提供一种引入文本描述信息的知识联合表示学习方法,通过卷积神经网络模型对文本数据提取可靠特征信息,并基于注意力机制对不同关系的特征可信度进行区分,从而对现有知识库中的实体关系结构向量进行增强表示,得到语义信息丰富的知识表示模型,并通过卷积神经网络对联合表示向量进行维度强化训练,进一步捕捉隐式向量间的关联特征,更好地对知识图谱中的实体关系向量进行关联度聚类区分,最后进行实体与关系的向量计算完成知识图谱的补全及推理。

优选的,本发明的方法还包括:

S4:所述可靠特征信息是基于卷积神经网络模型学习提取得到的,其中,

基于所述卷积神经网络模型学习表示实体相关文本描述信息,以对结构表示向量进行语义增强。

本发明通过卷积神经网络模型来学习表示实体相关文本描述信息,能够使其文本表示向量与结构表示向量空间保持一致。

本发明中,基于知识图谱中的实体对象及其关系链接学习结构向量表示的过程包括:

S11:将知识图谱中的实体与关系数据映射到低维连续向量空间,使含有链接关系的实体表示向量存在一定的计算加和关联性。

优选的,通过翻译模型、文本卷机神器网络模型等将知识图谱中的实体与关系数据映射到低维连续向量空间。

S12:构造非线性训练函数

优选的,建立注意力机制模型以对可靠特征信息的可信度进行区分的方法至少包括:

S21:对于包含实体对(h,t)的句子s,获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量;有利于推理计算得到文本表示向量的关系r向量;

S22:基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化,使得同一实体在不同句子中的表示向量存在一定的区分度。

优选的,根据公式

在知识图谱中指定向量的候选集合对应的文本向量表示的相似度值小于σ

选择符合阈值的结构表示向量为文本关系表示向量。

优选的,建立注意力机制模型以对可靠特征信息的可信度进行区分的方法还包括:

S23:根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。

优选的,构成文本表示向量的方法包括:

S24:建立注意力权重矩阵,基于知识图谱中的结构表示向量和句子的关系向量表示通过所述注意力权重矩阵计算句子的注意力权值,从而将不同句子中的向量聚合得到关联度区分的文本关系表示向量。

优选的,基于卷积神经网络模型学习表示实体相关文本描述信息的方法包括:

S41:将知识图谱中的实体关系链接数据与文本进行关联并对同名实体进行自动标注,有利于实现知识图谱与文本的联合建模,形成高效的实体链接方法。具体地,利用候选实体之间的关系构建图,把命名实体作为节点纳入图中,对文本中出现的知识图谱中的同名实体进行自动化标注;

S42:基于文本中的词向量集合的上下文关系对文本中的词向量序列进行局部语义组合并提取句子的局部语义特征。

优选的,通过采用word2vec向量生成工具对文本中的标注词汇进行训练,得到所有的词向量集合。根据文本间的上下文关系,对文本中的词向量序列进行局部语义组合,从而在词向量层面提取出句子的局部语义特征。

S43:基于卷积神经网络模型对文本中的序列向量进行训练,并且基于非线性激活函数以迭代训练的方式优化句子表示的向量语义,有利于提升模型的稳定性,最后采用最大池化操作对输出向量进行维度一致性处理。

具体地,非线性激活函数为Q

优选的,本发明的文本增强的知识图谱联合表示学习方法还包括:

S5:设置阈机制对结构表示向量和文本表示向量进行综合加成。其阈值与数据的复杂度相关,即对于结构相对复杂的知识图谱,其结构性向量表示的权重占比大,对于稀疏领域知识图谱而言,文本性向量表示的占比更大。

优选的,所述方法还包括:

S6:基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行知识关联预测和/或数据智能推理。通过已经学习得到的基于三元组结构的表示向量与基于文本描述的表示向量进行联合学习,得到文本中共现实体的增强表示向量,才能更好地利用外部文本语料信息对现有知识库进行补全。

本发明将文本数据处理形成文本表示向量、将知识图谱处理形成结构表示向量,并且将文本表示向量和结构表示向量进行联合表示学习的具体实施过程如下所示。

基于翻译模型训练的基本思想,假定知识图谱中的所有实体关系向量均处于同一维度,三元组信息的向量表示可看作(h

针对知识图谱中的实体向量h

本发明的文本上下文的词向量嵌入的算法流程如图1所示。

在输入层A1输入文字内容,文字内容例如是“Huazhong University of Scienceand Technology is located in the beautiful city of Wuhan”。

SA2:在词表示层A2,将输入层的例句进行实体的向量标注,去除了句子的所有停用词后,构建训练预期词汇表。即使用word2vec工具在词表示层中训练所有单词向量,将每个单词基于词汇表的向量和句子本身的局部位置特征向量进行局部语义组合,从而在词向量层面提取出句子的局部语义特征。

SA3:在卷积层A3,利用文本卷积网络模型CNN实现了相关文本描述的嵌入向量表示,通过设置滑动窗口将句子的词向量序列局部组合为句子的局部语义特征,并根据句子中包含的实体引用的差异对文本实体向量和关系向量进行分析。

SA4:在输出层A4,通过最大池化操作优化文本表示向量的特征信息,拼接最大值向量,得到卷积神经网络模型训练操作后的文本表示向量,可执行维数矩阵转换操作以获得文本表示向量,完成输出层的操作。

在嵌入文本上下文的词向量后,通过注意力机制模型对指定实体对的不同共现句子进行语义特征组合。在注意力机制模型预测实体对关系r时,根据每个句子与实体对关系的关联程度选择句子中的信息,以不同的权重对不同的句子进行组合。针对句子序列s={x

将包含实体对(h,t)的句子集合记为S

卷积神经网络模型的具体表现形式为:E

优选的,结构表示向量包含结构实体向量和关系向量。根据知识图谱固有的结构实体向量和句子所代表的关系向量表示,计算得到每个句子的注意力权值:

本发明基于实体对相关联的所有句子的向量聚合得到最终的文本表示向量,具体形式如下:

将得到的基于三元组结构的结构表示向量与基于文本描述的文本表示向量进行联合学习,得到文本中共现实体的增强表示向量,才能更好地利用外部文本语料信息对现有知识库进行补全。

具体地,针对实体/关系的联合文本向量表示,为了充分考虑到它的结构向量表示和文本向量表示,采用动态参数生成策略。动态参数生成策略为:对于结构相对复杂的知识图谱,其结构性向量表示的权重占比大,对于稀疏领域知识图谱而言,文本性向量表示的占比更大。动态参数生成策略的具体表现形式如下:h=h

参数θ

通过联合表示学习模型的学习结果可用于知识关联预测和数据智能推理。例如:通常用学习结果表现出来的实验数据判定链路预测或者推理三元组分类是否足够准确。

实施例2

本实施例提供一种本发明还提供了一种文本增强的知识图谱联合表示学习装置,如图2所示,所述装置至少包括:

结构表示向量生成模块,用于基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;

文本表示向量生成模块,用于建立注意力机制模型以对可靠特征信息的可信度进行区分,将不同句子中的向量聚合得到关联度区分的文本表示向量;

联合表示学习模块,用于采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于联合表示学习模型进行联合学习。

优选的,本发明中的文本表示向量生成模块、结构表示向量生成模块和联合表示学习模块均可以是专用集成芯片、服务器、服务器群组、云服务器中的一种或几种。

运行结构表示向量生成模块,以执行以下程序:

S11:将知识图谱中的实体与关系数据映射到低维连续向量空间,使含有链接关系的实体表示向量存在一定的计算加和关联性。

优选的,通过翻译模型、文本卷机神器网络模型等将知识图谱中的实体与关系数据映射到低维连续向量空间。

S12:构造非线性训练函数

优选的,运行文本表示向量生成模块,以执行以下程序:

建立注意力机制模型以对可靠特征信息的可信度进行区分。其中,

S21:对于包含实体对(h,t)的句子s,获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量;有利于推理计算得到文本表示向量的关系r向量;

S22:基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化,使得同一实体在不同句子中的表示向量存在一定的区分度。

优选的,根据公式

在知识图谱中指定向量的候选集合对应的文本向量表示的相似度值小于σ

选择符合阈值的结构表示向量为文本关系表示向量。

优选的,在执行建立注意力机制模型以对可靠特征信息的可信度进行区分的程序中,还进行的步骤包括:

S23:根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。其中,

建立注意力权重矩阵,基于知识图谱中的结构表示向量和句子的关系向量表示通过所述注意力权重矩阵计算句子的注意力权值,从而将不同句子中的向量聚合得到关联度区分的文本关系表示向量。

文本表示向量生成模块至少包括文本输入模块11、实体标记模块12和文本表示向量模块13。

文本输入模块11用于文字信息的输入或者提取。文本输入模块11可以是具有信息提取、采集、输入功能的任意终端,例如移动终端设备、不可移动的计算机设备等等。移动终端设备例如是智能可穿戴设备、手机、平板电脑、能够输入信息的操作平台等。实体标记模块12和文本表示向量模块13均可以是具有计算处理功能的专用集成芯片、服务器、服务器群组、云服务器中的一种或几种。

实体标记模块12基于文本增强的卷积表示学习(TECRL)模型的实体标记方法将文本数据对应的信息标注过程自动化。

其中,运行实体标记模块以执行以下程序:

将知识图谱中的实体关系链接数据与文本进行关联并对同名实体进行自动标注;

基于文本中的词向量集合的上下文关系对文本中的词向量序列进行局部语义组合并提取句子的局部语义特征;

基于卷积神经网络模型对文本中的序列向量进行训练,并且基于非线性激活函数以迭代训练的方式优化句子表示的向量语义。

文本表示向量模块13用于根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。

具体地,运行文本表示向量模块以执行以下程序:

根据注意力机制模型以对可靠特征信息的可信度进行区分。其中,获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量;基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化,使得同一实体在不同句子中的表示向量存在一定的区分度。

其中,在注意力机制模型预测实体对关系r时,根据每个句子与实体对关系的关联程度选择句子中的信息,以不同的权重对不同的句子进行组合。针对句子序列s={x

将包含实体对(h,t)的句子集合记为S

根据知识图谱固有的结构实体向量和句子所代表的关系向量表示,计算得到每个句子的注意力权值:

结构表示向量生成模块至少包括知识图谱输入模块21、翻译训练模块22和结构表示向量模块23。

知识图谱输入模块21用于存储、输入或者提取知识图谱中的实体对象及其关系链接。知识图谱输入模块21可以是具有信息提取、采集、输入功能的任意终端,例如移动终端设备、不可移动的计算机设备等等。移动终端设备例如是智能可穿戴设备、手机、平板电脑、能够输入信息的操作平台等。

翻译训练模块22和结构表示向量模块23均可以是具有计算处理功能的专用集成芯片、服务器、服务器群组、云服务器中的一种或几种。

翻译训练模块22内设置有翻译模型TransE。运行翻译训练模块22,执行的程序为:

通过翻译模型TransE的训练方法处理输入的知识图谱,获得了结构化的文本表示形式的向量,同时经翻译模型处理得到对应的三元组结构表示向量。

具体地,假定知识图谱中的所有实体关系向量均处于同一维度,三元组信息的向量表示可看作(h

运行结构表示向量模块23,执行以下程序:

针对知识图谱中的实体向量h

运行联合表示学习模块30,执行以下程序:

基于三元组结构的表示向量与基于文本描述的表示向量进行联合学习,得到文本中共现实体的增强表示向量。具体地,采用动态参数生成策略模型h=h

优选的,所述装置还包括预测模块40和/或推理模块50。

运行预测模块40,执行的程序为:基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行知识关联预测。

运行推理模块50,执行的程序为:基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行数据智能推理。

需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

相关技术
  • 一种文本增强的知识图谱联合表示学习方法及装置
  • 一种结合序列文本信息的知识图谱表示学习方法及装置
技术分类

06120112329556