掌桥专利:专业的专利平台
掌桥专利
首页

知识图谱处理方法和系统、电子设备和存储介质

文献发布时间:2023-06-19 11:57:35


知识图谱处理方法和系统、电子设备和存储介质

技术领域

本发明涉及消息传递技术领域,尤其涉及一种知识图谱处理方法和系统、电子设备和存储介质。

背景技术

最近谷歌和Facebook等跨国公司对知识图的采用,使它们成为链接预测和节点分类等各种机器学习应用的有趣目标。这种兴趣导致了消息传递模型的开发,使数据科学家能够从任意图形中进行端到端学习,这些模型利用关系信息编码图的结构来引导学习过程。同样的方法也被证明在知识图谱上工作得很好。

但是端到端的多通道学习知识图谱在很大程度上尚未得到解决。相反,大多数端到端的模型,比如消息传递网络,只从已完成编码的图形结构中的关系信息中学习,而知识图谱数据的原始值或文字要么被完全省略,要么从它们的值中被剥离出来作为常规节点处理。在这种情况下大量可能相关的可以被学习的原始信息被丢失了。

发明内容

本发明提供一种知识图谱处理方法和系统、电子设备和存储介质,用以解决现有技术中存在的技术缺陷。

本发明提供一种知识图谱处理方法,包括:

基于输入的多模式知识图谱,提取端到端的图结构数据,并根据图结构数据的形式提取文字值,其中,所述多模式知识图谱包含至少两种异构数据信息;

将所述图结构数据、文字值输入多模式信息传递网络模型,提取为结构化的知识图谱结构数据;

其中,所述多模式信息传递网络模型是基于图结构样本数据、文字值样本数据以及预先确定的结构化的知识图谱结构数据标签进行训练后得到。

优选的是,所述的知识图谱处理方法,其中,所述异构数据信息包括:被与关系数据糅合在一起展示的图片和几何图形。

优选的是,所述的知识图谱处理方法,其中,所述多模式信息传递网络模型包括通信神经网络:

其中H

优选的是,所述的知识图谱处理方法,其中,所述多模式信息传递网络模型包括模式编码器:

所述模式编码器用于对所述图结构数据、文字值在多个维度上进行数据处理,所述多个维度包括数值、时间、文本、视觉以及空间关系。

本发明还提供了一种知识图谱处理系统,包括:

多模式知识图谱提取模块,用于基于输入的多模式知识图谱,提取端到端的图结构数据,并根据图结构数据的形式提取文字值,其中,所述多模式知识图谱包含至少两种异构数据信息;

结构数据提取模块,用于将所述图结构数据、文字值输入多模式信息传递网络模型,提取为结构化的知识图谱结构数据;

其中,所述多模式信息传递网络模型是基于图结构样本数据、文字值样本数据以及预先确定的结构化的知识图谱结构数据标签进行训练后得到。

优选的是,所述的知识图谱处理系统,其中,所述异构数据信息包括:被与关系数据糅合在一起展示的图片和几何图形。

优选的是,所述的知识图谱处理系统,其中,所述多模式信息传递网络模型包括通信神经网络:

其中H

优选的是,所述的知识图谱处理系统,其中,所述多模式信息传递网络模型包括模式编码器:

所述模式编码器用于对所述图结构数据、文字值在多个维度上进行数据处理,所述多个维度包括数值、时间、文本、视觉以及空间关系。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述知识图谱处理方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述知识图谱处理方法的步骤。

本发明提供了一种知识图谱处理方法,基于输入的多模式知识图谱,提取端到端的图结构数据,并根据图结构数据的形式提取文字值。支持自动对嵌入到节点的多种不同类型的数据形式的学习,包括被与关系数据糅合在一起展示的图片和几何图形。同时多模式信息传递网络模型支持文字和非文字信息的区分处理,此外对于每个单独实体及其对应的:数字、文本、图片、图形等都支持单独处理。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的知识图谱处理方法的流程示意图;

图2是本发明提供的知识图谱处理系统的示意图;

图3是本发明提供的电子设备的结构示意图;

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种知识图谱处理方法,参见图1,包括:

S1:基于输入的多模式知识图谱,提取端到端的图结构数据,并根据图结构数据的形式提取文字值,其中,所述多模式知识图谱包含至少两种异构数据信息;

在此,包含多种形态的信息的知识图谱被命名为多模式知识图谱,使用基本的关系图信息编码结构,对其他常见形式的数值、文本、时间、视觉,听觉以及空间位置关系进行标注。例如,可能会发现每个实际物体都有详细描述,注册号码,生产制造日期等属性,不同的数据从不同的角度展示相关的属性,这些属性和其他属性被编码为原始值和相应的数据类型声明,称为文字;其他关于对象连接,称为实体。S1中,不仅能够从图的结构中学习端到端信息,而且从图的多模式节点的可能特征集中学习。通过以上方式可以从任何异构数据信息中提取端到端的图结构数据,并可以根据他们的形式提取文字值。

S2:将所述图结构数据、文字值输入多模式信息传递网络模型,提取为结构化的知识图谱结构数据;

其中,所述多模式信息传递网络模型是基于图结构样本数据、文字值样本数据以及预先确定的结构化的知识图谱结构数据标签进行训练后得到。

多模式信息传递网络模型支持文字和非文字信息的区分处理,此外对于每个单独实体及其对应的:数字、文本、图片、图形等都支持单独处理。实现对包含多种异构数据信息自动提取为结构化的知识图谱结构数据。

所述异构数据信息包括:被与关系数据糅合在一起展示的图片和几何图形。

所述多模式信息传递网络模型包括通信神经网络:

其中H

通信神经网络为一种图卷积神经网络,使用可训练的函数将节点嵌入传播到神经网络的边缘。

使用上述方法对有k个类的实体进行分类,首先从单向量开始初始节点的嵌入,将其转化为标准h维节点,嵌入到图卷积神经网络层(CGN层);在CGN层包括一个行向非线性分类器,可以将嵌入节点按照相关判断概率进行分类。然后对网络进行训练,通过计算已知标签和向后传播的交叉熵损失来更新权重。训练过程中通过增加A

所述多模式信息传递网络模型包括模式编码器:

所述模式编码器用于对所述图结构数据、文字值在多个维度上进行数据处理,所述多个维度包括数值、时间、文本、视觉以及空间关系。本发明为知识图谱中常见的物种不同形式的数据添加编码器,包括数值、时间、文本、视觉以及空间关系五项,采用当前开源的通用编码器实现对原始数据的处理。

下面对本发明提供的知识图谱处理系统进行描述,下文描述的知识图谱处理系统与上文描述的知识图谱处理方法可相互对应参照。

本发明实施例公开了一种知识图谱处理系统,参见图2,包括:

多模式知识图谱提取模块10,用于基于输入的多模式知识图谱,提取端到端的图结构数据,并根据图结构数据的形式提取文字值,其中,所述多模式知识图谱包含至少两种异构数据信息;

在此,包含多种形态的信息的知识图谱被命名为多模式知识图谱,使用基本的关系图信息编码结构,对其他常见形式的数值、文本、时间、视觉,听觉以及空间位置关系进行标注。例如,可能会发现每个实际物体都有详细描述,注册号码,生产制造日期等属性,不同的数据从不同的角度展示相关的属性,这些属性和其他属性被编码为原始值和相应的数据类型声明,称为文字;其他关于对象连接,称为实体。S1中,不仅能够从图的结构中学习端到端信息,而且从图的多模式节点的可能特征集中学习。通过以上方式可以从任何异构数据信息中提取端到端的图结构数据,并可以根据他们的形式提取文字值。

结构数据提取模块20,用于将所述图结构数据、文字值输入多模式信息传递网络模型,提取为结构化的知识图谱结构数据;

其中,所述多模式信息传递网络模型是基于图结构样本数据、文字值样本数据以及预先确定的结构化的知识图谱结构数据标签进行训练后得到。

多模式信息传递网络模型支持文字和非文字信息的区分处理,此外对于每个单独实体及其对应的:数字、文本、图片、图形等都支持单独处理。实现对包含多种异构数据信息自动提取为结构化的知识图谱结构数据。

所述异构数据信息包括:被与关系数据糅合在一起展示的图片和几何图形。

所述多模式信息传递网络模型包括通信神经网络:

其中H

通信神经网络为一种图卷积神经网络,使用可训练的函数将节点嵌入传播到神经网络的边缘。

使用上述方法对有k个类的实体进行分类,首先从单向量开始初始节点的嵌入,将其转化为标准h维节点,嵌入到图卷积神经网络层(CGN层);在CGN层包括一个行向非线性分类器,可以将嵌入节点按照相关判断概率进行分类。然后对网络进行训练,通过计算已知标签和向后传播的交叉熵损失来更新权重。训练过程中通过增加A

所述多模式信息传递网络模型包括模式编码器:

所述模式编码器用于对所述图结构数据、文字值在多个维度上进行数据处理,所述多个维度包括数值、时间、文本、视觉以及空间关系。

图3示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行一种知识图谱处理方法,该方法包括:

S1:基于输入的多模式知识图谱,提取端到端的图结构数据,并根据图结构数据的形式提取文字值,其中,所述多模式知识图谱包含至少两种异构数据信息;

S2:将所述图结构数据、文字值输入多模式信息传递网络模型,提取为结构化的知识图谱结构数据;

其中,所述多模式信息传递网络模型是基于图结构样本数据、文字值样本数据以及预先确定的结构化的知识图谱结构数据标签进行训练后得到。

此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行一种知识图谱处理方法,该方法包括:

S1:基于输入的多模式知识图谱,提取端到端的图结构数据,并根据图结构数据的形式提取文字值,其中,所述多模式知识图谱包含至少两种异构数据信息;

S2:将所述图结构数据、文字值输入多模式信息传递网络模型,提取为结构化的知识图谱结构数据;

其中,所述多模式信息传递网络模型是基于图结构样本数据、文字值样本数据以及预先确定的结构化的知识图谱结构数据标签进行训练后得到。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行一种知识图谱处理方法,该方法包括:

S1:基于输入的多模式知识图谱,提取端到端的图结构数据,并根据图结构数据的形式提取文字值,其中,所述多模式知识图谱包含至少两种异构数据信息;

S2:将所述图结构数据、文字值输入多模式信息传递网络模型,提取为结构化的知识图谱结构数据;

其中,所述多模式信息传递网络模型是基于图结构样本数据、文字值样本数据以及预先确定的结构化的知识图谱结构数据标签进行训练后得到。

以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 知识图谱处理方法和系统、电子设备和存储介质
  • 知识图谱的信息处理方法、装置、电子设备及存储介质
技术分类

06120113117046