掌桥专利:专业的专利平台
掌桥专利
首页

知识图谱起源处理方法和系统、电子设备和存储介质

文献发布时间:2023-06-19 11:57:35


知识图谱起源处理方法和系统、电子设备和存储介质

技术领域

本发明涉及消息传递技术领域,尤其涉及一种知识图谱起源处理方法和系统、电子设备和存储介质。

背景技术

知识图谱已经日益成为许多以知识为中心的关键应用程序的支柱。在许多以知识为中心的应用程序中,大规模知识图谱的使用已经变得很普遍,知识图谱对现实生活中发生的各种实体之间的相互关系进行建模。除了在网络搜索系统(如谷歌Knowledge Graph,Microsoft Bing Satori等)中发挥关键作用外,它们还被用于电子政务、技术支持、药物管理、学术搜索等场景。

虽然有些知识图谱是精心手工制作的,但是大多数实际使用的大规模知识图谱都是基于相同或类似的提取技术,通过在各种底层数据源上使用一个或多个信息提取管道自动构建的。因此,知识图谱可以包含通过不同机制获得相关的知识实体,也可以通过不同来源的事实的组合生成查询结果。所以,仅在一个知识图谱中跟踪单个实体的细粒度来源是不够的,我们还需要跟踪单个查询结果的遍历性。因此,为查询结果建立其来源追溯以确定这些结果是如何产出的变得尤为重要。结果追溯对于评估查询结果的可信度、知识图谱本身的生成以及提供答案解释都是有用的。

在许多在应用程序中,某些查询被设定为长效高频查询,基于效率和资源方面的考虑,其查询结果经常被固化显示。然而,由于源数据的变化、提取技术的改进、信息的细化/丰富等原因,知识图谱本身在不断发生变化。由此带来了一个问题,即如何高效、动态的维护大型知识图谱查询时对查询结果的源头进行追溯,而不是每次知识图谱更新时都必须从头重新计算,这成为提高知识图谱工作效率的一个重要环节。

发明内容

本发明提供一种知识图谱起源处理方法和系统、电子设备和存储介质,用以解决现有技术中存在的技术缺陷。

本发明提供一种知识图谱起源处理方法,包括:

基于原因起源以及过程追溯,跟踪知识图谱上查询结果的派生;

其中,所述原因起源是一组由特定结果项的特定派生提供的关系边组成的集合;所述过程追溯采用起源多项式表示,所述起源多项式表示对任一组查询的潜在匹配;

在知识图谱的更新时,基于更新的知识图谱,对所述起源多项式进行更新。

优选的是,所述的知识图谱起源处理方法,其中,所述潜在匹配表示知识图谱的任何子图在插入一条边后能够成为一查询的实际匹配,所述潜在匹配包括第一模式潜在匹配、第二模式潜在匹配,所述第一模式潜在匹配为一个新添加的边匹配查询的一个三重模式,使得子图成为查询的一个实际匹配;所述第二模式潜在匹配为一个新添加的边匹配查询的多个三重模式,使得子图成为查询的一个实际匹配。

优选的是,所述的知识图谱起源处理方法,其中,包括:

根据潜在匹配的类型将已注册查询分为常规查询和多映射查询,其中,所述常规查询表示只有第一模式潜在匹配的查询,所述多映射查询表示具有第二模式潜在匹配的查询。

优选的是,所述的知识图谱起源处理方法,其中,包括:通过每次维护从查询的基本图模式中获得子查询的信息;

所述子查询表示:若给定查询的大小为n,即,有n个三重模式,删除一个三重模式最多在生成的子查询中生成两个子图;将这两个子图表示为SQ1和SQ2,不丧失一般性,设置|SQ1|=k,|SQ2|=n-k-1,其中0≤k≤n-1。

本发明还提供了一种知识图谱起源处理系统,包括:

查询结果跟踪模块,用于基于原因起源以及过程追溯,跟踪知识图谱上查询结果的派生;

其中,所述原因起源是一组由特定结果项的特定派生提供的关系边组成的集合;所述过程追溯采用起源多项式表示,所述起源多项式表示对任一组查询的潜在匹配;

起源多项式更新模块,用于在知识图谱的更新时,基于更新的知识图谱,对所述起源多项式进行更新。

优选的是,所述的知识图谱起源处理系统,其中,所述潜在匹配表示知识图谱的任何子图在插入一条边后能够成为一查询的实际匹配,所述潜在匹配包括第一模式潜在匹配、第二模式潜在匹配,所述第一模式潜在匹配为一个新添加的边匹配查询的一个三重模式,使得子图成为查询的一个实际匹配;所述第二模式潜在匹配为一个新添加的边匹配查询的多个三重模式,使得子图成为查询的一个实际匹配。

优选的是,所述的知识图谱起源处理系统,其中,包括:

查询分类模块,用于根据潜在匹配的类型将已注册查询分为常规查询和多映射查询,其中,所述常规查询表示只有第一模式潜在匹配的查询,所述多映射查询表示具有第二模式潜在匹配的查询。

优选的是,所述的知识图谱起源处理系统,其中,包括:

子查询模块,用于通过每次维护从查询的基本图模式中获得子查询的信息;

所述子查询表示:若给定查询的大小为n,即,有n个三重模式,删除一个三重模式最多在生成的子查询中生成两个子图;将这两个子图表示为SQ1和SQ2,不丧失一般性,设置|SQ1|=k,|SQ2|=n-k-1,其中0≤k≤n-1。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述知识图谱起源处理方法的步骤。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述知识图谱起源处理方法的步骤。

本发明提供了知识图谱起源处理方法,通过提出动态起源多项式概念以及对生成答案的关系边进行编码来跟踪知识图谱上查询结果的派生。在知识图谱的更新时,基于更新的知识图谱,对所述起源多项式进行更新,避免了每次对知识图谱进行更新后对查询结果的重复计算,极大的提高了知识图谱的查询效率,节省了计算资源;同时确保了查询结果起源追溯的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的知识图谱起源处理方法的流程示意图;

图2是本发明提供的知识图谱起源处理系统的示意图;

图3是本发明提供的电子设备的结构示意图;

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种知识图谱起源处理方法,参见图1,包括:

S1:基于原因起源以及过程追溯,跟踪知识图谱上查询结果的派生;

S1中,查询起源包括两个重要类别,即原因起源以及过程追溯,原因起源是一组由特定结果项的特定派生提供的边组成的集合。另一方面,经过追溯通过象征性编码,用于描述一个答案衍生过程中各关系之间的相互作用。在原因起源中,设定其表达方式表示为一个多项式与每个单项的边缘代表绑定导致答案,由多组不同的关系边组合得到相同或者高度近似的结果;对于过程追溯,需要捕获更多关于生产结果的信息,使用起源多项式表示。

起源多项式的构建方法的基础是对某一具体查询q而言,对其潜在的各种概念进行匹配。直观地说,查询的这些潜在匹配对应于部分匹配给定查询图模式的知识图谱的子图。对于查询的潜在匹配的维护,只需要插入一条关系边就可以将它们转换为完全匹配。

考虑一个包含n个三重模式的查询Q。假设S∈G是一个子图,可以匹配查询Q的n-1个三重模式,只有1个三重模式不匹配。后一个新的边缘e不匹配的三重模式相匹配的Q是添加到S的新的子图,S*=S∪{e}成为一个Q的实际匹配:换言之,S*∈A(Q),A(Q)的查询的查询结果集,S是潜在的匹配。知识图谱G的任何子图S在插入一条边后能够成为查询Q的实际匹配,称为潜在匹配。

其中,所述原因起源是一组由特定结果项的特定派生提供的关系边组成的集合;所述过程追溯采用起源多项式表示,所述起源多项式表示对任一组查询的潜在匹配;

S2:在知识图谱的更新时,基于更新的知识图谱,对所述起源多项式进行更新。

所述潜在匹配表示知识图谱的任何子图在插入一条边后能够成为一查询的实际匹配,所述潜在匹配包括第一模式潜在匹配、第二模式潜在匹配,所述第一模式潜在匹配为一个新添加的边匹配查询的一个三重模式,使得子图成为查询的一个实际匹配;所述第二模式潜在匹配为一个新添加的边匹配查询的多个三重模式,使得子图成为查询的一个实际匹配。

本发明通过提出动态起源多项式概念以及对生成答案的关系边进行编码来跟踪知识图谱上查询结果的派生。在知识图谱的更新时,基于更新的知识图谱,对所述起源多项式进行更新,避免了每次对知识图谱进行更新后对查询结果的重复计算,极大的提高了知识图谱的查询效率,节省了计算资源;同时确保了查询结果起源追溯的准确度。同时,在面对对底层知识图谱的更新(插入和删除事实)时可以实现对起源多项式的自动维护更新。

具体的,第一模式潜在匹配也就是1:1潜在匹配。如果新添加的边e只匹配查询Q的一个三重模式,使得S*=S∪{e}成为Q的一个实际匹配,那么子图S称为1:1潜在匹配,用PM1:1表示。第二模式潜在匹配也就是1:M潜在匹配,如果一个新添加的边e匹配了查询Q的多个三种模式,使得S*=S∪{e}成为Q的一个实际匹配,那么子图S被称为1:m潜在匹配,用PM1:m表示。

包括:

根据潜在匹配的类型将已注册查询分为常规查询和多映射查询,其中,所述常规查询表示只有第一模式潜在匹配的查询,所述多映射查询表示具有第二模式潜在匹配的查询。这两个查询都是连接查询,它们的区别仅在于谓词在三元模式中的分布。只有1:1的潜在匹配(没有1:m的潜在匹配)的查询称为常规查询,由Q

将潜在匹配项和查询分离到不同的类,因为它们需要以不同的方式处理。查询注册过程策略基于以下内容。

引理1:PM1:1可以满足给定大小为n的父查询Q的一个且仅一个大小为n-1的子查询。

引理2:PM1:m不能满足给定大小为n的父查询Q的大小为n-1的子查询。

引理3:在一条条件边插入之后,当且仅当PM1:m满足Q的所有子查询时,PM1:m满足父查询Q。

使用起源多项式维护所有登记维护的长期查询的结果,以及与查询相关的事实。通过每次维护从查询的基本图模式中获得的子查询的信息。为了在工作负载中的所有查询/子查询中提高效率,将已查询结果进行共享利用,使用AND-OR图生成的各个子查询执行计划合并起来,形成一个单一的全局执行树。当更新知识图谱时,使用筛选和优化范例计算更新后的查询结果,也有助于快速重新计算子查询结果。

优选的是,以上的方法包括:通过每次维护从查询的基本图模式中获得子查询的信息;

所述子查询表示:若给定查询的大小为n,即,有n个三重模式,删除一个三重模式最多在生成的子查询中生成两个子图;将这两个子图表示为SQ1和SQ2,不丧失一般性,设置|SQ1|=k,|SQ2|=n-k-1,其中0≤k≤n-1。

根据子图的大小和结果的连接点,子查询可以分为以下不同类型:

类型I:子查询有一个单例子图k=0,当查询图的叶节点的边对应的三重模式被删除时生成。

类型II:一个子图只包含一个三重模式,即k=1,这种情况下,最终使用SQ2中的三元模式将所有边标识为连接点,这可能在知识图谱中的存证大量潜在实体。为了避免了这种情况,本专利只标识来自A(SQ1)的连接点。

类型III:SQ1和SQ2都包含至少两个三重模式,即2≤k

类型IV:在最后一种类型中,从查询中删除三元组模式不会断开查询图的连接,即k=n-1,每匹配一次SQ1,就会产生2个潜在匹配。

本发明的具体实施过程如下:

数据集,使用通用YAG02数据集。

查询集,对于YAG02数据集,使用RDF-3X进行验证。

知识图谱样本,对于每个知识图谱,按照以下方式生成插入工作负载。从最初的开始图中,随机选择一对尚未连接的顶点,并用一个随机选择的谓词将它们连接起来。

选择Neo4j存储知识图,基线系统。使用开源的TripleProv来支持起源计算定制。

下面对本发明提供的知识图谱起源处理系统进行描述,下文描述的知识图谱起源处理系统与上文描述的知识图谱起源处理方法可相互对应参照。

本发明实施例公开了一种知识图谱起源处理系统,参见图2,包括:

查询结果跟踪模块10,用于基于原因起源以及过程追溯,跟踪知识图谱上查询结果的派生;

其中,所述原因起源是一组由特定结果项的特定派生提供的关系边组成的集合;所述过程追溯采用起源多项式表示,所述起源多项式表示对任一组查询的潜在匹配;

起源多项式更新模块20,用于在知识图谱的更新时,基于更新的知识图谱,对所述起源多项式进行更新。

所述潜在匹配表示知识图谱的任何子图在插入一条边后能够成为一查询的实际匹配,所述潜在匹配包括第一模式潜在匹配、第二模式潜在匹配,所述第一模式潜在匹配为一个新添加的边匹配查询的一个三重模式,使得子图成为查询的一个实际匹配;所述第二模式潜在匹配为一个新添加的边匹配查询的多个三重模式,使得子图成为查询的一个实际匹配。

本发明的系统包括:

查询分类模块,用于根据潜在匹配的类型将已注册查询分为常规查询和多映射查询,其中,所述常规查询表示只有第一模式潜在匹配的查询,所述多映射查询表示具有第二模式潜在匹配的查询。

进一步的,本发明的系统包括:

子查询模块,用于通过每次维护从查询的基本图模式中获得子查询的信息;

所述子查询表示:若给定查询的大小为n,即,有n个三重模式,删除一个三重模式最多在生成的子查询中生成两个子图;将这两个子图表示为SQ1和SQ2,不丧失一般性,设置|SQ1|=k,|SQ2|=n-k-1,其中0≤k≤n-1。

图3示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行一种知识图谱起源处理方法,该方法包括:

S1:基于原因起源以及过程追溯,跟踪知识图谱上查询结果的派生;

其中,所述原因起源是一组由特定结果项的特定派生提供的关系边组成的集合;所述过程追溯采用起源多项式表示,所述起源多项式表示对任一组查询的潜在匹配;

S2:在知识图谱的更新时,基于更新的知识图谱,对所述起源多项式进行更新。

此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行一种知识图谱起源处理方法,该方法包括:

S1:基于原因起源以及过程追溯,跟踪知识图谱上查询结果的派生;

其中,所述原因起源是一组由特定结果项的特定派生提供的关系边组成的集合;所述过程追溯采用起源多项式表示,所述起源多项式表示对任一组查询的潜在匹配;

S2:在知识图谱的更新时,基于更新的知识图谱,对所述起源多项式进行更新。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行一种知识图谱起源处理方法,该方法包括:

S1:基于原因起源以及过程追溯,跟踪知识图谱上查询结果的派生;

其中,所述原因起源是一组由特定结果项的特定派生提供的关系边组成的集合;所述过程追溯采用起源多项式表示,所述起源多项式表示对任一组查询的潜在匹配;

S2:在知识图谱的更新时,基于更新的知识图谱,对所述起源多项式进行更新。

以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 知识图谱起源处理方法和系统、电子设备和存储介质
  • 预测室性心律失常起源位置的系统、电子设备和存储介质
技术分类

06120113117045