一种基于预训练语言模型的本体修正方法与系统
文献发布时间:2024-04-18 20:02:18
技术领域
本发明涉及一种基于预训练语言模型的本体修正方法与系统,属于语义网中本体修正技术领域。
背景技术
随着万维网的快速发展,互联网数据急剧增长,如何让计算机快速、精准、自动地从这些数据中获取有价值的信息成为一个难题。为此,万维网之父蒂姆·伯纳斯-李提出语义网,对万维网进行扩展,使其具有语义和智能。在语义网中,本体被用来形式化地进行知识表示,可以定义实体以及实体之间的关系,对语义网中的知识共享、知识推理等起着至关重要的作用。随着网络本体语言OWL成为W3C的推荐规范、链接开放数据项目的推动以及知识图谱技术的推广,人们开发出越来越多的本体,本体的重要性得到更进一步的增强。
作为一阶谓词逻辑的子集的描述逻辑为OWL本体提供推理支持,可通过标准的描述逻辑推理机从本体已有的知识推导出一些蕴含的知识。这样的推理建立在一致本体的基础上,即对不一致本体进行推理时获得的推论是无意义的。因此,在执行标准推理之前,确保本体的一致性是个重要的环节。而本体的不协调性是导致本体不一致的一个主要的潜在因素,且在本体的构建、维护和演化等过程中往往不可避免地出现本体的不协调性,导致本体的不协调性处理成为一个重中之重的任务。在本体不协调性处理工作中,本体修正用可靠的本体修正待修正的本体,扮演着非常重要的角色。
本体修正旨根据一个可靠本体一致地修正一个待修正的本体,使得修正后的本体与可靠本体的合并不产生逻辑不协调性,即不包含任何解释为空集的不可满足概念。其中,可靠本体与待修正本体各自都假设是一致且协调的,而其合并后的本体是一致但不协调。本体修正有着较为广阔的应用场景,还可用于修补本体映射或单个本体。在修补本体映射时,本体映射转换得到的公理集合可看作待修正的本体,用于映射的两个本体的并可看作可靠的本体;在修补单个本体时,可将其公理分为静态部分与待修正部分,此静态部分包含一些可靠的或不可移除的公理。
截至目前,研究人员已经提出各种本体修正方法,利用公理的权重、在R-MIPS中的出现频率、逻辑推论、实体的签名等策略来挑选公理删除,使得修正后的本体跟对应的可靠本体合并起来不再存在不协调性。但是,这些方法往往只停留在本体的语法层或逻辑推理层,而很少考虑公理自身的语义信息,并且考虑推理层信息容易导致效率低下,只考虑语法层信息又往往很难区分一些公理的重要程度。最新的单个本体修补工作中,虽然存在个别工作考虑公理的语义信息,利用预训练语言模型对公理进行打分,但是尚未考虑本体修正的任务,即未能根据可靠本体与待修正本体的特征对公理打分。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于预训练语言模型的本体修正方法与系统,考虑了公理的语义信息,可高效地分批处理不可满足概念。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于预训练语言模型的本体修正方法,包括:
将输入的可靠本体K
获取给定数量的不可满足概念,计算其R-MIPS;
给R-MIPS中每条公理进行打分,然后根据不同的打分函数采用对应的子集抽取策略从每个R-MIPS中抽取子集;
基于R-MIPS中抽取的子集,计算得到最优修正方案,使得从K中移除该方案的所有公理后K∪K
去除所述最优修正方案中的冗余公理,得到去过冗余的最终解决方案。
进一步的,所述将输入的可靠本体K
给出一个可靠本体K
使用概念转换规则与公理转换规则将公理转化为自然语言描述的短语或句子;
应用预训练模型将句子转换为向量,其中,所述预训练模型采用双向编码器表示BERT模型,所述向量是七百多维的稠密向量;
其中,所述概念转换规则将本体K
规则1:对于概念的交,设定A
规则2:对于概念的并,设定A
规则3:对于形如ObjectSomeValuesFrom(r C)的存在量词限制,翻译为“r atleast one C”;
规则4:对于形如DataSomeValuesFrom(r d)的存在量词限制,翻译为“has some rthat is d”;
规则5:对于形如ObjectAllValuesFrom(p A)或DataSomeValuesFrom(p d)的全称量词约束,分别翻译为“p only from A”或“p only from d”;
规则6:对于形如ObjectExactCardinality(n op A)、ObjectMinCardinality(nop A)与ObjectMaxCardinality(n op A)的数量约束,分别翻译为“p exactly n A”、“p atleast n A”与“p at most nA”;
所述公理转换规则将本体中的逻辑公理转为自然语言表示的句子,包括以下规则:
规则1:对于形如SubClassOf(A B)的包含公理,如果B是一个原子概念,则转换为“A is a subclass ofB.”;否则转换为“Every A B”;
规则2:对于两个概念的不交公理,则翻译为“Classes A and B are disjoint.”;
规则3:对于属性之间的包含关系,设定p包含于r,则翻译为“p is a subpropertyofr”;
规则4:对于属性的不交公理,设定p与r不相交,则翻译为“Properties p and rare disjoint.”;
规则5:对于属性定义域定义的公理,设定属性r的定义域为C,则翻译为“Thedomain ofproperty r is C.”;
规则6:对于属性值域定义的公理,设定属性r的值域为C,则翻译为“The rangeofproperty ris C.”;
规则7:对于形如C(a)的实例类型断言,则翻译为“a is a C.”;
规则8:对于形如ObjectPropertyAssertion(p ab)与DataPropertyAssertion(ra v)的属性断言,分别翻译为“ap b.”与“arv.”。
进一步的,所述获取给定数量的不可满足概念,计算其R-MIPS,包括:
调用标准的本体推理机Pellet对K′∪K
如果确实获得到k个不可满足概念,则计算这些不可满足概念的本地R-MIPS;否则,获得当前剩余的不足k个的不可满足概念,再计算其本地R-MIPS,其中,k为步长;
所述本地R-MIPS的定义是:假设有一个可靠的本体K
进一步的,所述计算这些不可满足概念的本地R-MIPS时,先计算这些不可满足概念的所有R-MUPS,然后从中挑选出R-MIPS;
所述R-MUPS的定义为:假设有一个可靠的本体K
进一步的,所述计算这些不可满足概念的所有R-MUPS是指计算每个不可满足概念的所有R-MUPS的并集,而一个不可满足概念所有R-MUPS的计算采用基于碰集树的黑盒方法;
单个R-MUPS的计算先不停地从K中挑选公理添加到初始化为空集的集合S中,直到当前的S与K
基于碰集树的黑盒方法是指将一个R-MUPS作为一棵树的根节点,该R-MUPS中每条公理作为边,对每条边进行遍历,如果从K中删除该边上的公理后,C仍然在K∪K
进一步的,所述给R-MIPS中每条公理进行打分,然后根据不同的打分函数采用对应的子集抽取策略从每个R-MIPS中抽取子集,包括:
设计四种不同的打分函数,所述四种打分函数中包括基于R-MIPS并集的打分函数、基于R-MIPS的打分函数、基于待修正本体的打分函数与基于可靠本体的打分函数,这些函数的定义都基于一个公理集合与一条公理之间的相似度的计算,其中,如果选择基于可靠本体的打分函数,那么从每个R-MIPS中抽取分数最低的那些公理构成子集;如果选择另外三种打分函数,那么抽取分数最高的公理为子集;
假设有一个可靠的本体K
其中,S′={b∈S|sim(v
进一步的,假设
基于R-MIPS的打分函数的定义为a与R-MIPS的平均相似度,具体定义如下:
基于待修正本体的打分函数的定义为a与K中公理的平均相似度,具体定义如下:
基于可靠本体的打分函数的定义为a与K
进一步的,所述基于R-MIPS中抽取的子集,计算得到最优修正方案,使得从K中移除该方案的所有公理后K∪K
从R-MIPS中挑选出来的子集中的每个公理赋予一个二值变量;
基于这些二值变量构建一个目标函数;
基于构建的目标函数,根据每个子集构建一个约束;
通过求解器计算出一个满足所有约束的方案;
将该方案对应到一个公理集合,得到一个针对当前挑选出的子集计算出来的一个相对于给定子集的最优修正方案;
其中,所述修正过程的停止条件是当从K中移除所有找到的修正方案中包含的公理后K∪K
进一步的,所述去除所述最优修正方案中的冗余公理,得到去过冗余的最终解决方案,包括:
从原始的K中去除全局修正方案D中一个公理,如果该公理删除不影响K∪K
从原始K中去除下一个D中的公理,重复此过程直到D中所有公理被检查一遍,最终得到的D便是去过冗余的最终解决方案。
第二方面,本发明提供一种基于预训练语言模型的本体修正系统,包括:
准备模块,用于将输入的可靠本体K
R-MIPS计算模块,用于获取给定数量的不可满足概念,计算其R-MIPS;
打分模块,用于给R-MIPS中每条公理进行打分,然后根据不同的打分函数采用对应的子集抽取策略从每个R-MIPS中抽取子集;
修正方案计算模块,用于基于R-MIPS中抽取的子集,计算得到最优修正方案,使得从K中移除该方案的所有公理后K∪K
去冗余模块,用于去除所述最优修正方案中的冗余公理,得到去过冗余的最终解决方案。
与现有技术相比,本发明所达到的有益效果:
本发明提供一种基于预训练语言模型的本体修正方法与系统,一方面采用基于预训练模型的打分函数,使得公理分数的计算考虑到了现有技术往往忽略的公理自身的语义信息;另一方面,本发明提出了一个基于给定步长的本体修正算法,由于避开了传统的非常耗内存与时间的基于所有R-MIPS的计算,效率可得到大大的提升,同时也可回避逐个修正不可满足概念带来的信息移除过多的问题;另外,本发明提供了一个更一般的本体修正框架,当k的值大于K∪K
附图说明
图1是本发明方法提供的基于预训练模型的本体修正方法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本实施例介绍一种基于预训练语言模型的本体修正方法,包括:
将输入的可靠本体K
获取给定数量的不可满足概念,计算其R-MIPS;
给R-MIPS中每条公理进行打分,然后根据不同的打分函数采用对应的子集抽取策略从每个R-MIPS中抽取子集;
基于R-MIPS中抽取的子集,计算得到最优修正方案,使得从K中移除该方案的所有公理后K∪K
如图1所示,本实施例提供的基于预训练语言模型的本体修正方法,其应用过程具体涉及如下步骤:
步骤1:将本体公理翻译成自然语言句子,然后基于预训练的模型为每个公理计算向量。
本实施例中步骤1具体包括如下步骤:
步骤1.1:给出一个可靠本体K
步骤1.2:使用概念转换规则与公理转换规则将公理转化为自然语言描述的短语或句子。
所述概念转换规则主要包括:
规则1:对于概念的交,假设A
规则2:对于概念的并,假设A
规则3:对于形如ObjectSomeValuesFrom(r C)的存在量词限制,翻译为“r atleast one C”;
规则4:对于形如DataSomeValuesFrom(r d)的存在量词限制,翻译为“has some rthat is d”;
规则5:对于形如ObjectAllValuesFrom(p A)或DataSomeValuesFrom(p d)的全称量词约束,分别翻译为“p only from A”或“p only from d”;
规则6:对于形如ObjectExactCardinality(n op A)、ObjectMinCardinality(nop A)与ObjectMaxCardinality(n op A)的数量约束,分别翻译为“p exactly n A”、“p atleast n A”与“p at most nA”。。
所述公理转换规则主要包括:
规则1:对于形如SubClassOf(A B)的包含公理,如果B是一个原子概念,则转换为“A is a subclass ofB.”;否则转换为“Every A B”;
规则2:对于两个概念的不交公理,则翻译为“Classes A and B are disjoint.”;
规则3:对于属性之间的包含关系,假设p包含于r,则翻译为“p is a subpropertyofr”;
规则4:对于属性的不交公理,假设p与r不相交,则翻译为“Properties p and rare disjoint.”;
规则5:对于属性定义域定义的公理,假设属性r的定义域为C,则翻译为“Thedomain ofproperty r is C.”;
规则6:对于属性值域定义的公理,假设属性r的值域为C,则翻译为“The rangeofproperty ris C.”;
规则7:对于形如C(a)的实例类型断言,则翻译为“a is a C.”;
规则8:对于形如ObjectPropertyAssertion(p ab)与DataPropertyAssertion(ra v)的属性断言,分别翻译为“ap b.”与“arv.”。
步骤1.3:应用预训练模型将句子转换为向量,这里的预训练模型可采用著名的双向编码器表示BERT模型,这里的向量是七百多维的稠密向量。
步骤二:获取给定数量的不可满足概念,计算其R-MIPS。
所述步骤二获取给定数量的不可满足概念,即调用标准的本体推理机Pellet对K′∪K
所述本地R-MIPS的定义是:假设有一个可靠的本体K
更进一步的,所述一些概念的本地R-MIPS的计算,一般需要先计算这些概念的所有R-MUPS,然后从中挑选出R-MIPS,即这里的一个R-MIPS是某个R-MUPS,但它不是任意其他R-MUPS的真子集。
所述R-MUPS的定义为:假设有一个可靠的本体K
更进一步的,所述一些不可满足概念的所有R-MUPS的计算是指每个不可满足概念的所有R-MUPS的并集,而一个不可满足概念所有R-MUPS的计算可采用基于碰集树的黑盒方法。其中,单个R-MUPS的计算先不停地从K中挑选公理添加到初始化为空集的集合S中,直到当前的S与K
例如,假设有一个可靠本体O
O
φ0:硕士生
φ1:本科生
φ2:评委
φ3:评委
φ4:学生评委
φ5:学生评委
φ6:有同学
则O
步骤三:为R-MIPS中公理进行打分。
所述步骤三中设计了四种不同的打分函数,用户可以根据需求选择四种打分函数中的一种来为R-MIPS中公理打分,如果选择基于可靠本体的打分函数,那么从每个R-MIPS中抽取分数最低的那些公理构成子集;如果选择另外三种打分函数,那么抽取分数最高的公理为子集。假设有n个R-MIPS,则最终获得n个子集。
更进一步的,所述四种打分函数中包括基于R-MIPS并集的打分函数、基于R-MIPS的打分函数、基于待修正本体的打分函数与基于可靠本体的打分函数,这些函数的定义都基于一个公理集合与一条公理之间的相似度的计算。假设有一个可靠的本体K
其中,S′={b∈S|sim(v
更进一步的,假设
基于R-MIPS的打分函数的定义为a与R-MIPS的平均相似度,具体定义如下:
基于待修正本体的打分函数的定义为a与K中公理的平均相似度,具体定义如下:
基于可靠本体的打分函数的定义为a与K
例如,对于步骤二的例子中得到的R-MIPS可以使用基于可靠本体的打分函数score
同理可得,sim
由于φ5的分数小于φ4的分数,所以从R-MIPS{φ4,φ5}中抽取出的子集为{φ5}。
步骤四:基于R-MIPS中抽取的子集计算修正方案。
所述步骤四中基于R-MIPS中抽取出的子集计算修正方案,可应用整数线性规划求解器来计算。首先为从R-MIPS中挑选出来的子集中的每个公理赋予一个二值变量,然后基于这些二值变量构建一个目标函数,再根据每个子集构造一个约束,最终通过求解器计算出一个满足所有约束的最优方案,再将该方案对应到一个公理集合,便得到一个针对当前挑选出的子集计算出来的一个相对于给定子集的最优修正方案。
所述修正过程的停止条件是当从K中移除所有找到的修正方案中包含的公理后K∪K
实施例2
在实施例1的基础上,本实施例中,可选地还包括去除解决方案中的冗余公理,以应对每个循环中所求解决方案的局部性问题,同时满足用户期望的最小变化性质。
进一步的,所述全局修正方案中冗余公理的去除,采用逐个公理进行检查。具体来讲,先从原始的K中去除全局修正方案D中一个公理,如果该公理删除不影响K∪K
实施例3
本实施例提供一种不协调本体修正的装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据下述任一项所述方法的步骤:
将本体公理翻译成自然语言句子,基于预训练的模型为每个公理计算向量;
从待修正本体中获取k个不可满足概念,计算其R-MIPS;
选择打分函数为R-MIPS中每个公理打分,并抽取子集;
计算子集的局部诊断,更新全局诊断;
去除全局诊断中的冗余公理,得到最小诊断。
实施例4
本实施例提供计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现下述任一项所述方法的步骤:
将本体公理翻译成自然语言句子,基于预训练的模型为每个公理计算向量;
从待修正本体中获取k个不可满足概念,计算其R-MIPS;
选择打分函数为R-MIPS中每个公理打分,并抽取子集;
计算子集的局部诊断,更新全局诊断;
去除全局诊断中的冗余公理,得到最小诊断。
实施例5
与实施例1提供的一种本体修正方法相对应地,本发明实施例还提供了一种本体修正系统,其特征在于,包括:准备模块、R-MIPS计算模块、打分模块、修正方案计算模块和去冗余模块;
所述准备模块,用于将输入的可靠本体与待修正本体中的公理转成自然语言的句子,然后再用预训练模型将句子转成稠密的向量;
所述R-MIPS计算模块,用于针对给定不可满足概念计算本地R-MIPS,所述本体R-MIPS的计算包括给定的每个不可满足概念的所有R-MUPS的计算;
所述打分模块,用于给R-MIPS中每条公理进行打分,然后根据不同的打分函数采用对应的子集抽取策略从每个R-MIPS中抽取子集;
所述修正方案计算模块,用于从R-MIPS子集中各抽取出至少一条公理组成一个修正方案,使得从K中移除该方案的所有公理后K∪K
所述去冗余模块,用于对最后得到的全局解决方案删除多余的公理,使得所得方案是一个最小的修正方案,满足人们期望的最小变化原则。
进一步地,所述本体修正系统还包括:打分函数设计模块与冗余公理移除模块,所述打分函数包括基于R-MIPS并集的打分函数、基于R-MIPS的打分函数、基于待修正本体的打分函数与基于可靠本体的打分函数,这些函数的定义都基于一个公理集合与一条公理之间的相似度的计算。假设有一个可靠的本体K
其中,S′={b∈S|sim(v
更进一步的,基于R-MIPS并集的打分函数的定义为a与R-MIPS并集中公理的平均相似度,即:
基于R-MIPS的打分函数的定义为a与R-MIPS的平均相似度,具体定义如下:
基于待修正本体的打分函数的定义为a与K中公理的平均相似度,具体定义如下:
基于可靠本体的打分函数的定义为a与K
所述全局修正方案中冗余公理的去除,采用逐个公理进行检查。具体来讲,先从原始的K中去除全局修正方案D中一个公理,如果该公理删除不影响K∪K
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用于说明本公开的技术方案而非对其保护范围的限制,尽管参照上述实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本公开后依然可对发明的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在公开待批的权利要求保护范围之内。