人机融合的常识图谱构建方法和系统
文献发布时间:2024-04-18 19:58:21
技术领域
本发明涉及常识信息抽取和图谱构建技术领域,具体地,涉及一种人机融合的常识图谱构建方法和系统。
背景技术
常识信息是指对事物普遍存在的共识,基于常识的人工智能能够将人类的知识与推理能力融入机器智能中,近年来已成为人工智能与计算科学领域的研究热点。然而,常识具有以下几方面显著特征:
抽象性。常识往往以一种抽象的形式进行表达,人们对于自己所具有的常识往往不自知,因而常识也较少的出现在人类所创造的各种文献中,容易被忽视。
多义性。常识往往具有多义性,对于处于不同领域、不同地区的人而言,其所具有的常识往往是不一致的。因而在常识的抽取中需要注重对其进行有效区分。
演进性。人们的常识随着时代的演变往往会发生一些变化。因此,用于指导实现智能处理程序的常识也需要在分析过程中,动态地更新演进。
关联性。常识之间往往具有紧密的联系,某些常识可以依赖于其它常识,这也导致对于常识的分析表示需要能够厘清其关联性
因而,常识获取与应用是一个极富挑战的任务。同时,常识信息内容庞杂而且日新月异,与相关的常识库不能得到有效更新;对常识信息进行整理和归纳需要耗费大量专业人士的时间和精力,目前无法承受如此大的代价。为此,本发明提出一种基于人机融合的常识图谱构造方法与系统,能够对文本数据进行学习并生成常识图谱。
许多发达国家和著名研究机构相继推出了各具特色的常识研究计划。目前,常识图谱构建的相关研究已经成为了国内外研究的热点。但现有成果的方法效果不佳且效率不高,所涉及的方法也无法做到人工和计算机的有机融合。Yaojie Lu等人提出了提出了一种对文本信息的联合抽取框架(Yaojie Lu,Qing Liu,Dai Dai et al.“Unified StructureGeneration for Universal Information Extraction”,in ACL 2022),能够针对不同的信息抽取任务进行统一建模,对于不同领域的信息也有很好的协作学习能力和泛化适应能力。但是该方法训练时需要大量的数据标注,人工成本较高;且该方法的模型庞大,在训练和预测时的时间和硬件成本都较高。学者Alon Talmor等(CommonsenseQA:A QuestionAnswering Challenge Targeting Commonsense Knowledge,Proceedings of NAACL-HLT2019,pages 4149-4158)(CommonsenseQA 2.0:Exposing the Limits of AI throughGamification,neural information processing systems 2021)提出的数据集构建方法CommonsenseQA和CommonsenseQA 2.0都是众包方式,基于ConceptNet构建了具有复杂语义信息的问题对,但是所构造的数据只局限于问题对。
专利文献CN113553440A(申请号:CN202110709798.7)公开了一种基于层次推理的医学实体关系抽取方法,通过基于层次推理的实体关系抽取模型来提取相关实体关系三元组。具体来说,首先,利用远程监督将已有知识库与相关文献进行对齐,构建了COVID-19实体关系抽取数据集;然后,基于门控卷积和膨胀卷积,构建了从不同维度来提取内容信息的特征提取器;最终,基于层次推理机制,利用不同粒度的文档信息来对文本进行实体关系抽取,提升了文档级实体关系抽取模型的准确率。但是该发明所需要的标注成本非常高。
综上所述,现有方法存在以下不足:一是缺少对人工和计算机资源有效利用的方法,其中,现有人工方法需要耗费大量的人力资源,成本过大,无法形成大规模的图谱;现有机器方法所构建的图谱质量较低,无法对常识信息进行合理的抽取和整理;目前还没有人机融合的方式能够高效率且高质量的完成图谱构建。二是目前尚没有针对常识图谱信息进行扩充和质量保证的众包方法,无法实现对众包常识信息的高效率收集。三是现有的常识抽取方法需要大量人工标注的数据及硬件资源,无法实现在保证质量的同时降低成本。因此,现有方法无法实现对文本常识信息的有效抽取以及后续常识图谱的构建功能。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种人机融合的常识图谱构建方法和系统。
根据本发明提供的人机融合的常识图谱构建方法,包括:
步骤S1:通过爬虫技术采集相关新闻数据和百科数据,并且与现有的开源图谱数据进行整合;
步骤S2:基于人机融合,对采集的新闻文本进行实体、关系和规则标注,利用标注数据进行关系抽取网络和规则匹配网络的联合训练;
步骤S3:基于标注好的数据,对数据进行实体和关系的抽取,并构建初级常识图谱;
步骤S4:使用众包方式对初级常识图谱进行微调和修改,得到高质量常识图谱;
步骤S5:对高质量常识图谱进行维护与演进。
优选的,所述步骤S1包括:
步骤S1.1:通过爬虫技术获取相关新闻数据;
步骤S1.2:将获取的新闻数据进行句子切分;
步骤S1.3:通过爬虫技术获取维基百科和百度百科中相关词条名称;
步骤S1.4:根据预设规则,对获取的词条名称进行筛选,并将筛选后的结果作为实体字典;
所述步骤S2包括:
步骤S2.1:根据实体字典,对切分好的每个新闻句子进行实体标注;
步骤S2.2:基于预设规则,对每个新闻句子中的实体关系进行标注;
步骤S2.3:基于标注好的数据对关系抽取网络和规则匹配网络进行联合训练。
优选的,所述步骤S2.3包括:
步骤S2.3.1:基于所有的规则
步骤S2.3.2:对于匹配失败的句子集合
步骤S2.3.3:将
给句子加入token标记信息,每一个句子s都包含两个实体e
步骤S2.3.4:基于加入标记信息后的训练数据集,进行关系抽取网络RelationExtractor和规则匹配网络Ruel Matcher的联合训练;
对于每个句子输入至预训练过的Bert,得到隐藏层状态H,其中H
步骤S2.3.5:将H′
步骤S2.3.6:将预测结果与真实的关系标记做交叉熵损失,进而训练神经网络,将最终得到的神经网络命名为Relation Extractor,用来提取文本种实体之间的关系,根据数据集的不同,得到与关系提取网络参数θ
步骤S2.3.7:对于规则p,把规则集合
步骤S2.3.8:综合以上四个损失,进行Relation Extractor和Ruel Matcher两个网络的联合训练,具体损失函数如下:
L(θ
其中,α,β和γ是平衡不同损失的超参数,L
优选的,所述步骤S3包括:
步骤S3.1:对于新闻句子中的实体,利用关系抽取网络抽取实体之间的关系;
步骤S3.2:统计实体字典中每一个实体对之间的关系数量,涉及关系数目阈值进行筛选;
步骤S3.3:将实体关系三元组导入Neo4J图数据库中,得到初级常识图谱;
所述步骤S4包括:
步骤S4.1:邀请相关的专家、学者对常识实体字典和图谱进行修改;
步骤S4.2:对修改结果进行验证;
步骤S4.3:根据上述结果修改常识实体字典和图谱。
优选的,所述步骤S5包括:
步骤S5.1:采用逻辑斯蒂分类网络,每个待检测三元组返回一个[0,1]的错误置信度,进而设定阈值,将高于阈值的三元组视为错误检查的过时三元组结果;
步骤S5.2:预设逻辑替换规则,在二分类模型中确定正例/负例,利用互斥关系表示常见的负例逻辑,将互斥关系外的其他关系作为相容关系,用以表示正例逻辑,从而进行常识三元组替换;
步骤S5.3:预先训练好翻译模型和负采样评估模型后,针对缺失尾实体或头尾实体的缺失三元组进行常识信息关系补全,具体为:在当前图谱的实体池中依次遍历从而补全缺失三元组,将所有的候选三元组利用负采样评估模型得到预测为正例置信度最高的top-k个作为候选补全三元组,利用翻译模型将评分最高的三元组作为补全三元组来支持知识图谱补全任务;
步骤S5.4:基于众包进行常识关系持续更新。
根据本发明提供的人机融合的常识图谱构建系统,包括:
模块M1:通过爬虫技术采集相关新闻数据和百科数据,并且与现有的开源图谱数据进行整合;
模块M2:基于人机融合,对采集的新闻文本进行实体、关系和规则标注,利用标注数据进行关系抽取网络和规则匹配网络的联合训练;
模块M3:基于标注好的数据,对数据进行实体和关系的抽取,并构建初级常识图谱;
模块M4:使用众包方式对初级常识图谱进行微调和修改,得到高质量常识图谱;
模块M5:对高质量常识图谱进行维护与演进。
优选的,所述模块M1包括:
模块M1.1:通过爬虫技术获取相关新闻数据;
模块M1.2:将获取的新闻数据进行句子切分;
模块M1.3:通过爬虫技术获取维基百科和百度百科中相关词条名称;
模块M1.4:根据预设规则,对获取的词条名称进行筛选,并将筛选后的结果作为实体字典;
所述模块M2包括:
模块M2.1:根据实体字典,对切分好的每个新闻句子进行实体标注;
模块M2.2:基于预设规则,对每个新闻句子中的实体关系进行标注;
模块M2.3:基于标注好的数据对关系抽取网络和规则匹配网络进行联合训练。
优选的,所述模块M2.3包括:
模块M2.3.1:基于所有的规则
模块M2.3.2:对于匹配失败的句子集合
模块M2.3.3:将
给句子加入token标记信息,每一个句子s都包含两个实体e1和e2,为了让神经网络能够捕获两个实体的位置信息,需要在两个实体的头尾插入token符号,对于第一个实体e
模块M2.3.4:基于加入标记信息后的训练数据集,进行关系抽取网络RelationExtractor和规则匹配网络Ruel Matcher的联合训练;
对于每个句子输入至预训练过的Bert,得到隐藏层状态H,其中H
模块M2.3.5:将H′
模块M2.3.6:将预测结果与真实的关系标记做交叉熵损失,进而训练神经网络,将最终得到的神经网络命名为Relation Extractor,用来提取文本种实体之间的关系,根据数据集的不同,得到与关系提取网络参数θ
模块M2.3.7:对于规则p,把规则集合
模块M2.3.8:综合以上四个损失,进行Relation Extractor和Ruel Matcher两个网络的联合训练,具体损失函数如下:
L(θ
其中,α,β和γ是平衡不同损失的超参数,L
优选的,所述模块M3包括:
模块M3.1:对于新闻句子中的实体,利用关系抽取网络抽取实体之间的关系;
模块M3.2:统计实体字典中每一个实体对之间的关系数量,涉及关系数目阈值进行筛选;
模块M3.3:将实体关系三元组导入Neo4J图数据库中,得到初级常识图谱;
所述模块M4包括:
模块M4.1:邀请相关的专家、学者对常识实体字典和图谱进行修改;
模块M4.2:对修改结果进行验证;
模块M4.3:根据上述结果修改常识实体字典和图谱。
优选的,所述模块M5包括:
模块M5.1:采用逻辑斯蒂分类网络,每个待检测三元组返回一个[0,1]的错误置信度,进而设定阈值,将高于阈值的三元组视为错误检查的过时三元组结果;
模块M5.2:预设逻辑替换规则,在二分类模型中确定正例/负例,利用互斥关系表示常见的负例逻辑,将互斥关系外的其他关系作为相容关系,用以表示正例逻辑,从而进行常识三元组替换;
模块M5.3:预先训练好翻译模型和负采样评估模型后,针对缺失尾实体或头尾实体的缺失三元组进行常识信息关系补全,具体为:在当前图谱的实体池中依次遍历从而补全缺失三元组,将所有的候选三元组利用负采样评估模型得到预测为正例置信度最高的top-k个作为候选补全三元组,利用翻译模型将评分最高的三元组作为补全三元组来支持知识图谱补全任务;
模块M5.4:基于众包进行常识关系持续更新。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明将人机融合应用于常识抽取和图谱构建中,基于人机协同的方式抽取常识信息,充分利用了人类对抽象知识规则的认知能力以及计算机的快速计算能力,提升了常识抽取的效率和常识图谱的质量;
(2)本发明基于众包的常识图谱微调和修改,节约了常识图谱构建成本,提升了常识图谱质量。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的整体流程框架图;
图2为本发明中的关系抽取模型结构图;
图3为本发明中众包方法的主题流程图;
图4为本发明中常识图谱维护流程图;
图5为基于众包的常识关系持续更新流程图;
图6为本发明中构建常识图谱的系统结构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
如图1,根据本发明提供的一种基于人机融合的常识图谱构建方法,应用于新冠领域,目标是构建新冠相关的常识图谱,包括:步骤S1:通过爬虫采集相关新闻数据和百科数据,并且与现有的开源图谱数据进行整合;步骤S2:基于人机融合,对采集的新闻文本进行实体、关系和规则的标注,利用标注数据进行关系抽取网络(Relation Extractor)和规则匹配网络(Ruel Matcher)的联合训练;步骤S3:基于标注好的数据,对数据进行实体和关系的抽取,并构建初级常识图谱;步骤S4:使用众包方式对初级常识图谱进行微调和修改,提升常识质量,得到最终的常识图谱;步骤S5:常识图谱维护与演进。
所述步骤S1采用:步骤S1.1:通过爬虫获取相关的数据,具体来源包括卫健委,联合国新闻,好大夫,丁香医生等;步骤S1.2:将数据进行句子切分;步骤S1.3:通过爬虫获取新冠相关的维基百科和百度百科中相关的词条名称;步骤S1.4:对词条名称进行筛选,并将筛选后的结果作为实体字典。
所述步骤S2采用:步骤S2.1:根据实体字典,对切分好的每个新闻句子中进行实体标注;根据实体字典,对新闻句子进行实体的匹配查询。如果句子中恰好出现了实体集中两个不一样的实体,则将这两个实体进行标注;否则,这个句子就被舍弃。这种标注方式能够高效的剔除掉无关信息,并且可以自动化实现标注,减少了人力标注的成本。最后形成的数据集为
步骤S2.2:对每个句子中实体之间的关系进行规则标注。针对切分并筛选后的每个句子进行人工筛选和标注,人工需要对 步骤S2.3:基于标注好的数据对关系抽取网络(Relation Extractor)和规则匹配网络(Ruel Matcher)进行联合训练,包括:步骤S2.3.1:基于所有的规则 z z 其中,n为句子向量x中词向量的个数;W、v和D都是可学习的参数。 基于Ruel Matcher得到的相似度矩阵,从中选取相似度最大的规则作为每个句子s 步骤S2.3.3:将 步骤S2.3.4:基于加入标记信息后的训练数据集,进行关系抽取网络(RelationExtractor)和规则匹配网络(Ruel Matcher)的联合训练,如图2。对于每个句子输入至预训练过的Bert,得到了隐藏层状态H,其中H H′ 步骤S2.3.5:将H′ p=softmax(W 步骤S2.3.6:将预测结果与真实的关系标记做交叉熵损失,进而训练神经网络。将最终得到的神经网络命名为Relation Extractor,该网络可以用来提取文本种实体之间的关系。根据数据集的不同,我们能得到三种与关系提取网络参数θ 步骤S2.3.7:对于规则p,可以把规则集合 dist dist 其中,τ是一个设置为上限的超参数。 步骤S2.3.8:综合以上四个损失,进行Relation Extractor和Ruel Matcher两个网络的联合训练,具体损失函数如下: L(θ 其中α,β和γ是平衡不同损失的超参数。 所述步骤S3采用:步骤S3.1:对于句子中的实体,利用关系抽取网络(RelationExtractor)抽取实体之间的关系;步骤S3.2:统计实体字典中每一个实体对之间的关系数量,涉及关系数目阈值进行筛选;步骤S3.3:将实体关系三元组导入Neo4J图数据库中,得到新冠常识图谱。 所述步骤S4采用:步骤S4.1:邀请与新冠相关的专家学者等具有相关知识储备的人员;步骤S4.2:请相关的专家学者人工对常识实体字典和图谱进行修改;每次回答者可以选择五种格式的问题,第1种是从现有的常识字典中随机选择一个常识实体,需要判断该实体是否应该在常识字典中;第2种是从现有的常识图谱中随机选择一个关系三元组,需要判断当前三元组的关系是否正确;第3种是从现有的常识字典中随机选择一个常识对,需要给出该常识对的关系;第4种是从现有的常识字典中随机选择一个常识实体,需要另外给出一个与该实体相关的另一个在字典中的实体以及它们之间的关系;第5种是从现有的常识字典中随机选择一个常识实体,需要另外给出一个与该实体相关的但不在字典中的实体以及它们之间的关系。步骤S4.3:对修改结果进行验证;每次验证者可以选择步骤S4.2中对应的5种格式的问题及回答,每一个问题会被验证至少两次,1~5种问题分别对应1~5分。如果两次验证结果一致且都判断该问题回答正确,则回答者和两位验证者都能到对应的分数;如果两次验证结果一致且都判断该问题回答错误,则回答者不得分而两位验证者都能得到对应的分数;如果两次验证结果不一致则交给第三位验证者,如果第三位验证者判断该回答错误,则判断为错误的两位验证者得分,判断为正确的验证者和回答者扣分;如果第三位验证者判断该回答正确,则判断正确的两位验证者和回答者得分,判断为错误的验证者扣分。最终回答者和验证者都可以根据自己累积的积分进行奖励的兑换。步骤S4.4:根据上述结果修改常识实体字典和图谱。 如图4,所述步骤S5采用: 步骤S5.1:常识三元组错误检查;采用逻辑斯蒂分类网络,每个待检测三元组返回一个[0,1]的错误置信度,进而设定阈值,将高于阈值的三元组视为错误检查的过时三元组结果; 步骤S5.2:常识三元组替换;对于三元组t= 步骤S5.2.1:对于 步骤S5.2.2:对于 步骤S5.3:常识信息关系补全,包括:步骤S5.3.1:常识图谱的构建过程中,其常识信息具有稀疏性,很多隐藏的关系并没有被挖掘出来。例如表示“症状,治疗方法,治疗描述”的schema中,往往缺乏很多疾病实体对应的治疗方法描述信息。常识信息关系补全的目的在于将常识三元组中缺失的部分预测出来,从而将知识图谱更加完整。例如,对于“喉咙痛”症状,可建立其与“发烧”症状具有高度的语义相关性,从而补全“喉咙痛”这一症状的“治疗描述”为“发烧”的治疗描述。步骤S5.3.2:预先训练好翻译模型和负采样评估模型后,针对缺失尾实体或头尾实体的缺失三元组,按照图3的流程补全常识三元组,包括:步骤S5.3.2.1:在当前图谱的实体池中依次遍历从而补全缺失三元组;步骤S5.3.2.2:将所有的候选三元组利用负采样评估模型得到预测为正例置信度最高的top-k个作为候选补全三元组;步骤S5.3.2.3:利用翻译模型将评分最高的三元组作为补全三元组来支持知识图谱补全任务。 步骤S5.4:基于众包的常识关系持续更新;针对常识关系的隐蔽性、多样性和演进性,系统允许用户自定义关系类型,众包用户可通过自身判断进行错误识别和纠正,并由其余多方用户进行再次审查,当该常识数据被裁定为正确数据,可由系统增加至常识图谱中用以更新保存,如图5。 实施例2: 如图6,本发明还提供一种人机融合的常识图谱构建系统,所述人机融合的常识图谱构建系统可以通过执行所述人机融合的常识图谱构建方法的流程步骤予以实现,即本领域技术人员可以将所述人机融合的常识图谱构建方法理解为所述人机融合的常识图谱构建系统的优选实施方式,所述系统包括:模块M1:通过爬虫技术采集相关新闻数据和百科数据,并且与现有的开源图谱数据进行整合;模块M2:基于人机融合,对采集的新闻文本进行实体、关系和规则标注,利用标注数据进行关系抽取网络和规则匹配网络的联合训练;模块M3:基于标注好的数据,对数据进行实体和关系的抽取,并构建初级常识图谱;模块M4:使用众包方式对初级常识图谱进行微调和修改,得到高质量常识图谱;模块M5:对高质量常识图谱进行维护与演进。 所述模块M1包括:模块M1.1:通过爬虫技术获取相关新闻数据;模块M1.2:将获取的新闻数据进行句子切分;模块M1.3:通过爬虫技术获取维基百科和百度百科中相关词条名称;模块M1.4:根据预设规则,对获取的词条名称进行筛选,并将筛选后的结果作为实体字典; 所述模块M2包括:模块M2.1:根据实体字典,对切分好的每个新闻句子进行实体标注;模块M2.2:基于预设规则,对每个新闻句子中的实体关系进行标注;模块M2.3:基于标注好的数据对关系抽取网络和规则匹配网络进行联合训练。 所述模块M3包括:模块M3.1:对于新闻句子中的实体,利用关系抽取网络抽取实体之间的关系;模块M3.2:统计实体字典中每一个实体对之间的关系数量,涉及关系数目阈值进行筛选;模块M3.3:将实体关系三元组导入Neo4J图数据库中,得到初级常识图谱。 所述模块M4包括:模块M4.1:邀请相关的专家、学者对常识实体字典和图谱进行修改;模块M4.2:对修改结果进行验证;模块M4.3:根据上述结果修改常识实体字典和图谱。 所述模块M5包括:模块M5.1:采用逻辑斯蒂分类网络,每个待检测三元组返回一个[0,1]的错误置信度,进而设定阈值,将高于阈值的三元组视为错误检查的过时三元组结果;模块M5.2:预设逻辑替换规则,在二分类模型中确定正例/负例,利用互斥关系表示常见的负例逻辑,将互斥关系外的其他关系作为相容关系,用以表示正例逻辑,从而进行常识三元组替换;模块M5.3:预先训练好翻译模型和负采样评估模型后,针对缺失尾实体或头尾实体的缺失三元组进行常识信息关系补全,具体为:在当前图谱的实体池中依次遍历从而补全缺失三元组,将所有的候选三元组利用负采样评估模型得到预测为正例置信度最高的top-k个作为候选补全三元组,利用翻译模型将评分最高的三元组作为补全三元组来支持知识图谱补全任务;模块M5.4:基于众包进行常识关系持续更新。 本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。 以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。,判断t是否被t
- 融合常识性和经验性蒙医知识的知识图谱构建方法及系统
- 一种人机友好的数据逻辑融合电力知识图谱及其构建方法