掌桥专利:专业的专利平台
掌桥专利
首页

一种基于知识推理的实体关系抽取方法及系统

文献发布时间:2023-06-19 12:22:51


一种基于知识推理的实体关系抽取方法及系统

技术领域

本发明涉及电力系统技术领域,尤其涉及一种基于知识推理的实体关系抽取方法及系统。

背景技术

随着电力信息化建设的越来越完善,业务逻辑越来越复杂,电力设备管理的各业务部门已经建立相应的信息管理系统,并积累了大量的数据信息,挖掘电力检修领域的文档的知识,成为电力检修信息化建设的不可或缺的步骤。由于电力设备使用具有一定周期性,各种环境、温度、操作导致设备出现故障的概率也不同,通过挖掘现有的异常分析报告,可以清晰的了解出设备缺陷异常变化情况,帮助维护人员更好的制定检修计划,把被动检修转化为主动检修。

目前,在电力检修领域中,实体关系挖掘主要包括模式匹配方法和基于深度学习方法,第一种方法依赖句法抽取结果,对句式要求高,导致结果错误传播,直接影响抽取的准确率;第二种方法通常采用Pipelined方式,用序列标注方式抽取头实体和尾实体,然后对实体进行分类,这种方法虽然可以能够灵活抽取出实体,但是导致分类部分负样本太多,影响最终抽取结果。

公开于该背景技术部分的信息仅仅旨在加深对本发明总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成本领域技术人员所公知的现有技术。

发明内容

本发明的目的是:提供一种基于知识推理的实体关系抽取方法及系统,能够提升电力检修领域实体和关系挖掘广度,同时提高实体关系的整体抽取准确率。

为了达到上述目的,本发明一方面提供一种基于知识推理的实体关系抽取方法,包括:

获取电力检修初始文档中的段落集合;

对所述段落集合进行预处理;

将预处理后的所述段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合;

对所述实体关系三元组集合进行标准化处理;

对标准化处理后的所述实体关系三元组集合进行段落还原,得到电力检修目标文档。

优选地,所述获取电力检修初始文档中的段落集合,包括:

基于预设规则,将电力检修初始文档中的段落与文档对齐,得到段落形式的电力检修初始文档;

获取所述段落形式的电力检修初始文档中的段落集合。

优选地,所述对所述段落集合进行预处理,包括:

对所述段落集合进行语法分析,修正语法错误的句子;

基于预设长度和标点符号,对语法分析后的所述段落集合进行分句,得到句子集合。

优选地,所述预设实体关系抽取模型采用基于预训练语言模型的联合建模方式直接抽取预处理后的所述段落集合中的实体-关系-实体以及实体-关系-属性,得到实体关系三元组集合;

其中,所述预设实体关系抽取模型包括编码层、实体关系抽取层、多头选择层、尾实体抽取层和三元组结果输出层。

优选地,所述标准化处理包括以下至少一种方式:

过滤停用词;

对关系进行规约;

实体长度过滤和属性长度过滤;

实体对齐和属性对齐。

本发明另一方面提供一种基于知识推理的实体关系抽取系统,包括:

段落集合获取模块,用于获取电力检修初始文档中的段落集合;

预处理模块,用于对所述段落集合进行预处理;

实体关系抽取模块,用于将预处理后的所述段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合;

标准化处理模块,用于对所述实体关系三元组集合进行标准化处理;

段落还原模块,用于对标准化处理后的所述实体关系三元组集合进行段落还原,得到电力检修目标文档。

优选地,所述段落集合获取模块包括:

段落对齐单元,用于基于预设规则,将电力检修初始文档中的段落与文档对齐,得到段落形式的电力检修初始文档;

段落集合获取单元,用于获取所述段落形式的电力检修初始文档中的段落集合。

优选地,所述预处理模块包括:

语法修正单元,用于对所述段落集合进行语法分析,修正语法错误的句子;

分句单元,用于基于预设长度和标点符号,对语法分析后的所述段落集合进行分句,得到句子集合。

优选地,所述预设实体关系抽取模型采用基于预训练语言模型的联合建模方式直接抽取预处理后的所述段落集合中的实体-关系-实体以及实体-关系-属性,得到实体关系三元组集合;

其中,所述预设实体关系抽取模型包括编码层、实体关系抽取层、多头选择层、尾实体抽取层和三元组结果输出层。

优选地,所述标准化处理包括以下至少一种方式:

过滤停用词;

对关系进行规约;

实体长度过滤和属性长度过滤;

实体对齐和属性对齐。

本发明至少具有以下有益效果:

本发明通过获取电力检修初始文档中的段落集合,并对段落集合进行预处理,然后将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合,并对实体关系三元组集合进行标准化处理,再将标准化处理后的实体关系三元组集合进行段落还原,最终得到电力检修目标文档,由于在抽取实体关系时无需预先定义关系类型,因此可以有效提取包含在其中的实体之间的新关系事实,且覆盖范围更广,与现有技术相比,能够提升电力检修领域实体和关系挖掘广度,同时提高实体关系的整体抽取准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于知识推理的实体关系抽取方法的流程示意图;

图2为本发明实施例中实体关系抽取模型的结构示意图;

图3为本发明实施例中基于知识推理的实体关系抽取系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1,本发明实施例一方面提供一种基于知识推理的实体关系抽取方法,包括:

S110、获取电力检修初始文档中的段落集合。

本发明实施例中,预先收集电力检修领域的电力检修初始文档,并对电力检修初始文档进行拆解,从而获取电力检修初始文档中所有的段落集合。

S120、对段落集合进行预处理。

本发明实施例中,获取电力检修初始文档中所有的段落集合后,对段落集合进行预处理,保证下一步实体关系抽取的准确性,同时提高抽取效率。

S130、将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合。

本发明实施例中,将预处理后的段落集合输入预设实体关系抽取模型进行推理,得到实体关系三元组集合,其中,实体关系三元组包括实体-关系-实体以及实体-关系-属性,可以定义为Subject-Predicate-Object。

S140、对实体关系三元组集合进行标准化处理。

本发明实施例中,通过实体关系抽取得到的实体关系三元组集合中,各个实体和关系规则不一,且包含重复内容,需要对实体关系三元组集合进行标准化处理,方便知识图谱构建。

S150、对标准化处理后的实体关系三元组集合进行段落还原,得到电力检修目标文档。

本发明实施例中,对实体关系三元组集合进行标准化处理后,将拆解后的句子进行还原,转化为原始段落形式,最终得到经过实体关系抽取后的电力检修目标文档,方便维护人员挖掘电力检修领域的文档的知识,了解出设备缺陷异常变化情况,从而更好地制定检修计划,把被动检修转化为主动检修。

以上可知,本发明实施例提供的基于知识推理的实体关系抽取方法,通过获取电力检修初始文档中的段落集合,并对段落集合进行预处理,然后将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合,并对实体关系三元组集合进行标准化处理,再将标准化处理后的实体关系三元组集合进行段落还原,最终得到电力检修目标文档,由于在抽取实体关系时无需预先定义关系类型,因此可以有效提取包含在其中的实体之间的新关系事实,且覆盖范围更广,与现有技术相比,能够提升电力检修领域实体和关系挖掘广度,同时提高实体关系的整体抽取准确率。

作为本发明优选的实施例,步骤S110具体包括:

基于预设规则,将电力检修初始文档中的段落与文档对齐,得到段落形式的电力检修初始文档;

获取段落形式的电力检修初始文档中的段落集合。

本发明实施例中,预先收集电力检修领域的电力检修初始文档后,通过规则等方式把文本段落与原始文档对齐,尽量保证文本段落与原始文档的形式相同,最终把电力检修初始文档处理成段落形式,从而方便获取段落集合。

作为本发明优选的实施例,步骤S120包括:

对段落集合进行语法分析,修正语法错误的句子;

基于预设长度和标点符号,对语法分析后的段落集合进行分句,得到句子集合。

本发明实施例中,在获取的电力检修初始文档中的段落集合中,可能存在语法错误的句子,或存在容易产生歧义的句子,如部分句子缺少主语,或句子中的部分代词存在歧义等,需要对缺少主语的句子进行补全,以及对句子中存在歧义的代词进行替换等。然后将较长的段落依据一定的预设长度和标点符号进行拆分,把段落转换成句子集合。

作为本发明优选的实施例,在步骤S130中,预设实体关系抽取模型采用基于预训练语言模型的联合建模方式直接抽取预处理后的段落集合中的实体-关系-实体以及实体-关系-属性,得到实体关系三元组集合;

其中,预设实体关系抽取模型包括编码层、实体关系抽取层、多头选择层、尾实体抽取层和三元组结果输出层。

本发明实施例中,预设实体关系抽取模型主要采用基于预训练语言模型(BERT:Bidirectional Encoder Representation from Transformers)的联合建模方式直接抽取实体-关系-实体以及实体-关系-属性,即Subject-Predicate-Object。其中,预设实体关系抽取模型包括编码层(Encoder-Layer)、实体关系抽取层(SubPre-Layer)、多头选择层(MultiHead-Layer)、尾实体抽取层(Object-Layer)和三元组结果输出层(Triple-Result)。

具体的,请参阅图2,本发明实施例中实体关系抽取模型的结构示意图。

Encoder-Layer采用BERT作为特征提取层,以便更好的获取句子的上下文信息。

SubPre-Layer抽取所有可能的Subject和Predicate。我们采用Span的方式,分别抽取Subject和Predicate的开始位置和结束位置。其中,计算公式如下:

P

P

P

P

式中,P

MultiHead-Layer根据指定的Subject和Predicate,抽取出对应的Object。其中,计算公式如下:

P

P

式中,P

Triple-Result最后依据前几个步骤,抽取句子中最终的实体关系三元组(Subject,predicate,Object)集合。

例如,对于句子“电解式温度计测量范围应是1μL/L-1000μL/L。”,抽取出的实体关系三元组为(Subject:电解式温度计,Predicate:测量范围,Object:1μL/L-1000μL/L)。

本发明实施例中,由于采用联合建模的方式,不仅可以减少不同任务之间的误差传播,而且可以大大减少模型推理时间,提高自动抽取效率。

作为本发明优选的实施例,在步骤S140中,标准化处理包括以下至少一种方式:

过滤停用词;

对关系进行规约;

实体长度过滤和属性长度过滤;

实体对齐和属性对齐。

本发明实施例中,过滤停用词是指过滤完全没有用或者没有意义的词,例如助词、语气词等,将其忽略。对关系进行规约是指将关系按照一定的规则进行合并。实体长度过滤和属性长度过滤是指对长度超过一定字符长度的实体和属性进行过滤。实体对齐和属性对齐是指采用同义词词典把部分实体和属性聚集到一起,并与原始句子对齐。

为了进一步方便理解本发明实施例提供的技术方案,下面举例说明本发明实施例提供的基于知识推理的实体关系抽取方法的实际应用。

对于段落“瓷外套表面破损面积不允许超过40mm2,均压环表面午毛刺、平整光滑、表面凸起不应小于1mm。阻容式温度计测量范围应满足0℃至-60℃,其测量误差不应超过±2.0℃,流量调节不超过1L/min。”。

经过预处理后,拆解后的句子集合为:[“瓷外套表面破损面积不允许超过40mm2,均压环表面午毛刺、平整光滑、表面凸起不应小于1mm。”,“阻容式温度计测量范围应满足0℃至-60℃,其测量误差不应超过±2.0℃,流量调节不超过1L/min。”]。

将拆解后的句子集合输入到预设实体关系抽取模型中,得到的结果为:

本发明实施例另一方面提供一种基于知识推理的实体关系抽取系统,下文描述的该系统可以与上文描述的方法相互对应参照。

请参阅图3,该系统包括:

段落集合获取模块110,用于获取电力检修初始文档中的段落集合;

预处理模块120,用于对段落集合进行预处理;

实体关系抽取模块130,用于将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合;

标准化处理模块140,用于对实体关系三元组集合进行标准化处理;

段落还原模块150,用于对标准化处理后的实体关系三元组集合进行段落还原,得到电力检修目标文档。

作为本发明优选的实施例,段落集合获取模块110包括:

段落对齐单元,用于基于预设规则,将电力检修初始文档中的段落与文档对齐,得到段落形式的电力检修初始文档;

段落集合获取单元,用于获取段落形式的电力检修初始文档中的段落集合。

作为本发明优选的实施例,预处理模块120包括:

语法修正单元,用于对段落集合进行语法分析,修正语法错误的句子;

分句单元,用于基于预设长度和标点符号,对语法分析后的段落集合进行分句,得到句子集合。

作为本发明优选的实施例,预设实体关系抽取模型采用基于预训练语言模型的联合建模方式直接抽取预处理后的段落集合中的实体-关系-实体以及实体-关系-属性,得到实体关系三元组集合;

其中,预设实体关系抽取模型包括编码层、实体关系抽取层、多头选择层、尾实体抽取层和三元组结果输出层。

作为本发明优选的实施例,标准化处理包括以下至少一种方式:

过滤停用词;

对关系进行规约;

实体长度过滤和属性长度过滤;

实体对齐和属性对齐。

以上可知,本发明实施例提供的基于知识推理的实体关系抽取系统,通过获取电力检修初始文档中的段落集合,并对段落集合进行预处理,然后将预处理后的段落集合输入预设实体关系抽取模型中,得到实体关系三元组集合,并对实体关系三元组集合进行标准化处理,再将标准化处理后的实体关系三元组集合进行段落还原,最终得到电力检修目标文档,由于在抽取实体关系时无需预先定义关系类型,因此可以有效提取包含在其中的实体之间的新关系事实,且覆盖范围更广,与现有技术相比,能够提升电力检修领域实体和关系挖掘广度,同时提高实体关系的整体抽取准确率。

本发明实施例提供的一种基于知识推理的实体关系抽取系统中相关部分的说明请参见本发明实施例提供的一种基于知识推理的实体关系抽取方法中对应部分的详细说明,且均具有本发明实施例提供的一种基于知识推理的实体关系抽取方法具有的对应效果,在此不再赘述。

上文中提到的基于知识推理的实体关系抽取系统是从功能模块的角度描述,进一步的,本发明实施例又一方面提供一种基于知识推理的实体关系抽取设备,是从硬件角度描述。

该设备包括:

存储器,用于存储计算机程序;

处理器,用于执行计算机程序时实现如上述任意实施例提供的基于知识推理的实体关系抽取方法的步骤。

其中,处理器可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。

存储器可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器至少用于存储以下计算机程序,其中,该计算机程序被处理器加载并执行之后,能够实现前述任一实施例公开的基于知识推理的实体关系抽取方法的相关步骤。另外,存储器所存储的资源还可以包括操作系统和数据等,存储方式可以是短暂存储或者永久存储。其中,操作系统可以包括Windows、Unix、Linux等,数据可以包括但不限于测试结果对应的数据等。

可以理解的是,如果上述任意实施例提供的基于知识推理的实体关系抽取方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

有鉴于此,本发明实施例又一方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任意实施例提供的基于知识推理的实体关系抽取方法的步骤。

本发明实施例提供的计算机可读存储介质的各功能模块的功能可根据上述任意方法实施例中的方法具体实现,其具体实现过程可以参照上述任意方法实施例的相关描述,此处不再赘述。

本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

相关技术
  • 一种基于知识推理的实体关系抽取方法及系统
  • 一种基于强化学习的双系统知识图谱的知识推理方法
技术分类

06120113269684