掌桥专利:专业的专利平台
掌桥专利
首页

一种文本知识自动抽取方法、装置、设备及存储介质

文献发布时间:2023-06-19 10:29:05


一种文本知识自动抽取方法、装置、设备及存储介质

技术领域

本发明涉及文本处理技术领域,更具体地说,涉及一种文本知识自动抽取方法、装置、设备及存储介质。

背景技术

伴随着互联网的发展,网络存在着大量的无结构化知识,知识抽取是指从海量的半结构化和非结构化数据中直接抽取实体、关系和属性等信息,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。因此,如何提供一种实现知识抽取的技术方案,是目前本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种文本知识自动抽取方法、装置、设备及存储介质,无需人工介入,即可自动有效的实现知识抽取。

为了实现上述目的,本发明提供如下技术方案:

一种文本知识自动抽取方法,包括:

获取需要实现知识提取的全部文档均为待提取文档,并对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落;

通过Open-IE模型对每个所述待抽取段落进行知识抽取,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识;其中,所述第一信息包括实体及实体间关系,所述第二信息包括实体及属性间关系、实体、属性;

将从每个所述待抽取段落中提取到的所述知识进行输出。

优选的,通过Open-IE模型对每个所述待抽取段落进行知识抽取,包括:

将每个所述待抽取段落按照预设长度及标点符号分别进行拆分,得到每个所述待抽取段落包含的句子均为待抽取句子,并将每个所述待抽取句子均输入至所述Open-IE模型中,得到所述Open-IE模型输出的信息为抽取的知识。

优选的,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识之后,还包括:

确定包含停用词、和/或包含大于实体长度阈值的实体长度、和/或包含大于属性长度阈值的属性的、和/或包含大于关系长度阈值的表示关系的信息的知识为待过滤知识,并将所述待过滤知识删除。

优选的,将所述待过滤知识删除之后,还包括:

确定所述知识中具有相同含义的不同词语,并将具有相同含义的不同词语均替换为表示该相同含义的统一词语。

优选的,将具有相同含义的不同词语均替换为表示该相同含义的统一词语之后,还包括:

基于所述知识将主语表示实体相同的待抽取句子组成相应的段落。

优选的,对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落,包括:

采用OCR软件对每个所述待提取文档进行解析,得到相应的文本信息,并基于所述文本信息的特点获取其中包含的段落均为待抽取段落。

优选的,所述Open-IE模型包括特征提取层、第一主谓抽取层、第二主谓抽取层、宾语抽取层及最终抽取层;其中,所述特征提取层采用BERT抽取特征,所述第一主谓抽取层采用Span方式抽取全部主语及谓语,所述第二主谓抽取层抽取存在关系的主语及谓语,所述宾语抽取层基于主语及谓语抽取相应的宾语,所述最终抽取层将存在关系的主语、谓语及相应的宾语为知识进行输出。

一种文本知识自动抽取装置,包括:

文档处理模块,用于:获取需要实现知识提取的全部文档均为待提取文档,并对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落;

知识抽取模块,用于:通过Open-IE模型对每个所述待抽取段落进行知识抽取,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识;其中,所述第一信息包括实体及实体间关系,所述第二信息包括实体及属性间关系、实体、属性;

知识输出模块,用于:将从每个所述待抽取段落中提取到的所述知识进行输出。

一种文本知识自动抽取设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上任一项所述文本知识自动抽取方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述文本知识自动抽取方法的步骤。

本发明提供了一种文本知识自动抽取方法、装置、设备及存储介质,该方法包括:获取需要实现知识提取的全部文档均为待提取文档,并对每个所述待提取文档分别进行拆解,得到每个所述待提取文档包含的段落均为待抽取段落;通过Open-IE模型对每个所述待抽取段落进行知识抽取,得到每个所述待抽取段落中包含的第一信息及第二信息均为知识;其中,所述第一信息包括实体及实体间关系,所述第二信息包括实体及属性间关系、实体、属性;将从每个所述待抽取段落中提取到的所述知识进行输出。本申请获取需要实现知识提取的全部文档后,对这些文档进行拆解得到相应的段落,通过Open-IE模型对这些段落进行知识抽取,得到其中包含的表示实体、实体间关系的信息以及表示实体、属性、两者间关系的信息作为抽取得到的知识,最终将这些知识进行输出,供相应人员获取进而实现分析等操作。可见,本申请能够自动对需要实现知识抽取的文档进行相应处理,并利用Open-IE模型实现相应的知识抽取,最终得到文档中的知识并输出,从而无需人工介入,即可自动有效的实现知识抽取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种文本知识自动抽取方法的第一种流程图;

图2为本发明实施例提供的一种文本知识自动抽取方法的第二种流程图;

图3为本发明实施例提供的一种文本知识自动抽取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,其示出了本发明实施例提供的一种文本知识自动抽取方法的流程图,可以包括:

S11:获取需要实现知识提取的全部文档均为待提取文档,并对每个待提取文档分别进行拆解,得到每个待提取文档包含的段落均为待抽取段落。

本发明实施例提供的一种文本知识自动抽取方法的执行主体可以为对应的文本知识自动抽取装置;本申请可以应用于银行领域,而需要实现知识提取的文档则可以包括政策文件、产品介绍、说明文档、公告文件等。其中,获取需要实现知识提取的不同类型的文档均可以为中文的待提取文档,这些待提取文档组成相应的文档集合D,对文档集合D中每个文档分别进行拆解,获取其中包含的全部段落,则得到由获取的全部段落组成段落集合P。

S12:通过Open-IE模型对每个待抽取段落进行知识抽取,得到每个待抽取段落中包含的第一信息及第二信息均为知识;其中,第一信息包括实体及实体间关系,第二信息包括实体及属性间关系、实体、属性。

其中,Open-IE模型即为使用Open-IE抽取方法实现知识抽取的模型,Open-IE不需要预定义的关系类型,其可以有效地提取包含在其中的实体之间的新关系事实,且覆盖范围更广;因此,本申请实施例可以利用Open-IE模型对文档集合D中每个段落分别进行知识提取,得到其中包含的第一信息及第二信息,也即为抽取得到的知识;具体来说,实体为客观存在并可相互区别的事物,如某银行、某投资者等,实体之间的关系为不同事物之间存在的联系,如某银行具有一定数量的投资者,则银行及投资者均为实体,实体之间的关系则为投资关系,属性为表示实体的特点的信息,如某银行营业收入的具体数值等,实体及属性之间的关系为实体及所具有的属性之间存在的联系,如某银行的营业收入为132.70亿元,实体及属性之间的关系则为营业收入;在此基础上,第一信息包括实体及实体之间关系,可以表示为实体-关系-实体,第二信息可以包括实体、属性及两者之间关系,可以表示为实体-关系-属性序列集合T1(属性序列集合T1中包含相应的属性),

S13:将从每个待抽取段落中提取到的知识进行输出。

将提取到的知识通过进行显示或者发送给相应终端等方式进行输出,能够使外界用户获知提取到的知识,进而实现相应的分析等操作。

本申请获取需要实现知识提取的全部文档后,对这些文档进行拆解得到相应的段落,通过Open-IE模型对这些段落进行知识抽取,得到其中包含的表示实体、实体间关系的信息以及表示实体、属性、两者间关系的信息作为抽取得到的知识,最终将这些知识进行输出,供相应人员获取进而实现分析等操作。可见,本申请能够自动对需要实现知识抽取的文档进行相应处理,并利用Open-IE模型实现相应的知识抽取,最终得到文档中的知识并输出,从而无需人工介入,即可自动有效的实现知识抽取。

本发明实施例提供的一种文本知识自动抽取方法,通过Open-IE模型对每个待抽取段落进行知识抽取,可以包括:

将每个待抽取段落按照预设长度及标点符号分别进行拆分,得到每个待抽取段落包含的句子均为待抽取句子,并将每个待抽取句子均输入至Open-IE模型中,得到Open-IE模型输出的信息为抽取的知识。

本申请实施例在获取到文档包含的全部段落后,可以对这些段落进行拆解,从而将段落转换为相应的句子集合;而在对段落进行拆解时,可以先设置每个标点符号均为对应的分割点,如果任意段落的长度在预设长度(根据实际需要进行设定)内,则将该任意段落作为单独的语句,否则,按照该任意段落内具有的标点符号分割成多个单独的语句(如将每个由句号结束的语句作为一个单独的语句);例如:对于段落“某银行2019年半年报披露,该行实现营业收入132.70亿元。在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”,对该段落进行拆解后得到的句子集合为:[“某银行2019年半年报披露,该行实现营业收入132.70亿元。”,“在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”]。

在得到句子集合之后,将句子集合中的句子均输入至Open-IE模型进行推理,则得到候选的实体-关系-实体以及实体-关系-属性序列,本申请实施例中可以将其定义为Subject-Predicate-Object。例如:对于句子集合P:[“某银行2019年半年报披露,该行实现营业收入132.70亿元。”,“在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”],经过Open-IE模型推理后得到的结果为:

表1

从而实现段落拆解及Open-IE模型使用,有效实现段落中包含的各知识的提取。

本发明实施例提供的一种文本知识自动抽取方法,得到每个待抽取段落中包含的第一信息及第二信息均为知识之后,还可以包括:

确定包含停用词、和/或包含大于实体长度阈值的实体长度、和/或包含大于属性长度阈值的属性、和/或包含大于关系长度阈值的表示关系的信息的、和/或包含大于关系长度阈值的表示关系的信息的知识为待过滤知识,并将待过滤知识删除。

本申请在得到文档中包含的全部知识后,可以对这些知识进行过滤,以删除无效的知识;具体来说,在删除知识时,可以将包含停用词的知识、实体长度大于相应实体长度阈值的知识、属性长度大于相应属性长度阈值的知识以及表示关系的信息长度大于相应的关系长度阈值的知识均进行删除;其中,实体长度阈值、属性长度阈值及关系长度阈值均可以根据实际需要进行设定,如对于表1抽取得到的知识中Predicate为“手续费及佣金净收入”的三元组集合可以被删除。

本发明实施例提供的一种文本知识自动抽取方法,将待过滤知识删除之后,还可以包括:

确定知识中具有相同含义的不同词语,并将具有相同含义的不同词语均替换为表示该相同含义的统一词语。

为了进一步方便对知识的分析,本申请实施例还可以对抽取得到的知识进行合并;具体来说,在实现不同知识的合并时,可以是将知识中具有相同含义的不同词语,均替换为相应的统一词语,如“某银行”“该行”均可以替换为“某银行”,从而实现相同含义的不同词语的统一化,方便对于知识的理解。

本发明实施例提供的一种文本知识自动抽取方法,将具有相同含义的不同词语均替换为表示该相同含义的统一词语之后,还可以包括:

基于知识将主语表示实体相同的待抽取句子组成相应的段落。

本申请实施例在需要时还可以基于知识实现段落的还原,具体来说,可以将所包含的主语表示实体相同的待抽取句子组成同一段落,如对于表1中的信息得到的最终知识及还原的段落可以如表2所示,从而不仅能够从文档中提取所需知识,还可以基于提取的知识实现段落还原,方便用户根据实际需要实现不同的功能,以进行相应的分析等操作。

表2

本发明实施例提供的一种文本知识自动抽取方法,对每个待提取文档分别进行拆解,得到每个待提取文档包含的段落均为待抽取段落,可以包括:

采用OCR软件对每个待提取文档进行解析,得到相应的文本信息,并基于文本信息的特点获取其中包含的段落均为待抽取段落。

本申请实施例可以通过数据预处理对文档进行拆解得到相应的段落;具体来说,数据预处理主要包括两部分,第一部分是将各种政策文件、公告、产品说明等文档进行转化,得到其中包含的文本信息,如文档为pdf格式,则可以采用OCR软件对文档进行解析,包括对图表和图片的解析等;第二部分则是基于文档的特点,通过预先设定的规则等方式把将拆解得到的段落与拆解前的文档对齐,尽量保证拆解得到的段落与文档中段落的形式相同,最终把文档处理成段落形式,其中,基于文档的特点通过规则将拆解得到的段落与拆解前的文档对齐,则是文档中对于不同的段落可能设置有不同的标记,如每个段落的起止位置具有相应的标号,或者每个段落的起止位置具有相应的标题等,从而将每个标记对应的段落作为拆解得到的单独段落。通过上述方式,本申请能够对文档解析得到相应的文本信息后,提取得到符合文档特点的每个段落,便于后续实现相应的知识提取等处理。

本发明实施例提供的一种文本知识自动抽取方法,Open-IE模型可以包括特征提取层、第一主谓抽取层、第二主谓抽取层、宾语抽取层及最终抽取层;其中,特征提取层采用BERT抽取特征,第一主谓抽取层采用Span方式抽取全部主语及谓语,第二主谓抽取层抽取存在关系的主语及谓语,宾语抽取层基于主语及谓语抽取相应的宾语,最终抽取层将存在关系的主语、谓语及相应的宾语为知识进行输出。

需要说明的是,本申请中的Open-IE模型主要采用基于预训练语言模型(BERT)的联合建模方式直接抽取实体-关系-实体,实体-关系-属性序列。例如:“全球知名咨询机构x发布《未来银行白皮书》,就银行业的现状和未来发展趋势进行了深度剖析和洞察。”该句话抽取出的知识为(Subject:x,Predicate:发布,Object:《未来银行白皮书》)。的Open-IE模型可以包括:

1、Encoder-Layer:编码层可以采用BILSTM或者BERT,为了进一步提高模型性能,本申请实施例优选采用BERT作为特征提取层,以便更好的获取句子的上下文信息。

2、EntityRelation-Layer:第一主谓抽取层,该层主要抽取所有可能的Subject和Predicate;本申请实施例采用Span的方式,分别抽取Subject和Predicate的开始位置和结束位置,相应的计算公式如下:

P

P

P

P

其中,P

3、MultiHead-Layer(第二主谓抽取层):句子中的每个token都有可能和其他token构成关系,该层会找出所有可能存在关系的Subject和Predicate,相应的计算公式如下:

P

其中,h

4、Object-Layer:宾语抽取层,该层的作用是抽取指定的Object,根据指定的Subject和Predicate抽取出对应的Object,相应的计算公式如下:

P

P

其中,P

5、Triple-Result:最终抽取层,其最后依据前几个步骤,抽取出句子中最终(Subject,predicate,Object)集合。

在一种具体应用场景中,如图2所示,本发明实施例提供的一种文本知识自动抽取方法具体可以包括以下步骤:

步骤101,获取银行不同类型的文档集合D,并进行拆解,获取其中所有的段落集合P。

数据预处理是影响Open-IE抽取的重要阶段,主要包括两部分:

1、首先把各种政策文件、公告、产品说明等文档转化,主要可以采用OCR软件进行解析,包括图表和图片的解析等;

2、段落格式处理:根据标准文档特点,通过规则等方式把段落与文档对齐,尽量保证与文档的形式相同,最终把文档处理成段落形式。

步骤102,通过Open-IE模型对段落集合P进行抽取,获得所有候选的实体-关系-实体以及实体-关系-属性序列的集合T1。

通过预设Open-IE模型抽取候选的实体-关系-实体以及实体-关系-属性序列,主要包括以下几个步骤:

1、段落拆解:段落拆解主要把较长的段落依据一定的长度和标点符号进行拆分,把段落转化成句子集合。例如:对于段落“某银行2019年半年报披露,该行实现营业收入132.70亿元。在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”;拆解后的句子集合为:[“某银行2019年半年报披露,该行实现营业收入132.70亿元。”,“在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”]

2、模型推理:把拆解后得到的句子集合进入模型进行推理,得到候选的实体-关系-实体以及实体-关系-属性序列,可以把它定义为Subject-Predicate-Object。

对于句子集合P:[“某银行2019年半年报披露,该行实现营业收入132.70亿元。”,“在经营业绩表中可以发现,该行净利息收入114.86亿元,同比上涨28.31%,手续费及佣金净收入13.28亿元,同比上涨19.13%,增长势头都比较好。”],经过模型推理后的结果为:

步骤103,对所有候选的实体-关系-实体以及实体-关系-属性序列的集合T1进行过滤,并对其规则合并,得到实体-关系-实体以及实体-关系-属性序列的集合T2。

对候选的知识进行过滤,主要包括去停用词、对关系进行规约、实体、关系及属性长度过滤等;例如对于步骤102中的抽取的结果中Predicate为“手续费及佣金净收入”的三元组集合被删除。

规则合并则可以为采用同义词词典把部分实体和属性等聚集到一起。

步骤104,对集合T3进行段落还原,输出最终的实体-关系-实体以及实体-关系-属性序列的集合T。

基于集合T把拆解后的句子进行还原,转化成原始的段落形式,对于步骤102中的段落,输出最终Subject-Predicate-Object序列集合可以为:

本申请可以应用于中文文档抽取,有效提升了中文Open-IE抽取准确率;减少人工构建知识成本,系统获取文档后自动抽取知识点,辅助知识图谱构建;采用联合建模的方式,不仅减少了不同任务之间的误差传播,而且大大减少了模型推理时间,提高了自动抽取效率。

本发明实施例还提供了一种文本知识自动抽取装置,如图3所示,具体可以包括:

文档处理模块11,用于:获取需要实现知识提取的全部文档均为待提取文档,并对每个待提取文档分别进行拆解,得到每个待提取文档包含的段落均为待抽取段落;

知识抽取模块12,用于:通过Open-IE模型对每个待抽取段落进行知识抽取,得到每个待抽取段落中包含的第一信息及第二信息均为知识;第一信息包括实体及实体间关系,第二信息包括实体及属性间关系、实体、属性;

知识输出模块13,用于:将从每个待抽取段落中提取到的知识进行输出。

本发明实施例提供的一种文本知识自动抽取装置,知识抽取模块具体可以包括:

知识抽取单元,用于:将每个待抽取段落按照预设长度及标点符号分别进行拆分,得到每个待抽取段落包含的句子均为待抽取句子,并将每个待抽取句子均输入至Open-IE模型中,得到Open-IE模型输出的信息为抽取的知识。

本发明实施例提供的一种文本知识自动抽取装置,还可以包括:

过滤模块,用于:得到每个待抽取段落中包含的第一信息及第二信息均为知识之后,确定包含停用词、和/或包含大于实体长度阈值的实体长度、和/或包含大于属性长度阈值的属性的、和/或包含大于关系长度阈值的表示关系的信息的知识为待过滤知识,并将待过滤知识删除。

本发明实施例提供的一种文本知识自动抽取装置,还可以包括:

合并模块,用于:将待过滤知识删除后,确定知识中具有相同含义的不同词语,并将具有相同含义的不同词语均替换为表示该相同含义的统一词语。

本发明实施例提供的一种文本知识自动抽取装置,还可以包括:

还原模块,用于:将具有相同含义的不同词语均替换为表示该相同含义的统一词语后,基于知识将主语表示实体相同的待抽取句子组成相应的段落。

本发明实施例提供的一种文本知识自动抽取装置,文档处理模块具体可以包括:

解析单元,用于:采用OCR软件对每个待提取文档进行解析,得到相应的文本信息,并基于文本信息的特点获取其中包含的段落均为待抽取段落。

本发明实施例提供的一种文本知识自动抽取装置,Open-IE模型可以包括特征提取层、第一主谓抽取层、第二主谓抽取层、宾语抽取层及最终抽取层;其中,特征提取层采用BERT抽取特征,第一主谓抽取层采用Span方式抽取全部主语及谓语,第二主谓抽取层抽取存在关系的主语及谓语,宾语抽取层基于主语及谓语抽取相应的宾语,最终抽取层将存在关系的主语、谓语及相应的宾语为知识进行输出。

本发明实施例还提供了一种文本知识自动抽取设备,可以包括:

存储器,用于存储计算机程序;

处理器,用于执行计算机程序时实现如上任一项文本知识自动抽取方法的步骤。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项文本知识自动抽取方法的步骤。

需要说明的是,本发明实施例提供的一种文本知识自动抽取装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种文本知识自动抽取方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种文本知识自动抽取方法、装置、设备及存储介质
  • 一种文本知识提取方法、装置、电子设备和存储介质
技术分类

06120112567990