掌桥专利:专业的专利平台
掌桥专利
首页

一种文本信息提取方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 11:29:13


一种文本信息提取方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理技术领域,特别涉及一种文本信息提取方法、装置、计算机设备及存储介质。

背景技术

金融领域的公告文本信息通常十分繁冗,比如常见的公开招募说明书、合同公告等相关类型的文本。它们通常是由几百页计数量级的信息糅合汇总而成。对于基金信息提取任务,业内常见的处理方法一般是通过人工运维对信息进行复制摘取,或者简单的正则表达式提取。

但是,上述这些传统的处理方式都存在一些比较明显的弊端。比如,纯人工摘取信息方式工作量非常大,并且包含了许多重复性劳动,效率低且人力成本高。而对于简单的正则表达式提取,则可能出现信息提取遗漏的问题,尤其是当公告披露文本量特别大时,常常会因为不同章节段落间的信息相似性从而导致信息提取错误的发生,需要大量的人力进行校对和检验。此外由于不同的基金发行机构对文字的结构要求不统一,基金状态变更的描述文本通常会进行不同程度的合并和省略性描述,这些也会导致正则表达式提取方式失效。

综上所述,亟需提出一种新的长文本信息提取方法,以解决上述问题。

发明内容

为了解决现有技术的问题,本发明实施例提供了一种长文本信息提取方法、装置、计算机设备以及存储介质,以克服现有技术中存在的信息提取工作量大、效率低且人力成本高、以及容易出现遗漏和错误等问题。

为解决上述一个或多个技术问题,本发明采用的技术方案是:

第一方面,提供了一种长文本信息提取方法,该方法包括如下步骤:

获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段;

根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息;

对所述章节信息按照预设规则进行划分,生成对应的划分列表;

根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述值包括所述划分列表与所述提取字段对应的目标信息。

进一步的,所述划分列表包括段落列表和句子列表,所述对所述章节信息按照预设规则进行划分,生成对应的划分列表包括:

根据预设的段落特征对每一所述章节信息进行段落划分,分别生成对应的段落列表;

根据预设的句子特征对每一所述段落列表中的每一段落进行句子划分,分别生成对应的句子列表。

进一步的,当提取字段对应的目标信息为长文本信息时,所述根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中包括:

确定所述提取字段在所述划分列表中所在的第一段落或第一句子,并确定与所述第一段落相邻的第二段落或与所述第一句子相邻的第二句子;

采用预设查找规则对所述第一段落以及所述第二段落或所述第一句子以及所述第二句子进行查找,确定与所述提取字段对应的目标信息;

根据所述提取字段以及所述目标信息生成与所述待提取文本对应的键值对信息存储至数据库中。

进一步的,当提取字段对应的目标信息为短文本信息时,所述根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中包括:

对所述划分列表中的句子进行目标检测处理,获取与所述提取字段对应的目标信息;

根据所述提取字段以及所述目标信息生成与所述待提取文本对应的键值对信息存储至数据库中。

进一步的,当提取字段为状态变更时,所述根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中包括:

按照所述提取规则获取所述句子列表中的业务状态变更信息,根据所述业务状态变更信息以及所述提取字段生成与所述待提取文本对应的键值对信息存储至数据库中。

进一步的,在将键值对信息存储至数据库中前,所述方法还包括:

对所述键值对信息进行降噪处理,将降噪处理后的键值对信息存储至数据库中。

进一步的,所述提取规则包括正则表达式。

第二方面,提供了一种文本信息提取装置,所述装置包括:

数据获取模块,用于获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段;

章节获取模块,用于根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息;

数据划分模块,用于对所述章节信息按照预设规则进行划分,生成对应的划分列表;

信息生成模块,用于根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述包括所述划分列表与所述提取字段对应的信息。

第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:

获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段;

根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息;

对所述章节信息按照预设规则进行划分,生成对应的划分列表;

根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述值包括所述划分列表与所述提取字段对应的目标信息。

第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:

获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段;

根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息;

对所述章节信息按照预设规则进行划分,生成对应的划分列表;

根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述值包括所述划分列表与所述提取字段对应的目标信息。

本发明实施例提供的技术方案带来的有益效果是:

本发明实施例提供的文本信息提取方法、装置、计算机设备及存储介质,通过获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段,根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息,对所述章节信息按照预设规则进行划分,生成对应的划分列表;根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述值包括所述划分列表与所述提取字段对应的目标信息,一方面,提高了文本提取的效率,避免信息提取遗漏和错误等问题,提高文本提取的准确性,另一方面,通过拆分长文本,能避免正则匹配中可能遇到的无限回溯情况,增加代码的容错率,减少总体运行的耗时;

本发明实施例提供的文本信息提取方法、装置、计算机设备及存储介质,通过根据预设的段落特征对每一所述章节信息进行段落划分,分别生成对应的段落列表,根据预设的句子特征对每一所述段落列表中的每一段落进行句子划分,分别生成对应的句子列表,将文本通过目录分层级定位的方式,精确定位到章节、段落以及句子级别,从而精准定位并提取待提取文本中的相关信息;

本发明实施例提供的文本信息提取方法、装置、计算机设备及存储介质,通过对所述键值对信息进行降噪处理,将降噪处理后的键值对信息存储至数据库中,进一步筛选过滤文本中提取的键值对信息,有效提高了在长文本中信息提取的精准度。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的基金公告长文本的信息提取方法的流程图;

图2是根据一示例性实施例示出的基金状态变更的信息提取方法的流程图;

图3是根据一示例性实施例示出的文本信息提取方法的流程图;

图4是根据一示例性实施例示出的文本信息提取装置的结构示意图;

图5是根据一示例性实施例示出的计算机设备的内部结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如背景技术所述,对于常见的基金信息披露募集说明书、基金合同等相关类型的信息披露文本,它们通常是由几百页计数量级的信息糅合汇总而成。因而针对此类文本的信息提取工作量非常大,且容易出现遗漏和错误等问题。

为解决上述问题,本发明实施例中创造性的提出了一种文本信息提取方法,该方法从待提取文本的文档结构出发,将文本通过目录分层级定位的方式,精确定位到章节、段落以及句子级别,对于待提取文本中的概况信息的提取,将句子和段落作为输入数据,通过多重规则方案,自动检测需要提取数据信息,并进行去噪音和校准,从而获取概况信息对应的键值对信息,同样的,对于待提取文本涉及业务的状态变更信息提取,则将状态描述性用词进行词性分层,通过[动作-业务]的组合形式,提取状态变更列表。既能保证信息提取的准确性,又能避免信息提取遗漏和错误等问题,并且通过拆分长文本,能避免正则匹配中可能遇到的无限回溯情况,增加代码的容错率,减少总体运行的耗时。

实施例一

具体的,如图1所示,以基金的相关披露文本为例,使用上述方法进行基金公告长文本的信息提取的过程包括:

步骤一、获取待提取信息的原始长文本序列,所述原始长文本序列包括基金公告长文本;

具体的,这里获取的待提取文本主要包括从公开披露信息的官方网站获取到的基金信息披露募集说明书、基金合同等相关类型的披露文本。这里需要说明的是,本发明实施例中的基金信息披露募集说明书、基金合同等相关类型的披露文本只是一种示例性说明,并不对本发明实施例中做限定,除了上述长文本,本发明实施例提供的方法还可以应用于其他具有固定目录结构的长本文的信息提取。

步骤二、配置用于对公告长文本进行信息提取的提取规则;

具体的,该过程主要是为后续步骤注入提取规则。其中提取规则包括但不限于配置文件正则语句以及外部人工规则援引,其中相同提取字段的正则表达式可叠加使用,外部人工规则援引主要用于配置用户需要提取的字段等信息,具体实施时,外部人工规则援引可以采取表格文件格式进行导入,也可以通过后台运维平台进行配置等。这里需要说明的是,本发明实施例中,提取规则采用多重规则结合的方式,可以有效提高在长文本中信息提取的效率和精准度。

步骤三、根据公告长文本的文件目录,定位目录信息所在的章节,并生成章节信息;

具体的,本发明实施例提供的方法处理的主要是具有固定目录结构的长文本,目录信息通常为的各个章节的标题信息。作为一种较优的示例,在定位目录信息所在的章节时,可以将目录信息作为提取字段,通过预设的章节定位的筛选功能,自动定位并提取字段所在的章节,生成对应的章节信息,其中,章节信息包括章节的标题和所有内容。具体实施时,通常中文文档的章节分块可以通过正则表达式实现定位。

步骤四、对所述章节信息进行划分处理,生成对应的段落列表和句子列表;

具体的,将上述步骤生成的章节信息进一步细加工成段落文本块以及句子文本块,并分别生成段落列表和句子列表。具体实施时,在进行段落划分时,可以按照段落特征将章节内文本切分为段落。中文段落的特征包括但不限于段落行末的空白以及行首的缩进等。在进行句子划分时,前面生成的段落按照句子特征进行进一步提取,将段落再划分为句子。句子特征包括但不限于句结束符,比如句号、感叹号等。

步骤五、按照步骤二配置的提取规则对段落列表以及句子列表进行信息提取,获取公告长文本对应的键值对信息;

具体的,这里的键值对信息中的键为提取规则中定义的提取字段,值为根据提取字段按照提取规则从段落列表以及句子列表中提取到的相关信息。具体进行提取时,不同的信息可以采用不同的提取方式。例如,在基金概况信息中,部分值为文本描述性信息,因此这部分信息可以是一段话、几句话或者是一句话,这里引入临近句(或段)进行查找。例如,当提取字段对应的某段落或句子末尾为冒号时,通常冒号后面的内容才是需要提取的信息,此时将冒号后面的段落或句子作为提取到的目标信息。当需要提取的值也是一个特定类型的短信息时,比如需要提取的信息为日期,而通常这类信息会夹杂在一句话中,此时,可以采用目标检测的方式提取句子内包含的相关信息。

步骤六、对键值对信息进行降噪处理,获取处理后的键值对信息。

具体的,通过前面步骤可以获取一系列输出值(即键值对信息)。虽然已经精确定位到信息对应的段落,然而这些输出值可能会包含一些噪声,甚至出现一些提取错乱的情况。为解决这一问题,本发明实施例中,引入了数值降噪过滤器,将多余或者不合理的结果进一步提纯。其中,降噪处理包括但不限于数值类型校验(用于句内数值清洗)、数值截断摘取(用于句间信息)等,这里不一一赘述。

步骤七、对降噪处理后的键值对信息进行人工审核和校验,将通过人工审核和校验的键值对信息存储至数据库中。

具体的,人工审核和校验过后的信息可以作为基金基础信息,提供一系列基金诊断和筛选依据,为内部以及外部平台提供数据支撑。

具体的,上述步骤在具体实施时,可以作为PySpark大数据任务部署在预先构建的大数据云平台上,用于日常增量处理基金信息提取任务,并将输出结果存储在Hive表中,可以在数分钟的量机内对长文本实时进行分析和探查。

具体的,如图2所示,以基金的状态变更公告文本为例,本发明实施例还提供了一种基金状态变更的信息提取方法,过程包括:

步骤R0:从基金的状态变更公告文本中提取对应的句子列表,并对提取到的句子列表以及状态变更公告文本的公告标题进行解析,获取解析结果。

具体的,从基金的状态变更公告文本中提取句子列表的具体过程可参照上述步骤一至步骤四的具体内容,这里不再赘述。这里同样需要说明的是,本发明实施例中的基金的状态公告文本只是一种示例性说明,并不对本发明实施例中做限定,除了基金的状态变更公告文本,本发明实施例提供的状态变更的信息提取方法还可以应用于其他具有固定目录结构的长本文的信息提取。

具体的,由于有些公告文本的标题中也会包含需要提取的信息,因而在进行状态变更解析时,需要将公告的标题一起纳入考虑。例如,某公告文本的标题为“关于某某货币市场基金暂停大额申购、定投及转换转入业务的公告”,标题中的“暂停大额申购、定投及转换转入业务”也为需要提取的信息。

步骤R1:对所述解析结果进行动作提取,获取动作信息;

具体的,本发明实施例中,动作信息包括公告文本以及标题中出现的动作类用词。这里的动作类用词主要是依照词性作为区分,金融领域常见的涉及到业务状态变更的动作类用词有开放、暂停、恢复和限制等。

步骤R2:对所述解析结果进行业务提取,获取业务信息;

具体的,,本发明实施例中,业务信息包括公告文本以及标题中出现的业务性质名词,比如:申购、赎回、定投、转换和转入等。由于业务变更会涉及到状态和金额,所以本发明实施例中还将业务名词和一些修饰语进行组合得到新的业务词语,类似的有“大额赎回”等状态变更。此外,业务还会涉及到常用的短语、别名和缩写,本发明实施例中在这一步也会统一替换。

步骤R3:根据所述动作信息以及所述业务信息生成状态变更信息;

具体的,将上述步骤中提取得到的动作和业务词组进行排列组合,匹配状态变更枚举值得到完成的变更列表(即状态变更信息)。

步骤R4:对所述状态变更信息进行校验,校验通过后存储至数据库中。

具体的,在将状态变更信息存储至数据库中时,同样可以采用键值对的方式进行存储,具体实施时,以“状态变更”字段为键,提取到的具体的状态变更信息为值。

具体的,本发明实施例中,之所以将变更状态中的动作和业务做拆分,是因为基金文本披露等长文本中会将状态中的动作或业务描述做相当程度的省略(比如:暂停申购、赎回,其实包含了暂停申购以及暂停赎回两种状态变更)。拆分后能有效缓解,甚至避免信息错位以及信息省略带来的提取不完整情况。

实施例二

图3是根据一示例性实施例示出的文本信息提取方法的流程图,参照图3所示,该方法包括如下步骤:

S1:获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段。

具体的,待提取文本包括但不限于基金信息披露募集说明书、基金合同具有固定目录结构的长本文。这里需要说明的是,本发明实施例提供的信息提取方法还可以应用于其他结构文体比较规范的长文本的信息提取。提取规则包含配置文件正则语句和自定义规则,其中自定义规则主要用于配置用户需要提取的字段等信息,自定义规则可以根据用户的实际需求进行调整,从而适应不同的信息提取需求。提取规则采用多重规则结合的方式,可以有效提高在长文本中信息提取的效率和精准度。

S2:根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息。

具体的,通常一些文档拥有相对固定的模板结构,如目录结构等。本发明实施例中,利用待提取文本本身具有的文件目录,将文本通过目录分层级定位的方式,精确定位到章节、段落以及句子级别,为后续信息提取做准备。在进行章节定位时,可以将目录信息作为提取字段(目录信息通常为各个章节的标题),通过正则表达式的方式自动定位并提取字段所在的章节,生成对应的章节信息,本发明实施例中的章节信息包括章节的标题和对应的所有内容。

S3:对所述章节信息按照预设规则进行划分,生成对应的划分列表;

具体的,为了提高信息提取的准确度,在定位到待提取文本的章节后,还需要对章节信息做进一步细划分,将每个章节对应的章节信息先划分为段落,然后再将段落依次划分为句子,并根据划分结果分别生成段落列表和句子列表,以供后续步骤使用。其中,具体的划分过程可参照实施例一中的相关步骤所记载的内容,这里不再赘述。

S4:根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述值包括所述划分列表与所述提取字段对应的目标信息。

具体的,根据提取字段按照提取规则对上述步骤获取到的划分列表进行信息提取,获取需要提取的信息,然后将提取字段与提取到的信息生成键值对信息,并存储至数据库中。

作为一种较优的实施方式,本发明实施例中,所述划分列表包括段落列表和句子列表,所述对所述章节信息按照预设规则进行划分,生成对应的划分列表包括:

根据预设的段落特征对每一所述章节信息进行段落划分,分别生成对应的段落列表;

根据预设的句子特征对每一所述段落列表中的每一段落进行句子划分,分别生成对应的句子列表。

具体的,上述段落划分以及句子划分的过程可参照实施例一中相关步骤记载的内容,这里不再赘述。

作为一种较优的实施方式,本发明实施例中,当提取字段对应的目标信息为长文本信息时,所述根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中包括:

确定所述提取字段在所述划分列表中所在的第一段落或第一句子,并确定与所述第一段落相邻的第二段落或与所述第一句子相邻的第二句子;

采用预设查找规则对所述第一段落以及所述第二段落或所述第一句子以及所述第二句子进行查找,确定与所述提取字段对应的目标信息;

根据所述提取字段以及所述目标信息生成与所述待提取文本对应的键值对信息存储至数据库中。

具体的,当提取字段对应的目标信息为长文本信息时,如在基金概况信息中,部分值为文本描述性信息,因此这部分信息可以是一段话、几句话或者是一句话,这里可以引入临近句(或段)进行查找,即将相邻的句子或段落也纳入考虑范围。例如,当提取字段对应的某段落或句子末尾为冒号时,通常冒号后面的内容才是需要提取的信息,此时将冒号后面的段落或句子作为提取到的目标信息。

作为一种较优的实施方式,本发明实施例中,当提取字段对应的目标信息为短文本信息时,所述根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中包括:

对所述划分列表中的句子进行目标检测处理,获取与所述提取字段对应的目标信息;

根据所述提取字段以及所述目标信息生成与所述待提取文本对应的键值对信息存储至数据库中。

具体的,当提取字段对应的目标信息为短文本信息时,比如需要提取的信息为日期时,由于通常这类信息会夹杂在一句话中,此时,可以采用目标检测的方式提取句子内包含的相关信息。

作为一种较优的实施方式,本发明实施例中,当提取字段为状态变更时,所述根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中包括:

按照所述提取规则获取所述句子列表中的业务状态变更信息,根据所述业务状态变更信息以及所述提取字段生成与所述待提取文本对应的键值对信息存储至数据库中。

具体的,状态变更信息的提取过程可参照实施例一中基金状态变更的信息提取过程的内容,这里不再赘述。

作为一种较优的实施方式,本发明实施例中,在将键值对信息存储至数据库中前,所述方法还包括:

对所述键值对信息进行降噪处理,将降噪处理后的键值对信息存储至数据库中。

具体的,为了提高信息提取的精确度,本发明实施例中会对上述步骤生成的键值对信息做进一步过滤处理,具体实施时,可以对键值对信息进行降噪处理,将多余或者不合理的结果去除。

作为一种较优的实施方式,本发明实施例中,所述提取规则包括正则表达式。

图4是根据一示例性实施例示出的文本信息提取装置的结构示意图,参照图4所示,该装置包括:

数据获取模块,用于获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段;

章节获取模块,用于根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息;

数据划分模块,用于对所述章节信息按照预设规则进行划分,生成对应的划分列表;

信息生成模块,用于根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述包括所述划分列表与所述提取字段对应的信息。

作为一种较优的实施方式,本发明实施例中,所述数据划分模块包括:

段落划分单元,用于根据预设的段落特征对每一所述章节信息进行段落划分,分别生成对应的段落列表;

句子划分单元,用于根据预设的句子特征对每一所述段落列表中的每一段落进行句子划分,分别生成对应的句子列表。

作为一种较优的实施方式,本发明实施例中,所述信息生成模块具体用于:

确定所述提取字段在所述划分列表中所在的第一段落或第一句子,并确定与所述第一段落相邻的第二段落或与所述第一句子相邻的第二句子;

采用预设查找规则对所述第一段落以及所述第二段落或所述第一句子以及所述第二句子进行查找,确定与所述提取字段对应的目标信息;

根据所述提取字段以及所述目标信息生成与所述待提取文本对应的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,所述信息生成模块还用于:

对所述划分列表中的句子进行目标检测处理,获取与所述提取字段对应的目标信息;

根据所述提取字段以及所述目标信息生成与所述待提取文本对应的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,所述信息生成模块还用于:

按照所述提取规则获取所述句子列表中的业务状态变更信息,根据所述业务状态变更信息以及所述提取字段生成与所述待提取文本对应的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,所述装置还包括:

降噪处理模块,用于对所述键值对信息进行降噪处理,将降噪处理后的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,所述提取规则包括正则表达式。

图5是根据一示例性实施例示出的计算机设备的内部结构示意图,参照图5所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种执行计划的优化方法。

本领域技术人员可以理解,图5中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

作为一种较优的实施方式,本发明实施例中,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:

获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段;

根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息;

对所述章节信息按照预设规则进行划分,生成对应的划分列表;

根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述值包括所述划分列表与所述提取字段对应的目标信息。

作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:

根据预设的段落特征对每一所述章节信息进行段落划分,分别生成对应的段落列表;

根据预设的句子特征对每一所述段落列表中的每一段落进行句子划分,分别生成对应的句子列表。

作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:

确定所述提取字段在所述划分列表中所在的第一段落或第一句子,并确定与所述第一段落相邻的第二段落或与所述第一句子相邻的第二句子;

采用预设查找规则对所述第一段落以及所述第二段落或所述第一句子以及所述第二句子进行查找,确定与所述提取字段对应的目标信息;

根据所述提取字段以及所述目标信息生成与所述待提取文本对应的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:

对所述划分列表中的句子进行目标检测处理,获取与所述提取字段对应的目标信息;

根据所述提取字段以及所述目标信息生成与所述待提取文本对应的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:

按照所述提取规则获取所述句子列表中的业务状态变更信息,根据所述业务状态变更信息以及所述提取字段生成与所述待提取文本对应的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,处理器执行计算机程序时还实现以下步骤:

对所述键值对信息进行降噪处理,将降噪处理后的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,所述提取规则包括正则表达式。

本发明实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如下步骤:

获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段;

根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息;

对所述章节信息按照预设规则进行划分,生成对应的划分列表;

根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述值包括所述划分列表与所述提取字段对应的目标信息。

作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:

获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段;

根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息;

对所述章节信息按照预设规则进行划分,生成对应的划分列表;

根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述值包括所述划分列表与所述提取字段对应的目标信息。

作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:

确定所述提取字段在所述划分列表中所在的第一段落或第一句子,并确定与所述第一段落相邻的第二段落或与所述第一句子相邻的第二句子;

采用预设查找规则对所述第一段落以及所述第二段落或所述第一句子以及所述第二句子进行查找,确定与所述提取字段对应的目标信息;

根据所述提取字段以及所述目标信息生成与所述待提取文本对应的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:

对所述划分列表中的句子进行目标检测处理,获取与所述提取字段对应的目标信息;

根据所述提取字段以及所述目标信息生成与所述待提取文本对应的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:

按照所述提取规则获取所述句子列表中的业务状态变更信息,根据所述业务状态变更信息以及所述提取字段生成与所述待提取文本对应的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,所述计算机程序被处理器执行时,还实现如下步骤:

对所述键值对信息进行降噪处理,将降噪处理后的键值对信息存储至数据库中。

作为一种较优的实施方式,本发明实施例中,所述提取规则包括正则表达式。

综上所述,本发明实施例提供的技术方案带来的有益效果是:

本发明实施例提供的文本信息提取方法、装置、计算机设备及存储介质,通过获取待提取文本以及与所述待提取文本对应的提取规则,所述提取规则包括提取字段,根据所述待提取文本的文件目录确定所述文件目录中每一目录信息在所述待提取文本中的章节位置,并生成章节信息,对所述章节信息按照预设规则进行划分,生成对应的划分列表;根据所述划分列表以及所述提取规则生成与所述待提取文本对应的键值对信息存储至数据库中,所述键包括提取字段,所述值包括所述划分列表与所述提取字段对应的目标信息,一方面,提高了文本提取的效率,避免信息提取遗漏和错误等问题,提高文本提取的准确性,另一方面,通过拆分长文本,能避免正则匹配中可能遇到的无限回溯情况,增加代码的容错率,减少总体运行的耗时;

本发明实施例提供的文本信息提取方法、装置、计算机设备及存储介质,通过根据预设的段落特征对每一所述章节信息进行段落划分,分别生成对应的段落列表,根据预设的句子特征对每一所述段落列表中的每一段落进行句子划分,分别生成对应的句子列表,将文本通过目录分层级定位的方式,精确定位到章节、段落以及句子级别,从而精准定位并提取待提取文本中的相关信息;

本发明实施例提供的文本信息提取方法、装置、计算机设备及存储介质,通过对所述键值对信息进行降噪处理,将降噪处理后的键值对信息存储至数据库中,进一步筛选过滤文本中提取的键值对信息,有效提高了在长文本中信息提取的精准度。

需要说明的是:上述实施例提供的文本信息提取装置在触发提取业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本信息提取装置与文本信息提取方法实施例属于同一构思,即该装置是基于该文本信息提取方法的,其具体实现过程详见方法实施例,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种文本信息提取方法、装置、计算机设备及存储介质
  • 通用文本信息提取方法、装置、计算机设备和存储介质
技术分类

06120112940754