基于关键因子的结构化文本搜索方法

文献发布时间：2023-06-19 18:37:28

技术领域

本发明属于文本处理技术领域，尤其涉及一种基于关键因子的结构化文本搜索方法。

背景技术

随着电力市场化建设的不断深化，电力公司的经营发展面临重大机遇挑战，电力公司在进行电网建设和稳定运维等电力工程时，对依法合规精准投入的要求越来越高，通常需要将与电力工程相关的项目文件上报到相关单位及部门进行评审，进而对电力工程项目的评审工作提出了更高要求。

负责评审工作的相关单位及部门作为评审数据的汇集中心，因每个电力工程对项目文件的文本编写要求不统一，虽大体行文思路相同，但在文本脉络的细节上，通常各单位按照不同的理解及行文习惯进行编写，导致评审专家在解读不同的项目文件时因结构差异无法快速定位到所需要的信息，需要浪费大量人力、物力对项目文本的信息进行统一管理和数据沉淀，当待评审的电力工程较多时，导致评审周期较长，影响电力工程的执行效率。

发明内容

为了解决现有技术中存在的因每个电力工程对项目文件的文本编写要求不统一，导致评审专家评审周期较长，影响电力工程的执行效率的缺点和不足，本发明提出了一种基于关键因子的结构化文本搜索方法，包括：

获取项目文件，基于OCR识别算法识别出项目文件的文本脉络信息，结合预设项目文本规则确定项目文件的第一关键因子；

在项目文件中搜索第一关键因子，根据搜索到的第一关键因子的分布情况，在项目文件中划分出待搜索区域；

通过对待搜索区域进行文本语义分析，搜索到第二关键因子，在第二关键因子与第一关键因子之间建立映射关系，基于所述映射关系处理得到结构化文本。

可选的，所述基于OCR识别算法识别出项目文件的文本脉络信息，包括：

基于OCR识别算法定位到项目文件中的标题行，识别标题行中的文字作为文本脉络信息。

可选的，所述结合预设项目文本规则确定项目文件的第一关键因子，包括：

将所述文本脉络信息与预设项目文本规则进行匹配，匹配到与文本脉络信息相似度最高的预设项目文本规则；

根据匹配到的预设项目文本规则，确定项目文件的第一关键因子。

可选的，所述预设项目文本规则分别对应不同的项目类型，所述项目类型包括生产技改、生产设备维修、生产辅助技改、营销、基建、教育培训以及零星购置。

可选的，所述第一关键因子为与项目现状、预期目标、项目范围和规模、项目必要性、项目技术方案、设计图纸、购置设备、项目经济性、财务合规性以及项目实施安排相关的关键词。

可选的，所述根据搜索到的第一关键因子的分布情况，在项目文件中划分出待搜索区域，包括：

获取第一关键因子，在项目文档的中确定与所述第一关键因子对应的初始区域；

与预设行数为单位，计算所述第一关键因子在所述初始区域中的分布密度，将所述分布密度超过预设值的预设行数所在区域，划分为待搜索区域。

可选的，在划分出待搜索区域之后，所述方法还包括：基于所述第一关键因子的分布密度，对待搜索区域进行搜索优先级排序。

可选的，所述对待搜索区域进行文本语义分析，包括：

对待所搜索区域的文本进行分词处理，得到所述文本对应的词向量；

对各个词向量进行特征提取，结合评估函数计算各个词向量的评分值，然后按评分值对这些特征进行排序，选取若干个评分值最高的作为第二关键因子。

可选的，所述在第二关键因子与第一关键因子之间建立映射关系，基于所述映射关系处理得到结构化文本，包括：

将所述第一关键因子作为key，将与所述第一关键因子具有映射关系的所述第二关键因子作为value，以key:value的形式处理得到结构化文本。

本发明提供的技术方案带来的有益效果是：

本发明能够针对不同项目类型的项目文本，确定其对应的第一关键因子和第二关键因子，从而获取项目评审相关的关键信息，并形成结构化数据形式存储的文本信息库，方便评审人员快速获取需要的信息，从而提高评审效率。

此外，通过第一关键因子划分出待搜索区域，从而只需项目文件中的部分文本进行语义分析，缩小了语义分析的范围，减少了语义分析的工作量。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提出的一种基于关键因子的结构化文本搜索方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

实施例：

如图1所示，本实施例提出了一种基于关键因子的结构化文本搜索方法，包括：

S1：获取项目文件，基于OCR识别算法识别出项目文件的文本脉络信息，结合预设项目文本规则确定项目文件的第一关键因子；

S2：在项目文件中搜索第一关键因子，根据搜索到的第一关键因子的分布情况，在项目文件中划分出待搜索区域；

S3：通过对待搜索区域进行文本语义分析，搜索到第二关键因子，在第二关键因子与第一关键因子之间建立映射关系，基于所述映射关系处理得到结构化文本。

本实施例针对负责评审工作的相关单位及部门在解读不同的项目文件时，需要浪费大量人力、物力对项目文本的信息进行统一管理和数据沉淀的情况，为破解传统评审模式存在的问题和不足，提出了采用人工智能、OCR、语义识别等先进技术，构建包含项目现状、预期目标、项目范围和规模、项目必要性、项目技术方案、设计图纸、购置设备、项目经济性、财务合规性、项目实施安排等项目关键属性信息的数据自动获取、识别模型，通过对项目文本描述内容的分析，识别项目关键属性信息，实现项目可研信息自动归档、存储、沉淀，形成经研院独有的项目可研结构化数据库，方便评审人员快速获取需要的信息，从而提高评审效率。

在本实施例中，所述基于OCR识别算法识别出项目文件的文本脉络信息，包括：基于OCR识别算法定位到项目文件中的标题行，识别标题行中的文字作为文本脉络信息。

所述文本脉络信息具体为项目文件中的标题以及不同标题之间的层级隶属关系，所述层级隶属关系例如word文档中的一级标题、二级标题、三级标题等。

所述文本脉络信息能够在一定程度上反映项目文本的行文结构，从而能够与预设项目文本规则进行模板对照，以确定项目文件的类型。

在本实施例中，所述预设项目文本规则为对应不同项目类型的预设文本模板，所述预设项目文本规则分别对应不同的项目类型，所述项目类型包括生产技改、生产设备维修、生产辅助技改、营销、基建、教育培训以及零星购置等，在预设项目文本规则中根据项目公司各个部门各专项项目管理及实施导则要求，设置相应的文本模板。

在本实施例中，所述结合预设项目文本规则确定项目文件的第一关键因子，包括：将所述文本脉络信息与预设项目文本规则进行匹配，匹配到与文本脉络信息相似度最高的预设项目文本规则；

根据匹配到的预设项目文本规则，确定项目文件的第一关键因子。

在本实施例中，所述第一关键因子为与项目现状、预期目标、项目范围和规模、项目必要性、项目技术方案、设计图纸、购置设备、项目经济性、财务合规性以及项目实施安排相关的关键词，主要用于确定第二关键因子的信息属性。

在本实施例中，所述根据搜索到的第一关键因子的分布情况，在项目文件中划分出待搜索区域，包括：

获取第一关键因子，在项目文档的中确定与所述第一关键因子对应的初始区域；

与预设行数为单位，计算所述第一关键因子在所述初始区域中的分布密度，将所述分布密度超过预设值的预设行数所在区域，划分为待搜索区域。

在本实施例中，在划分出待搜索区域之后，所述方法还包括：基于所述第一关键因子的分布密度，对待搜索区域进行搜索优先级排序。在本实施例中，所述分布密度越高，搜索优先级越高。

在本实施例中，所述对待搜索区域进行文本语义分析，包括：

对待所搜索区域的文本进行分词处理，得到所述文本对应的词向量；

用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容；2)特征项具有将目标文本与其他文本相区分的能力；3)特征项的个数不能太多；4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类系统都采用词作为特征项，称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，从而简化计算，提高文本处理的速度和效率。本实施例根据某个评估函数计算各个特征的评分值，然后按评分值对这些特征进行排序，选取若干个评分值最高的作为特征词。所述评估函数包括TF-IDF法、词频方法、文档频次方法以及互信息法。

在本实施例中，所述在第二关键因子与第一关键因子之间建立映射关系，基于所述映射关系处理得到结构化文本，包括：

将所述第一关键因子作为key，将与所述第一关键因子具有映射关系的所述第二关键因子作为value，以key:value的形式处理得到结构化文本。

在本实施例中，将第一关键因子和第二关键因子以键值对的数据格式，存储到相应的关系型数据库中，从而形成易于查询和解析的结构化文本。

上述实施例中的各个序号仅仅为了描述，不代表各部件的组装或使用过程中的先后顺序。

以上所述仅为本发明的实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨轶涵;范明霞;金卓群;张波;叶少杰;夏溪惠;孙永军;李建宇;袁翔;王婷婷;韩家鑫;陈波;
专利申请人：浙江华云信息科技有限公司;国网浙江省电力有限公司经济技术研究院;

上一篇：基于网络的园林管理控制系统
下一篇：固态盘的数据存储方法、装置、设备及存储介质