掌桥专利:专业的专利平台
掌桥专利
首页

一种标准文本分类方法、系统、存储介质和电子设备

文献发布时间:2024-04-18 19:58:30


一种标准文本分类方法、系统、存储介质和电子设备

技术领域

本发明涉及文本分类技术领域,尤其涉及一种标准文本分类方法、系统、存储介质和电子设备。

背景技术

现有的标准化要素的建立都是通过人工方式,从收集资料文件、对标行业标准体系文件、搜集各个现行的标准到根据标准化要素关键词对标准文本科学的分类,所花费的时间较长,并且不利于高效的体系设计。

因此,亟需提供一种技术方案解决上述问题。

发明内容

为解决上述技术问题,本发明提供了一种标准文本分类方法、系统、存储介质和电子设备。

第一方面,本发明提供一种标准文本分类方法,该方法的技术方案如下:

基于目标领域的标准体系架构,生成多组要素关键词;

根据每组要素关键词在所述目标领域的待分类标准文本中的出现次数,确定每组要素关键词的要素分值;

将要素分值最高的一组要素关键词确定为所述待分类标准文本的最优分类结果。

本发明的一种标准文本分类方法的有益效果如下:

本发明的方法能够提高对标准文本分类的准确性,降低了大量的人工成本,提高标准体系建设的效率。

在上述方案的基础上,本发明的一种标准文本分类方法还可以做如下改进。

在一种可选的方式中,每组要素关键词中的每个关键词均分别对应一种要素级别,每组要素关键词均包含所有的要素级别。

在一种可选的方式中,根据任意一组要素关键词在所述目标领域的待分类标准文本中的出现次数,确定所述任意一组要素关键词的要素分值的步骤,包括:

将所述待分类标准文本转换为格式化文本,并从所述格式化文本中,获取所述任意一组要素关键词中的每个关键词的出现次数;

基于所述任意一组要素关键词中的每个关键词对应的出现次数和要素级别,计算所述任意一组要素关键词的要素分值。

在一种可选的方式中,基于所述任意一组要素关键词中的每个关键词对应的出现次数和要素级别,计算所述任意一组要素关键词的要素分值的步骤,包括:

将述任意一组要素关键词中的每个关键词对应的出现次数和要素级别输入至预设要素分值计算模型进行计算,得到所述任意一组要素关键词的要素分值;其中,所述预设要素分值计算模型为:

在一种可选的方式中,所述目标领域为:油气管道领域。

第二方面,本发明提供一种标准文本分类系统,该系统的技术方案如下:

包括:生成模块、处理模块和分类模块;

所述生成模块用于:基于目标领域的标准体系架构,生成多组要素关键词;

所述处理模块用于:根据每组要素关键词在所述目标领域的待分类标准文本中的出现次数,确定每组要素关键词的要素分值;

所述分类模块用于:将要素分值最高的一组要素关键词确定为所述待分类标准文本的最优分类结果。

本发明的一种标准文本分类系统的有益效果如下:

本发明的系统能够提高对标准文本分类的准确性,降低了大量的人工成本,提高标准体系建设的效率。

在上述方案的基础上,本发明的一种标准文本分类系统还可以做如下改进。

在一种可选的方式中,每组要素关键词中的每个关键词均分别对应一种要素级别,每组要素关键词均包含所有的要素级别。

在一种可选的方式中,所述处理模块具体用于:

将所述待分类标准文本转换为格式化文本,并从所述格式化文本中,获取任意一组要素关键词中的每个关键词的出现次数;

基于所述任意一组要素关键词中的每个关键词对应的出现次数和要素级别,计算所述任意一组要素关键词的要素分值。

第三方面,本发明提供的一种存储介质的技术方案如下:

存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如本发明的一种标准文本分类方法的步骤。

第四方面,本发明的一种电子设备的技术方案如下:

包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现如本发明的一种标准文本分类方法的步骤。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明提供的一种标准文本分类方法的实施例的流程示意图;

图2示出了标准体系架构的示意图;

图3示出了本发明提供的一种标准文本分类系统的实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。

图1示出了本发明提供的一种标准文本分类方法的实施例的流程示意图。如图1所示,包括如下步骤:

S1、基于目标领域的标准体系架构,生成多组要素关键词。其中:

①目标领域默认为油气管道领域,也可根据实际需求进行调整,在此不设限制。

②图2示出了标准体系架构的示意图。根据图2所示的标准体系架构图中的层级关系,可将所有的关键词分为三个要素级别,即:一级要素、二级要素和三级要素。如下表1所示,一级要素对应的关键词为:数字化。第二要素对应的关键词为:总体规范、信息系统、数据治理、信息安全、数字化技术和基础设施中的至少一种。三级要素对应的关键词为:总体架构、IT管控机制、专业术语、信息系统建设与运维、信息系统应用、数字平台、数据管理基础、数据技术规范、数据资产管理、数据业务应用、数据工具、信息安全管理、数据安全、网络安全、应用安全、物理安全、计算机技术、新技术、基础软件、云平台、数据中心、网络通信和运维支持中的至少一种。

③每组要素关键词中的每个关键词均分别对应一种要素级别,每组要素关键词均包含所有的要素级别。例如,任意一组要素关键词为:数字化、总体规范、总体架构。数字化为一级要素,总体规范为二级要素、总体架构为三级要素。

表1:

S2、根据每组要素关键词在所述目标领域的待分类标准文本中的出现次数,确定每组要素关键词的要素分值。其中:

①待分类标准文本为:目标领域的某个需要进行分类(归类)的标准文本。以油气管道领域为例,待分类标准文本包括但不限于:《油气输送管道地理信息系统建设指南》、《工业基础类平台规范》、《信息技术云计算平台即服务(PaaS)参考架构》、《石油天然气勘探信息系统管理规程》、《油气管道仪表及自动化系统运行技术规范》、《油气管道安全预警系统技术规范》、《石油勘探成像测井系统通用技术条件》、《海上离心泵在线监测系统设计与安装推荐作法》、《非分类区域和I级1类及2类区域的固定及浮式海上石油设施的电气系统设计》、《安装与维护推荐作法》、《油气田及管道工程计算机控制系统设计规范》、《油气输送管道计算机控制系统报警管理技术规范》、《油田采出水余热利用工程数据采集与监控系统设计规范》、《油气田及管道计算机控制系统设计规范》、《信息技术开放系统中文界面规范》以及《信息系统灾难恢复能力要求》等。

②要素分值为:根据要素关键词在待分类标准文本中的出现次数所计算的分数值。一组要素关键词中的每个关键词的分数值之和为该组要素关键词的要素分值。

S3、将要素分值最高的一组要素关键词确定为所述待分类标准文本的最优分类结果。其中:

要素分值最高的一组要素关键词中的每个关键词为待分类标准文本的分类关键词,即最优分类结果。

较优地,根据任意一组要素关键词在所述目标领域的待分类标准文本中的出现次数,确定所述任意一组要素关键词的要素分值的步骤,包括:

将所述待分类标准文本转换为格式化文本,并从所述格式化文本中,获取所述任意一组要素关键词中的每个关键词的出现次数。其中:

①利用文字识别技术,将待分类标准文本转换为格式化文本。

②文字识别技术包括但不限于:图像识别技术和OCR文字识别技术。利用文字识别将标准pdf这类文本格式转换为结构化的word文本。

③利用检索的方式,可实现对关键词的计数,以此得到关键词的出现次数。

基于所述任意一组要素关键词中的每个关键词对应的出现次数和要素级别,计算所述任意一组要素关键词的要素分值。其中:

不同要素级别的关键词对应的分数值不同。

较优地,基于所述任意一组要素关键词中的每个关键词对应的出现次数和要素级别,计算所述任意一组要素关键词的要素分值的步骤,包括:

将述任意一组要素关键词中的每个关键词对应的出现次数和要素级别输入至预设要素分值计算模型进行计算,得到所述任意一组要素关键词的要素分值。其中:

①预设要素分值计算模型为:

②以图2对应的要素表为例,此时m=3;假设第一组要素关键词为:数字化、总体规范、总体架构,则预设要素分值计算模型为M

需要说明的是:a

本实施例的技术方案能够提高对标准文本分类的准确性,降低了大量的人工成本,提高标准体系建设的效率。

图3示出了本发明提供的一种标准文本分类系统200的实施例的结构示意图。如图3所示,该系统200包括:包括:生成模块210、处理模块220和分类模块230;

所述生成模块210用于:基于目标领域的标准体系架构,生成多组要素关键词;

所述处理模块220用于:根据每组要素关键词在所述目标领域的待分类标准文本中的出现次数,确定每组要素关键词的要素分值;

所述分类模块230用于:将要素分值最高的一组要素关键词确定为所述待分类标准文本的最优分类结果。

较优地,每组要素关键词中的每个关键词均分别对应一种要素级别,每组要素关键词均包含所有的要素级别。

较优地,所述处理模块具体220用于:

将所述待分类标准文本转换为格式化文本,并从所述格式化文本中,获取任意一组要素关键词中的每个关键词的出现次数;

基于所述任意一组要素关键词中的每个关键词对应的出现次数和要素级别,计算所述任意一组要素关键词的要素分值。

较优地,所述处理模块具体220用于:

将述任意一组要素关键词中的每个关键词对应的出现次数和要素级别输入至预设要素分值计算模型进行计算,得到所述任意一组要素关键词的要素分值;其中,所述预设要素分值计算模型为:

较优地,所述目标领域为:油气管道领域。

本实施例的技术方案能够提高对标准文本分类的准确性,降低了大量的人工成本,提高标准体系建设的效率。

上述关于本实施例的标准文本分类系统200中的各参数和各个模块实现相应功能的步骤,可参考上文中关于标准文本分类方法的实施例中的各参数和步骤,在此不做赘述。

本发明实施例提供的一种存储介质,包括:存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如标准文本分类方法的步骤,具体可参考上文中的标准文本分类方法的实施例中的各参数和步骤,在此不做赘述。

计算机存储介质例如:优盘、移动硬盘等。

本发明实施例提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,使所述计算机执行如标准文本分类方法的步骤,具体可参考上文中的标准文本分类方法的实施例中的各参数和步骤,在此不做赘述。

所属技术领域的技术人员知道,本发明可以实现为方法、系统、存储介质和电子设备。

因此,本发明可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 一种分布式系统部署方法、系统、电子设备及存储介质
  • 一种操作系统的预安装方法、系统、电子设备及存储介质
  • 一种用于化妆间盒子的交易方法、系统、电子设备及存储介质
  • 一种日志处理方法、系统及电子设备和存储介质
  • 一种维修技师评级方法、系统及电子设备和存储介质
  • 一种羟基芳香醛在光辅助催化不饱和有机物顺式异构化中的应用
  • 一种变体文本分类识别方法、系统、存储介质和电子设备
技术分类

06120116504127