掌桥专利:专业的专利平台
掌桥专利
首页

电力语料自动补全标注方法和装置

文献发布时间:2023-06-19 11:14:36


电力语料自动补全标注方法和装置

技术领域

本发明属于电网调度技术领域,具体涉及电力语料自动补全标注方法。

背景技术

随着智能电网建设的全面展开,以及电力信息通信与电网企业经营管理的深度融合,电力语料出现爆发性增长。这些语料中隐藏着丰富的关系到电网安全稳定经济运行的信息,因“重要的事情常常被记录”而具有价值密度高的特点,因而成为电网企业宝贵的数据资产。

但不少类型的电力语料均为非结构化的数据,要利用必须先对其进行自然语言处理。自然语言处理的一种重要预处理工作就是标注。目前的标注方式均为人工标注,需要大量的人工工作,过程重复且繁琐,造成时间和资源的浪费。

另外部分电力调度规章文本因过于精炼,文本具有明显上下位关系情况下,子标题以下的文本内容均缺省相关标题的主语,对诸如实体关系抽取等后续电力语料的相关挖掘利用造成不利影响。

因此对电力语料标注过程需要减少人工标注工作量,缩短电力文本的处理时间,补全语料缺省内容,提高关于电力文本的智能化标注能力。

发明内容

本发明旨在针对目前对电力语料补全方法缺少对缺省内容的补全方式的问题,本发明提出一种电力语料自动补全标注方法。

为实现上述技术目的,本发明采用以下技术方案。

本发明提供了电力语料自动补全标注方法,包括以下步骤:获取基础电力语料,获取所述基础电力语料对应的分词;对获取的所述基础电力语料对应的分词完成电力语料自动补全标注。

进一步地,利用分词模块获取所述基础电力语料对应的分词,所述分词模块的训练方法如下:

利用分词模块对输入的基础电力语料进行初始分词;

对初始分词结果按照设定的n-gram组合,获得对应n个分词组合,并全部分词组合添加到词典树;

对词典树的词节点完成点互信息PMI计算,词节点的左右熵计算,并以点互信息PMI、邻接熵、词频和词长作为特征,最终完成词节点特征的构建;将词节点特征作为训练集,以监督学习方式训练gbdt梯度下降树,用于判定分词是否为新词;

将判定的新词集构成专业词表,添加到分词模块。

再进一步地,点互信息PMI计算公式如下:

其中p(x)为分词x的出现概率,p(y)为分词y的出现概率,p(y|x)为分词x出现的条件下分词y的出现概率,p(x|y)为分词y出现条件下分词x的出现概率,PMI(x;y)为分词x和分词y的点互信息,p(x,y)为分词x与分词y同时出现的概率。

再进一步地,所述分词模块采用结巴分词模型。

进一步地,利用NER_RoBEATa模型(用于命名实体识别的鲁棒性优化BERT预训练方法模型)对获取的所述基础电力语料对应的分词完成电力语料自动补全标注,NER_RoBEATa模型的训练方法如下:选择特定比例的分词向量标注后作为训练集,采用NER_RoBEATa模型基于获取的缺省主语库进行标注;

计算NER_RoBEATa模型的标注效果的F1值,将F1值与预先设定的阈值进行比较,F1值大于等于阈值则结束模型训练;若F1值小于阈值则扩大训练集对NER_RoBEATa模型进行训练直至F1值大于等于阈值则结束模型训练。

进一步地,扩大训练集的方法如下:通过基于MNLP指标对分词向量排序,筛选不确定性排名前设定比例的分词作为新增训练集。

进一步地,所述MNLP指标计算公式如下:

其中y

第二方面,本发明提供了基于主动学习的电力语料自动补全标注装置,包括:分词模块以及识别标注模块,所述分词模块用于获取基础电力语料,利用预先建立的分词模块获得所述基础电力语料对应的分词;

所述识别标注模块,用于对获取的所述基础电力语料对应的分词完成电力语料自动补全标注。

进一步地,所述识别标注模块采用NER_RoBEATa模型,所述电力语料自动补全标注装置还包括分词训练模块和NER_RoBEATa模型训练模型;

所述分词模块用于对输入的基础电力语料进行初始分词;

所述分词模块训练模块,用于对初始分词结果按照设定的n-gram组合,获得对应n个分词组合,并全部分词组合添加到词典树;对词典树的词节点完成点互信息

所述NER_RoBEATa模型训练模型,用于选择特定比例的分词向量标注后作为训练集,采用NER_RoBEATa模型进行识别标注;计算NER_RoBEATa模型的识别效果的F1值,将F1值与预先设定的阈值进行比较,F1值大于等于阈值则结束模型训练;若F1值小于阈值则扩大训练集对NER_RoBEATa模型进行训练直至F1值大于等于阈值则结束模型训练

本发明还提供了一种计算机程序产品,其包括当被加载和在计算机系统上执行时导致所述计算机系统实施根据如以上技术方案任意一种可能的实施方式所提供的所述的方法的操作。

本发明所取得的有益技术效果:

本发明将故障处理预案等纯文本电力语料,补全缺省内容,完成自动化标注,减少重复且繁琐的人工标注过程,降低了工作人员的工作量,缩短电力文本的处理时间,积累大量可利用的标注处理的电力语料。

附图说明

图1为本发明实施例提供的基于主动学习的电力语料自动补全标注的逻辑架构图;

图2为本发明具体实施例中分词模块的处理流程示意图;

图3为本发明具体实施例中识别标注模块的处理流程图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步说明。

实施例1:一种基于主动学习的电力语料自动标注方法,包括:获取基础电力语料,获取所述基础电力语料对应的分词;对获取的所述基础电力语料对应的分词完成电力语料自动补全标注。本实施例中利用分词模块获取所述基础电力语料对应的分词,所述分词模块的训练方法如下:

利用分词模块对输入的基础电力语料进行初始分词;

对初始分词结果按照设定的n-gram组合,获得对应n个分词组合,并全部分词组合添加到词典树;

对词典树的词节点完成点互信息PMI计算,词节点的左右熵计算,并以点互信息PMI、邻接熵、词频和词长作为特征,最终完成词节点特征的构建;将词节点特征作为训练集,以监督学习方式训练gbdt梯度下降树,用于判定分词是否为新词;

将判定的新词集构成专业词表,添加到分词模块。

本实施例中点互信息PMI计算公式如下:

其中p(x)为分词x的出现概率,p(y)为分词y的出现概率,p(y|x)为分词x出现的条件下分词y的出现概率,p(x|y)为分词y出现条件下分词x的出现概率。

在本实施例中所述分词模块采用结巴分词模型,可选地在其它实施例中也可以采用其它分词模型进行分词,本发明不再详细描述。

本实施例中利用NER_RoBEATa模型对获取的所述基础电力语料对应的分词完成电力语料自动补全标注,NER_RoBEATa模型的训练方法如下:选择特定比例的分词向量标注后作为训练集,采用NER_RoBEATa模型基于获取的缺省主语库进行标注;

计算NER_RoBEATa模型的标注效果的F1值,将F1值与预先设定的阈值进行比较,F1值大于等于阈值则结束模型训练;若F1值小于阈值则扩大训练集对NER_RoBEATa模型进行训练直至F1值大于等于阈值则结束模型训练。F1值为人工智能领域里公知的评价标准,本申请对其不再介绍。可选地,扩大训练集的方法如下:通过基于MNLP指标对分词向量排序,筛选不确定性排名前设定比例(本实施例选择5%)的分词作为新增训练集。

所述MNLP(Maximum Normalized Log-Probability,最大归一化对数概率)指标计算公式如下:

其中y

实施例2:一种基于主动学习的电力语料自动标注方法,本实施例中方法的具体构成如图1所示,包括以下步骤:将预先获取的各故障处理预案等基础电力语料素材,各级标题按规则抽取主语建立缺省主语库;

对电力语料素材进行切分,构建词典树节点;计算词典树词节点的点互信息PMI与邻接熵质量指标,构建词节点的特征向量;以监督学习方式训练gbdt模型,筛选新的短语,生成分词模块中结巴模型的专业词表。

利用分词模块对电力语料素材进行分词,将分词模块的分词结果,以主动学习方式,基于预先建立的缺省主语库选择部分分词进行补全标注,标注结果训练NER标注模型;NER标注模型识别实体并标注,判定标注结果质量指标是否达到标准,未达标准则对未标注的分词结果排序,选择其中最不确定的少量分词标注并继续训练。

本实施例中,抽取主语建立缺省主语库包括:通过定制的抽取规则,获取语料素材中的各级标题中的主语以及下属段落,建立对应id,构建缺省主语库。

对电力语料素材进行切分构建词典树节点包括:以文件为单位,将以标点符号为分隔符,将语料文本中的长句转换为一系列短句,每条短句确立所属子标题段落的id;

本实施例中生成分词模块中结巴模型的专业词表的流程如图2所示,包括:

第一步:对电力语料切分,切分为短句集合;将每一条短语用结巴算法分词,生成一列词语;

第二步:将所有词语用n-gram方式,生成1至3阶词典词语,作为词典树节点构建词典树。本实施例中n取4,生成1至3阶分词组合,即分词1、分词1_分词2、分词1_分词2_分词3,并添加到词典树。

第三步:通过词典树的检索,进行词节点的点互信息计算,词节点的左右熵计算以及最终词节点的特征构建,即点态互(也就是点互信息),邻接熵,词频,词长作为特征。

点互信息PMI计算公式如下:

这个指标来衡量两个分词之间的相关性,其中p(x)与p(y)为两个分词的出现概率。

第四步:将词节点特征作为训练集,以监督学习方式训练gbdt梯度下降树,用于判定分词是否为新词;

第五步:将判定的新词集构成专业词表,添加到结巴分词模型。

本实施例中NER标注模型采用NER_RoBEATa模型,NER_RoBEATa模型是Bert模型的改进版本,改进了训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据。该模型的结构为现有技术,本发明中不再赘述。

本实施例中采用选择doccano标注工具对最不确定的少量分词标注,doccano标注工具可用于对分词模块输出的分词结果进行人工标注工作,标注后形成NER_RoBEATa模型的训练集。本实施例中主动学习标注的流程如图3所示,包括如下步骤:

第一步:随机选取5%的分词短句,通过分词短句所属段落id,匹配对应的缺省主语;

第二步:判断是否缺省主语,补全分词短句,用doccano标注工具标注类别,生成JSON格式训练集;

第三步:训练NER_RoBEATa模型,并人工计算识别结果的F1值,超过一定阈值,则结束模型训练;

第四步:未达到阈值,则通过基于Maximum Normalized Log-Probability指标对分词向量排序,筛选不确定性排名前5%的分词作为新增训练集,继续训练NER_RoBEATa模型。

进一步的,MNLP指标计算公式如下:

其中y

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

相关技术
  • 电力语料自动补全标注方法和装置
  • 一种语料标注方法、构造语料方法及装置
技术分类

06120112858920