掌桥专利:专业的专利平台
掌桥专利
首页

一种电力文本信息提取方法、装置、终端设备及存储介质

文献发布时间:2023-06-19 13:29:16


一种电力文本信息提取方法、装置、终端设备及存储介质

技术领域

本发明涉及文本信息处理领域,尤其涉及一种电力文本信息提取方法、装置、终端设备及计算机可读存储介质。

背景技术

随着信息化的快速发展,在电力行业中积累的文本数据越来越多。例如电力操作规则、运维记录、调度记录、电量电费营销数据、95598客服数据、故障检修等存在着大量的文本数据。该数据通常包含电力的关键要素,如时间、地点、人物、事件、结果、手段等,对电力的描述最为具体,包含的信息量大。然而,这些电力数据通常规范性不高,缺乏结构化信息,难以辅助科学决策,实现精细化服务。因此如何对海量电力文本进行信息挖掘、分析研判,充分发挥电力数据的价值,促进电网智能化发展,成为一项亟需解决的问题。

由于电力业务类型的不同,需要提取的电力文本关键信息也不同,导致各种类型工单需要提取的要素字段差异较大,现有技术的电力文本信息提取方法采用的模型识别提取的精度较低,无法快速、准确地提取电力文本的关键信息。

发明内容

针对上述问题,本发明实施例的目的在于提供一种电力文本信息提取方法、装置、终端设备及存储介质,能根据不同类别的电力文本数据选择对应的电力信息提取模型进行电力文本信息提取,提高了电力文本信息提取的精度。

为了实现上述目的,本发明实施例第一方面提供了一种电力文本信息提取方法,包括:获取电力文本数据;基于预设电力信息分类模型和所述电力文本数据,获得电力文本数据的文本类别;基于预设电力信息提取模型和所述电力文本数据的文本类别,对每个类别的电力文本数据进行信息提取,获得结构化的电力文本信息;对所述结构化的电力文本信息进行标准化处理,得到标准化的电力文本信息;所述标准化处理包括时间信息标准化处理和地点信息标准化处理。

优选地,所述方法通过以下步骤获得所述预设电力信息分类模型:获取用户预先设置的电力文本类别;根据所述预先设置的电力文本类别对所述电力文本数据进行分类标注;根据预设比例将分类标注的电力文本数据划分第一训练集和第一验证集;基于ALBERT模型,使用所述第一训练集的数据进行训练,获得所述预设电力信息分类模型。

优选地,所述基于预设电力信息分类模型和所述电力文本数据,得到电力文本数据的文本类别具体包括:基于所述预设电力信息分类模型,采用ALBERT算法提取所述电力文本数据的字向量;利用分类器对所述字向量进行分类,得到所述电力文本数据的文本类别。

优选地,所述方法通过以下步骤获得预设电力信息提取模型:获取用户预先设置的电力文本类别和所述电力文本数据中需要提取的信息属性字段;根据所述预先设置的电力文本类别分别建立信息提取标注任务,并根据所述信息属性字段将每个类别的电力文本数据导入到对应类别的信息提取标注任务进行属性标注;根据预设比例将属性标注后的电力文本数据划分第二训练集和第二验证集;基于ALBERT-BiLSTM-CRF模型,使用所述第二训练集的数据进行训练,获得所述预设电力信息提取模型;其中,所述属性标注后的电力文本数据采用BIO三段标记法进行保存。

优选地,所述基于ALBERT-BiLSTM-CRF模型,使用所述第二训练集的数据进行训练,获得所述预设电力信息提取模型具体包括:基于ALBERT-BiLSTM-CRF模型,采用ALBERT算法提取所述第二训练集的数据的n维字向量;将所述n维字向量输入到BiLSTM网络,对所述BiLSTM网络进行训练并得到序列矩阵L;根据所述序列矩阵L,采用CRF算法对所述ALBERT-BiLSTM-CRF模型进行训练,得到所述预设电力信息提取模型。

优选地,所述对所述结构化的电力文本提取信息进行标准化处理具体包括:根据用户预设的时间属性信息和地点属性信息,对所述结构化的电力文本信息中的时间要素文本信息和地点要素文本信息进行时间标准化处理和地点标准化处理。

本发明实施例第二方面提供了一种电力文本信息提取装置,其特征在于,包括:信息获取模块,用于获取电力文本数据;信息分类模块,用于基于预设电力信息分类模型和所述电力文本数据,得到电力文本数据的文本类别;信息提取模块,用于基于预设电力信息提取模型和所述电力文本数据的文本类别,对每个类别的电力文本数据进行信息提取,得到结构化的电力文本信息;标准化处理模块,用于对所述结构化的电力文本信息进行标准化处理,得到标准化的电力文本信息;所述标准化处理包括时间信息标准化处理和地点信息标准化处理。

进一步地,所述装置还包括分类模型获取模块,所述分类模型获取模块用于:获取用户预先设置的电力文本类别;根据所述预先设置的电力文本类别对所述电力文本数据进行分类标注;根据预设比例将分类标注的电力文本数据划分第一训练集和第一验证集;基于ALBERT模型,使用所述第一训练集的数据进行训练,获得所述预设电力信息分类模型;

所述装置还包括提取模型获取模块,所述提取模型获取模块用于:获取用户预先设置的电力文本类别和所述电力文本数据中需要提取的信息属性字段;根据所述预先设置的电力文本类别分别建立信息提取标注任务,并根据所述信息属性字段将每个类别的电力文本数据导入到对应类别的信息提取标注任务进行属性标注;根据预设比例将属性标注后的电力文本数据划分第二训练集和第二验证集;基于ALBERT-BiLSTM-CRF模型,使用所述第二训练集的数据进行训练,获得所述预设电力信息提取模型;其中,所述属性标注后的电力文本数据采用BIO三段标记法进行保存。

本发明实施例第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如第一方面任一项所述的电力文本信息提取方法。

本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如第一方面任一项所述的电力文本信息提取方法。

相比于现有技术,本发明实施例的有益效果在于:本发明实施例提供的一种电力文本信息提取方法、装置、终端设备及存储介质,在对电力文本数据进行信息提取之前,先对电力文本数据进行分类,根据不同类别的电力文本数据选择不同的电力信息提取模型,避免仅通过一个模型提取所有类别的电力文本数据的要素信息字段,提高了电力文本信息提取的效率和精度。

附图说明

图1是本发明提供的一种电力文本信息提取方法的一个优选实施例的流程示意图;

图2是本发明提供的一种电力文本信息提取方法中获取电力信息分类模型的一个优选实施例的流程示意图;

图3是本发明提供的一种电力文本信息提取方法中获取电力信息分类模型的一个优选实施例的流程示意图;

图4是本发明提供的一种电力文本信息提取装置的一个优选实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,是本发明提供的一种电力文本信息提取方法的一个优选实施例的流程示意图。

本发明实施例第一方面提供了一种电力文本信息提取方法,包括步骤S1至步骤S5,具体如下:

步骤S1:获取电力文本数据。

步骤S2:基于预设电力信息分类模型和所述电力文本数据,获得电力文本数据的文本类别。

需要说明的是,在电力文本信息提取中,主要提取信息主要包括时间、地点、人物、事件、结果、手段等方面,但是由于电力业务类别多种多样,不同类别的电力文本数据需要提取的关键要素也存在差异。例如,95598客服工单需要提取的信息要素如表1所示:

表1:95598客服工单需要提取的信息要素

因此,在提取电力文本信息前先对电力文本数据进行分类,能避免仅通过一个模型提取所有类别的电力文本数据的要素信息字段,提高电力文本信息提取的效率和精度。

如图2所示,在另一个优选实施例中,上述步骤S2中获取预设电力信息分类模型具体包括步骤S21至S24,如下:

步骤S21:获取用户预先设置的电力文本类别。

需要说明的是,在模型训练之前,用户可以自定义电力文本类别,例如自定义文本类别为:反馈、建议、表扬、举报、投诉、保修、停电。

步骤S22:根据所述预先设置的电力文本类别对所述电力文本数据进行分类标注。

优选地,在对所述电力文本数据进行分类标注时,将所述电力文本数据的文本类别设置为所述预先设置的电力文本类别的其中一种,对每种类别标注1000条电力文本数据。

步骤S23:根据预设比例将分类标注的电力文本数据划分第一训练集和第一验证集。

优选地,根据8:2的比例将分类标注的电力文本数据划分第一训练集和第一验证集。

步骤S24:基于ALBERT模型,使用所述第一训练集的数据进行训练,获得所述预设电力信息分类模型。

优选地,所述基于ALBERT模型,使用所述第一训练集的数据进行训练,获得所述预设电力信息分类模型具体包括:所述ALBERT模型为Google开源的中文预训练ALBERT模型,基于所述ALBERT模型,使用ALBERT算法提取所述第一训练集的数据的字向量,使用所述字向量对分类器进行微调(fine tuning)训练,获得所述预设电力信息分类模型。

需要说明的是,微调指将预训练的模型作用于自己的数据集,并在训练过程中自动进行模型的参数调整,使参数适应于自己的数据集。

由于ALBERT模型中处理的最大字符为512,因此所述电力文本数据序列长度最长不超过512字符,即单个电力文本数据需缩减至512字符以内,一般情况下的电力文本数据都能满足该条件。对于大于512字符的电力文本数据,本发明实施例采取直接截断的方式进行处理,该处理方法对语义的判断产生的影响较小,通过前面512个字符基本能够判断出所述电力文本数据的电力文本类别。在基于ALBERT模型进行训练时,在所述电力文本数据的首部和尾部分别拼接[CLS]和[SEP],对于序列长度不足512字符的电力文本数据,使用“0”进行填充。训练时将批次大小设置成64,学习率为5×10

优选地,在又一个优选的实施例中,上述步骤S2中基于预设电力信息分类模型和所述电力文本数据,获得电力文本数据的文本类别具体包括:基于所述预设电力信息分类模型,采用ALBERT算法提取所述电力文本数据的字向量;利用分类器对所述字向量进行分类,得到所述电力文本数据的文本类别。

步骤S3:基于预设电力信息提取模型和所述电力文本数据的文本类别,对每个类别的电力文本数据进行信息提取,获得结构化的电力文本信息。

如图3所示,在又一个优选实施例中,上述步骤S3中获取预设电力信息提取模型具体包括步骤S31至S34,如下:

步骤S31:获取用户预先设置的电力文本类别和所述电力文本数据中需要提取的信息属性字段。

步骤S32:根据所述预先设置的电力文本类别分别建立信息提取标注任务,并根据所述信息属性字段将每个类别的电力文本数据导入到对应类别的信息提取标注任务进行属性标注。

针对每个信息提取标注任务,用户可以自定义需要提取的要素信息字段,具体为:通过在电力文本中选取相应的文本信息,设置相应的属性来完成电力文本数据的标注。

步骤S33:根据预设比例将属性标注后的电力文本数据划分第二训练集和第二验证集。其中,所述属性标注后的电力文本数据采用BIO三段标记法进行保存。

优选地,根据8:2的比例将属性标注后的电力文本数据划分第二训练集和第二验证集。

需要说明的是,BIO三段标记法的做法是将每个要素信息字段的第一个字标记为“B-(属性名称)”,后续的标记为“I-(属性名称)”,对于无关的字一律标记为“0”。例如一个句子为:“在上海市松江区发生一起停电事件”,如果只是标注地址属性(Location),则采用BIO三段标记法对该句子进行标注为:[O][B_Location][I_Location][I_Location][I_Location][I_Location][I_Location][O][O][O][O][O][O][O][O]。

步骤S34:基于ALBERT-BiLSTM-CRF模型,使用所述第二训练集的数据进行训练,获得所述预设电力信息提取模型。

优选地,ALBERT模型采用Google开源的中文预训练ALBERT模型。ALBERT模型对BERT模型作出了进一步的改进,减小了模型的参数量,加快了训练速度。ALBERT的骨干网络与BERT相似,也使用Transformer编码器和GELU非线性激活函数。自然语言处理使用的词典大小V一般非常庞大,如果词嵌入大小E恒等于隐藏层大小H,那么增加隐藏层大小H将直接加大词嵌入矩阵的大小O(V×E)。因此ALBERT对词嵌入参数进行因式分解,将大的词嵌入矩阵O(V×H)分解为两个小的矩阵O(V×E+E×H),不再将one-hot向量直接映射到大小为H的隐藏空间,而是先将它们映射到一个低维词嵌入空间E,然后再映射到隐藏空间。从而将隐藏层的大小H与词嵌入的大小E分离开来。显著较少了参数量。其次,ALBERT提出隐藏层参数共享机制,在ALBERT中,全连接层、注意力层的参数均是共享的,也就是ALBERT依然有多层的深度连接,但是各层之间的参数是一样的。

长短期记忆(Long Short Term Memory,LSTM)神经网络是指一类具有记忆单元的循环神经网络。每个LSTM单元里最重要的是门控单元,分别为输入门、遗忘门和输出门,均使用前一时刻的隐藏单元与当前时刻信号作为门控单元的输入,利用Sigmoid函数作为非线性激活函数。由于序列标注任务中,每个字的标签与上下文均相关,因此采用了双向的BiLSTM模型,该模型进一步提升了模型利用上下文信息的能力。

条件随机场(CRF)是序列标注任务中的一种常见算法,因此可以用于标注实体类别。序列标注模型中常使用的是线性链条件随机场,是一种根据输入序列预测输出序列的判别式模型。CRF应用到序列标注任务主要是根据BiLSTM模型的预测输出序列求出使得目标函数最优化的序列。

优选地,在又一个优选实施例中,上述步骤S34中基于ALBERT-BiLSTM-CRF模型,使用所述第二训练集的数据进行训练,获得所述预设电力信息提取模型具体包括:

S341:基于ALBERT-BiLSTM-CRF模型,采用ALBERT算法提取所述第二训练集的数据的n维字向量。

利用ALBERT模型获取输入文本信息中的字向量,记为序列X=(x

S342:将所述n维字向量输入到BiLSTM网络,对所述BiLSTM网络进行训练并得到序列矩阵L。

将所述n维字向量作为BiLSTM网络各个时间步的输入,得到各个BiLSTM层的隐状态序列,接着采用线性输出层将隐状态序列映射到s维(s为所述第二训练集的属性类别数目),得到序列矩阵L=(l

S343:根据所述序列矩阵L,采用CRF算法对所述ALBERT-BiLSTM-CRF模型进行训练,得到所述预设电力信息提取模型。

CRF层对所述序列矩阵L进行优化处理,结合CRF中的状态转移矩阵,根据相邻之间的属性类别得到一个全局最优序列。

需要说明的是,在信息提取任务中,设置所述预设电力信息提取模型允许的最大字符数为256个字符,并对超过该长度的电力文本进行分割,将超过该长度的电力文本分成多个电力文本分句,先按照句号、感叹号、问号进行分割,如果存在整句仍超过该长度的再按照分号、逗号进行分割如果仍存在大于256字符的情况则进行直接从中间部分截成两段,最后根据分割截取的小段拼接成小于256字符的大段,尽量使得电力段落的语义保持完整,保持上下文信息的关联性。训练时批次大小设置成64,学习率为5×10

步骤S4:对所述结构化的电力文本信息进行标准化处理,得到标准化的电力文本信息;所述标准化处理包括时间信息标准化处理和地点信息标准化处理。

优选地,所述对所述结构化的电力文本提取信息进行标准化处理具体包括:根据用户预设的时间属性信息和地点属性信息,对所述结构化的电力文本信息中的时间要素文本信息和地点要素文本信息进行时间标准化处理和地点标准化处理。

优选地,所述时间标准化处理包括:通过"[0-9]{4}年"、"[0-9]{1,2}月"、"[0-9]{1,2}日"、"[0-9]{0,2}[时|点]"、"[0-9]{0,2}分"、"[0-9]{0,2}秒"正则表达式直接确定时间要素“年、月、日、时、分、秒”;如果时间要素文本中出现了“夜”、“下午”、“晚上”,并且通过"[0-9]{0,2}[时|点]"确定的小时数小于12,则令小时数加12;如果时间要素“年、月、日、时、分、秒”中单一要素缺失,则根据提取的其他时间要素做综合判断,进行填充;将时间要素进行标准化处理形成“yyyyMMddHHmmss”14位数字格式的标准案发时间。

优选地,所述地点标准化处理包括:通过正则表达式的方式提取出相应的地址要素,如通过匹配“[省|市|自治区]”提取一级行政区,匹配“[市|州|盟|自治州]”提取二级行政区,匹配“[县|区|旗|市|州|自治州|林区|新区]”提取三级行政区,匹配“[街道办|办事处|街道办事处|街道|胡同|弄堂|镇|乡|苏木|开发区|公所|农场|林场]”提取四级行政区,村级、路、路号、小区、楼号、单元号、户号等也是通过相应的正则表达式进行提取,这里不详细列举。对于前四级行政区,如果存在地址要素字段缺失,可以通过查找数据库方式进行补全。同时一个电力中如果提取到多个地址,则综合多个地址进行补全。

在本发明实施例中,所述电力文本信息提取方法在对电力文本数据进行信息提取之前,先对电力文本数据进行分类,根据不同类别的电力文本数据选择不同的电力信息提取模型,避免仅通过一个模型提取所有类别的电力文本数据的要素信息字段,提高了电力文本信息提取的效率和精度。

参见图4,本发明实施例第二方面提供了一种电力文本信息提取装置,包括:

信息获取模块101,用于获取电力文本数据;

信息分类模块102,用于基于预设电力信息分类模型和所述电力文本数据,得到电力文本数据的文本类别;

信息提取模块103,用于基于预设电力信息提取模型和所述电力文本数据的文本类别,对每个类别的电力文本数据进行信息提取,得到结构化的电力文本信息;

标准化处理模块104,用于对所述结构化的电力文本信息进行标准化处理,得到标准化的电力文本信息;所述标准化处理包括时间信息标准化处理和地点信息标准化处理。

进一步地,所述装置还包括分类模型获取模块105,所述分类模型获取模块105用于:获取用户预先设置的电力文本类别;根据所述预先设置的电力文本类别对所述电力文本数据进行分类标注;根据预设比例将分类标注的电力文本数据划分第一训练集和第一验证集;基于ALBERT模型,使用所述第一训练集的数据进行训练,获得所述预设电力信息分类模型。

进一步地,所述装置还包括提取模型获取模块106,所述提取模型获取模块106用于:获取用户预先设置的电力文本类别和所述电力文本数据中需要提取的信息属性字段;根据所述预先设置的电力文本类别分别建立信息提取标注任务,并根据所述信息属性字段将每个类别的电力文本数据导入到对应类别的信息提取标注任务进行属性标注;根据预设比例将属性标注后的电力文本数据划分第二训练集和第二验证集;基于ALBERT-BiLSTM-CRF模型,使用所述第二训练集的数据进行训练,获得所述预设电力信息提取模型;其中,所述属性标注后的电力文本数据采用BIO三段标记法进行保存。

进一步地,所述信息分类模块102还用于:采用ALBERT算法提取所述电力文本数据的字向量;利用分类器对所述字向量进行分类,得到所述电力文本数据的文本类别。

进一步地,所述提取模型获取模块103还用于:基于ALBERT-BiLSTM-CRF模型,采用ALBERT算法提取所述第二训练集的数据的n维字向量;将所述n维字向量输入到BiLSTM网络,对所述BiLSTM网络进行训练并得到序列矩阵L;根据所述序列矩阵L,采用CRF算法对所述ALBERT-BiLSTM-CRF模型进行训练,得到所述预设电力信息提取模型。

进一步地,所述标准化处理模块104还用于:根据用户预设的时间属性信息和地点属性信息,对所述结构化的电力文本信息中的时间要素文本信息和地点要素文本信息进行时间标准化处理和地点标准化处理。

需要说明的是,本发明实施例所提供的一种电力文本信息提取装置,能够实现上述任一实施例所述的电力文本信息提取方法的所有流程,装置中的各个模块的作用以及实现的技术效果分别与上述实施例所述的电力文本信息提取方法的作用以及实现的技术效果对应相同,这里不再赘述。

本发明实施例第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的电力文本信息提取方法。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如第一方面任一实施例所述的电力文本信息提取方法。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

相关技术
  • 一种电力文本信息提取方法、装置、终端设备及存储介质
  • 一种文本信息提取方法、装置、电子设备及存储介质
技术分类

06120113692804