掌桥专利:专业的专利平台
掌桥专利
首页

基于知识图谱的电力异常数据根源定位方法及系统

文献发布时间:2023-06-19 19:30:30


基于知识图谱的电力异常数据根源定位方法及系统

技术领域

本发明属于电气自动化领域,具体涉及一种基于知识图谱的电力异常数据根源定位方法及系统。

背景技术

随着经济技术的发展和人们生活水平的提高,电能已经成为了人们生产和生活中必不可少的二次能源,给人们的生产和生活带来了无尽的便利。因此,保障电能的稳定可靠供应,就成为了电力系统最重要的任务之一。

电力异常数据是电力系统中必须及时定位的数据。电力数据的大规模性、跨部门性和跨专业性决定电力异常数据根源定位工作的难度。由于电力企业的数据资产呈现典型的大数据特征,电力数据覆盖电力生产和电力营销和电力调度各个环节,包括电网运行、设备管理、营销服务和企业管理等各类数据,在每个环节都可能产生异常数据。电力数据的丰富性导致数据的专业化和智能化要求越来越高,在这个过程中就会产生大量数据质量问题,这为异常数据根源定位增加了难度。

目前,电力异常数据的发现主要靠被动的规则核查和脚本手动核查。由于异常数据涉及的业务复杂、系统很多、数据量很大,传统的数据异常发现方式耗时费力,效率低下,发现一类异常数据平均耗时48小时。

发明内容

本发明的目的之一在于提供一种可靠性高、准确性好且效率较高的基于知识图谱的电力异常数据根源定位方法。

本发明的目的之二在于提供一种实现所述基于知识图谱的电力异常数据根源定位方法的系统。

本发明提供的这种基于知识图谱的电力异常数据根源定位方法,包括如下步骤:

S1.获取目标电力系统的数据信息;

S2.根据步骤S1获取的数据信息,进行数据资产的梳理;

S3.根据步骤S2的梳理结果,进行数据的知识抽取;

S4.根据步骤S3得到的知识抽取结果,构建对应的知识图谱;

S5.基于自然语言处理技术,对步骤S4构建的知识图谱进行图谱迭代;

S6.基于广度优先算法、深度优先算法和最短路径算法,对步骤S5得到的知识图谱进行搜索,完成电力异常数据的根源定位。

步骤S2所述的根据步骤S1获取的数据信息,进行数据资产的梳理,具体包括如下步骤:

数据资产包括源端数据系统;数据按照物理模型方式导入到设定的数据路径中,同时按照设计的数据模型,输入数据资产中表与字段的对应关系以及表的详细路径。

步骤S3所述的根据步骤S2的梳理结果,进行数据的知识抽取,具体包括如下步骤:

对梳理完毕的数据资产,获取数据内容;

将获取的数据,按照实体-关系-实体的数据结构构成三元组;

所述的实体包括角色、业务、流程、数据、规则和整改;所述的关系包括角色-业务关系、业务-流程关系、流程-数据关系、数据-规则关系和规则-整改关系。

步骤S4所述的根据步骤S3得到的知识抽取结果,构建对应的知识图谱,具体包括如下步骤:

将知识抽取结果,采用独热向量的形式转换为向量;

将数据进行实体对齐;

通过元数据驱动,从纵向和横向的维度,定义并动态管理组织与角色之间的管理关系,构建图谱关系;所述的图谱关系包括组织与角色的图谱关系、角色与业务的图谱管理、业务与数据的图谱关系、数据与规则的图谱关系、规则与异常数据的图谱关系、异常数据与业务的图谱关系和异常数据与角色的图谱关系。

步骤S5所述的基于自然语言处理技术,对步骤S4构建的知识图谱进行图谱迭代,具体包括如下步骤:

提取得到待处理文本集中各个文本的关键词;

对待处理文本进行聚类,生成若干个主题文本集;

统计种子词在各个主题文本集中出现的频率:将频率超过设定阈值的主题文本集进行保留,并作为领域词典扩展的源文本集;

计算种子词与源文本集的文本中各个候选词的关联度,并将关联度达到设定阈值的候选词作为领域词存入到代扩充的词典中;

实体间关系的重新生成:结合历史实体和新生成的实体,重新构建图谱中实体的关联关系;

更新知识图谱节点和节点间的关系。

采用词的歧义切分和未登录词的识别,来获取种子词;

词的歧义切分包括如下步骤:

切分歧义的检测:通过训练得到的序列标注模型得到各种切分方法的概率,并选择概率性能优异的若干个切分方法;

切分歧义的消解:通过条件随机场模型获取文本全局最优的切分方式,并将且该切分方式作为最后的分词结果;条件随机场模型的计算公式为:

式中P(y|x)为状态序列y在观测序列x条件下的条件概率;λ

未登录词的识别包括如下步骤:

将切分好的词语与现有词库进行比较;筛选出不在词库中的词语,并将频率超过设定值的词作为未登录词;

与行业专有名词进行对比;将切分好的文本中的词通过专有名词词典识别,并将识别结果作为文本的未登录词。

步骤S6所述的基于广度优先算法、深度优先算法和最短路径算法,对步骤S5得到的知识图谱进行搜索,完成电力异常数据的根源定位,具体为基于已构建的知识图谱,采用广度优先算法、深度优先算法和最短路径算法,将异常数据中涉及的表和字段与图谱数据中的节点进行对应,定位异常数据产生的业务流程,以及流程涉及的所有实体和关系,从而发现异常数据产生的流程、环节及数据项,实现异常数据根源的定位。

所述的广度优先算法,具体包括如下步骤:

设定在节点集合p中找到节点α和β的最短路径:

首先访问节点α的所有邻接节点

然后,遍历所有邻接节点

重复以上步骤,直至访问到节点β,此时从集合S中获取最短路径。

所述的深度优先算法,具体包括如下步骤:

设定在节点集合p中找到节点α和β的最短路径:

首先访问节点α的一个邻接节点α

然后,访问节点α

重复以上步骤,当不存在未被访问的邻接节点时从节点α重新开始;直至访问到节点β,此时从集合S中获取最短路径。

所述的最短路径算法,具体包括如下步骤:

设定找到节点α和β的最短路径:

初始化dis(α

找出与顶点α

遍历所有以α

重复以上两个步骤,直至所有点都被标记为确定最短路径的点;最终确定的路径为最短路径。

本发明还公开了一种实现所述基于知识图谱的电力异常数据根源定位方法的系统,包括数据获取模块、资产梳理模块、知识抽取模块、图谱构建模块、图谱迭代模块和根源定位模块;数据获取模块、资产梳理模块、知识抽取模块、图谱构建模块、图谱迭代模块和根源定位模块依次串联;数据获取模块用于获取目标电力系统的数据信息,并将数据上传资产梳理模块;资产梳理模块用于根据接收到的数据,进行数据资产的梳理,并将数据上传知识抽取模块;知识抽取模块用于根据接收到的数据,进行数据的知识抽取,并将数据上传图谱构建模块;图谱构建模块用于根据接收到的数据,构建对应的知识图谱,并将数据上传图谱迭代模块;图谱迭代模块用于根据接收到的数据,基于自然语言处理技术,对构建的知识图谱进行图谱迭代,并将数据上传根源定位模块;根源定位模块用于根据接收到的数据,基于广度优先算法、深度优先算法和最短路径算法,对得到的知识图谱进行搜索,完成电力异常数据的根源定位。

本发明提供的这种基于知识图谱的电力异常数据根源定位方法及系统,通过计算构建知识图谱,结合自然语言处理中的解析算法和正则表达,基于并行计算算法,智能分析异常数据产生的源头;本发明能够显著提升了异常数据根源定位效率,而且可靠性高、准确性好。

附图说明

图1为本发明方法的方法流程示意图。

图2为本发明系统的功能模块示意图。

具体实施方式

如图1所示为本发明方法的方法流程示意图:本发明提供的这种基于知识图谱的电力异常数据根源定位方法,包括如下步骤:

S1.获取目标电力系统的数据信息;

S2.根据步骤S1获取的数据信息,进行数据资产的梳理;具体包括如下步骤:

数据资产包括源端数据系统(例如PMS,CMS等);数据按照物理模型方式导入到设定的数据路径中,同时按照设计的数据模型,输入数据资产中表与字段的对应关系以及表的详细路径;

S3.根据步骤S2的梳理结果,进行数据的知识抽取;具体包括如下步骤:

对梳理完毕的数据资产,获取数据内容;

将获取的数据,按照实体-关系-实体的数据结构构成三元组;

所述的实体包括角色、业务、流程、数据、规则和整改;所述的关系包括角色-业务关系、业务-流程关系、流程-数据关系、数据-规则关系和规则-整改关系;

S4.根据步骤S3得到的知识抽取结果,构建对应的知识图谱;具体包括如下步骤:

将知识抽取结果,采用独热向量的形式转换为向量;

将数据进行实体对齐;例如,同样的营销数据术语,在不同的应用场景中,含义有所不同,此时就需要进行实体消歧处理。将不同的营销业务数据进行统一,同时,根据应用场景,赋予术语不同的属性;

通过元数据驱动,从纵向和横向的维度,定义并动态管理组织与角色之间的管理关系,构建图谱关系;所述的图谱关系包括组织与角色的图谱关系、角色与业务的图谱管理、业务与数据的图谱关系、数据与规则的图谱关系、规则与异常数据的图谱关系、异常数据与业务的图谱关系和异常数据与角色的图谱关系;

S5.基于自然语言处理技术,对步骤S4构建的知识图谱进行图谱迭代;具体包括如下步骤:

提取得到待处理文本集中各个文本的关键词;

对待处理文本进行聚类,生成若干个主题文本集;

统计种子词在各个主题文本集中出现的频率:将频率超过设定阈值的主题文本集进行保留,并作为领域词典扩展的源文本集;

计算种子词与源文本集的文本中各个候选词的关联度,并将关联度达到设定阈值的候选词作为领域词存入到代扩充的词典中;

实体间关系的重新生成:结合历史实体和新生成的实体,重新构建图谱中实体的关联关系;

更新知识图谱节点和节点间的关系。

采用词的歧义切分和未登录词的识别,来获取种子词;

词的歧义切分包括如下步骤:

切分歧义的检测:通过训练得到的序列标注模型得到各种切分方法的概率,并选择概率性能优异的若干个切分方法;

切分歧义的消解:通过条件随机场模型获取文本全局最优的切分方式,并将且该切分方式作为最后的分词结果;条件随机场模型的计算公式为:

式中P(y|x)为状态序列y在观测序列x条件下的条件概率;λ

未登录词的识别包括如下步骤:

将切分好的词语与现有词库进行比较;筛选出不在词库中的词语,并将频率超过设定值的词作为未登录词;

与行业专有名词进行对比;将切分好的文本中的词通过专有名词词典识别,并将识别结果作为文本的未登录词;

在基于词典的方法中,对于给定的词,只有词典中存在的词语能够被识别,使用的方法是正向最大匹配法(MM),这种方法的效果取决于词典的覆盖度,因此需要定期更新新词;

S6.基于广度优先算法、深度优先算法和最短路径算法,对步骤S5得到的知识图谱进行搜索,完成电力异常数据的根源定位;具体为基于已构建的知识图谱,采用广度优先算法、深度优先算法和最短路径算法,将异常数据中涉及的表和字段与图谱数据中的节点进行对应,定位异常数据产生的业务流程,以及流程涉及的所有实体和关系,从而发现异常数据产生的流程、环节及数据项,实现异常数据根源的定位。

具体实施时,广度优先算法具体包括如下步骤:

广度优先搜索算法从某个点出发,第一步是访问该点的所有邻接节点,并且记录这些邻接节点,然后再访问邻接节点的邻接节点,如果邻接节点之前已经访问,则跳过此次访问,直到获取到目标节点;

设定在节点集合p中找到节点α和β的最短路径:

首先访问节点α的所有邻接节点

然后,遍历所有邻接节点

重复以上步骤,直至访问到节点β,此时从集合S中获取最短路径;

并行广度优先搜索算法是指在搜索过程中可以从多个节点同时出发进行下一步的搜索与访问,且互不干扰,极大地提高效率;

具体实施时,深度优先算法具体包括如下步骤:

深度优先搜索算法的原理是从一个节点出发寻找到下一个邻接节点后,继续寻找下一个邻接节点,直到访问到目标节点或者当前节点已被访问或者不存在邻接节点;

设定在节点集合p中找到节点α和β的最短路径:

首先访问节点α的一个邻接节点α

然后,访问节点α

重复以上步骤,当不存在未被访问的邻接节点时从节点α重新开始;直至访问到节点β,此时从集合S中获取最短路径;

深度优先搜索算法是指在搜索过程中可以从多个节点同时出发进行下一步的搜索与访问,且互不干扰,极大地提高效率;

具体实施时,最短路径算法具体包括如下步骤:

单源最短路径搜索算法支持对有权重的连接边来寻找最短路径。主要原理是假设所有顶点集合为G,设置顶点集合点集合S并不断地做贪心选择来扩充这个集合,设集合V=G-S。一个顶点属于集合S当且仅当从源到该顶点的最短路径长度已知。初始时,S中仅含有源,即起点。设u是G的其一顶点。把从源到u且中间只经过S中顶点的路称为从源到u的特殊路径,并用矩阵A记录当前每个顶点所对应的最短特殊路径长度,每次从V中取出具有最短特殊路长度的顶点,矩阵A就记录了从源到所有其它顶点之间最短路径长度;

设定找到节点α和β的最短路径:

初始化dis(α

找出与顶点α

遍历所有以α

重复以上两个步骤,直至所有点都被标记为确定最短路径的点;最终确定的路径为最短路径。

如图2所示为本发明系统的功能模块示意图:本发明公开的这种实现所述基于知识图谱的电力异常数据根源定位方法的系统,包括数据获取模块、资产梳理模块、知识抽取模块、图谱构建模块、图谱迭代模块和根源定位模块;数据获取模块、资产梳理模块、知识抽取模块、图谱构建模块、图谱迭代模块和根源定位模块依次串联;数据获取模块用于获取目标电力系统的数据信息,并将数据上传资产梳理模块;资产梳理模块用于根据接收到的数据,进行数据资产的梳理,并将数据上传知识抽取模块;知识抽取模块用于根据接收到的数据,进行数据的知识抽取,并将数据上传图谱构建模块;图谱构建模块用于根据接收到的数据,构建对应的知识图谱,并将数据上传图谱迭代模块;图谱迭代模块用于根据接收到的数据,基于自然语言处理技术,对构建的知识图谱进行图谱迭代,并将数据上传根源定位模块;根源定位模块用于根据接收到的数据,基于广度优先算法、深度优先算法和最短路径算法,对得到的知识图谱进行搜索,完成电力异常数据的根源定位。

技术分类

06120115931483