掌桥专利:专业的专利平台
掌桥专利
首页

一种基于Hadoop的电网数据处理方法及系统

文献发布时间:2023-06-19 19:30:30


一种基于Hadoop的电网数据处理方法及系统

技术领域

本发明涉及智能电网技术领域,具体是一种基于Hadoop的电网数据处理方法及系统。

背景技术

随着社会电力能源需求量不断增加,电网智能化也在不断深入发展;智能电网中客户侧用能控制系统作为连接客户和智慧能源服务平台的纽带,是支撑客户侧泛在电力物联网的重要手段,也是落实需求响应及能效提升等各类综合能源业务的执行单元。

随着电网规模的不断扩大,使得电网运行的复杂度不断增加,数据安全风险的问题也在日益突出,针对电网对数据采集监控、需求响应等共性需求认识不足,开发成本高,可移植和复用性差等缺陷,有必要利用基于大数据分析相关技术实现电网数据安全态势存储、电网数据挖掘与分析以及电力终端安全防护。

发明内容

本发明目的在于提供一种基于Hadoop的电网数据处理方法及系统,实现电网数据安全态势存储、电网数据挖掘与分析以及电力终端安全防护,同时解决现有技术开发成本高、可移植和复用性差等问题。

一种基于Hadoop的电网数据处理方法,包括以下步骤:

步骤一:基于Hadoop的电网数据挖掘与分析技术采集电网大数据,所述电网大数据包括电网的实时数据信息、设备参数数据、发电及负荷数据;

步骤二:基于MapReduce技术将采集的所述电网大数据存储和管理在电网大数据存储平台进行数据安全态势存储;

步骤三:建立零信任框架实现电力终端安全防护。

进一步的,所述基于Hadoop的电网数据挖掘与分析技术采用数据采集层、数据存储层、业务应用层和用户层实现;

所述数据采集层,采用分布式定向采集体系架构且以不同网络中的终端站点作为网络数据采集的一个基本任务单位来对原始网络数据进行采集,并向数据存储层汇聚传输,其中,每个基本任务单位采用独立的采集规则及策略;

所述数据存储层,用于完成数据的原始数据的汇聚、存储及原始处理,并提供不同类型的功能调用服务,所述数据存储层采用Hadoop框架实现;

所述业务应用层,用于调取数据存储层处理后的网络数据并进行分析,来实现公有组件与个性业务应用组件剥离,并将网络数据分析后的结果传送至用户层进行实时展示;

所述用户层,用于传输与展示业务应用层的数据信息。

进一步的,所述基本任务单位包括数据采集单元,用于通过动态网页采集方法和网页信息抽取方法对数据进行采集,采用基于行块分布函数的方法抽取信息,进而获取数据。

进一步的,所述数据采集单元通过广度遍历站点获取Feed地址,对每个Feed地址对应的信息进行实时采集,跟踪更新信息,以增量更新方式采集信息。

进一步的,所述采集规则及策略包括垂直搜索模板半自动生成技术、动态页面优化访问技术和智能化的抓取进程调度策略。

进一步的,所述数据存储层中对原始数据的处理,包括采用窗口技术来分块所要处理的数据、采用滑窗模型来描述流数据的变化及使用滑窗模型保存原有数据中的模式。

进一步的,使用滑窗模型保存原有数据中的模式,具体为:

根据数据的变化分块数据,将未变化部分数据的模式存入滑窗;分别计算添加和删除部分数据的模式;根据变化部分数据的模式,更新滑窗中所保存的模式;

使用多窗口方法,支持用户的在线挖掘请求;多窗口方法将数据流划分为多个固定长度的段,每个段都形成一个窗口,当内存中的窗口数达到一定数目时,将这多个窗口合并,形成概要层次更高的窗口随着数据流的流入,概要层次不同的多个窗口形成一个层次结构,此时每个窗口相当于对数据流上两个预定义的时间戳之间数据的一个快照。

进一步的,所述基于MapReduce技术进行数据安全态势存储,包括以下步骤:

步骤2.1:调取用户层的数据信息输入至user program;

步骤2.2:MapReduce库将user program的输入文件划分为M份,M为用户定义;

步骤2.3:被分配Map作业的worker读取对应分片的输入数据,Map作业从输入数据中抽取出键值对,每一个键值对都作为参数传递给map函数,map函数产生的中间键值对被缓存在内存中;

步骤2.3:缓存的中间键值被定期写入本地磁盘,而且被分为R个区,R的大小由用户定义,将来每个区会对应一个Reduce作业;中间键值对的位置会被通报给master,master负责将信息转发给Reduce worker;

步骤2.5:master通知分配Reduce作业的worker负责的分区的具体位置,当Reduceworker把所有负责的中间键值读取后,对中间键值进行排序,使得相同键的键值对聚集在一起;

步骤2.5:reduce worker遍历排序后的中间键值对,对于每个唯一的键,将键与关联的值传递给reduce函数,reduce函数产生的输出会添加到这个分区的输出文件中;

步骤2.7:当所有的Map和Reduce作业完成,master唤醒user program,MapReduce函数调用返回user program的代码。

进一步的,所述建立零信任框架实现电力终端安全防护,包括以下步骤:

步骤3.1、构建零信任模块,对电力终端设备的设备信息,进行采集,并根据采集的设备信息进行信任评分,给出信任值,根据信任值对电力终端设备进行评估,将电力终端设备分为可信任设备、异常设备;

步骤3.2、对步骤3.1中的可信任设备进行数据采集,获得采集数据;

步骤3.3、构建安全态势感知模块,对步骤3.2中的采集数据进行态势感知,当感知合格后,将采集的数据转换为感知数据;

步骤3.4、构建实时管控模块,对步骤3.3中的感知数据进行管控,并生成安全指令;

步骤3.5、将步骤3.4的安全指令下发给电力终端设备,对电力终端设备进行安全防护以及安全加固。

一种基于Hadoop的电网数据处理系统,包括:计算机可读存储介质和处理器;

所述计算机可读存储介质用于存储可执行指令;

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行所述的基于Hadoop的电网数据处理方法。

本发明面向电网数据安全业务提升安全防护能力,提升数据安全事件识别准确率,溯源时效性,降低数据被篡改、破坏、外泄的几率,促进数据流转,充分发挥电网数据价值,符合国家对数据共享交换的要求,为利用数据创新、挖掘数据红利、推动数据经济提供支撑。

附图说明

图1为本发明实施例一种基于Hadoop的电网数据处理方法的流程图;

图2为本发明实施例中基于MapReduce技术进行数据安全态势存储的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明第一方面提供一种基于Hadoop的电网数据处理方法,包括以下步骤:

步骤一:基于Hadoop的电网数据挖掘与分析技术采集电网大数据,所述电网大数据包括电网的实时数据信息、设备参数数据、发电及负荷数据;

步骤二:基于MapReduce技术将采集的所述电网大数据存储和管理在电网大数据存储平台进行数据安全态势存储;

步骤三:建立零信任框架实现电力终端安全防护。

本发明所述的基于Hadoop的电网数据挖掘与分析技术采用数据采集层、数据存储层、业务应用层和用户层实现。

所述数据采集层,采用分布式定向采集体系架构且以不同网络中的终端站点作为电网数据采集的一个基本任务单位来对实时数据信息、设备参数数据、发电及负荷数据进行采集,并向数据存储层汇聚传输;所述基本任务单位包括数据采集单元,用于通过动态网页采集方法和网页信息抽取方法对数据进行采集,采用基于行块分布函数的方法抽取信息,进而获取数据,具体的,所述数据采集单元通过广度遍历站点获取Feed地址,对每个Feed地址对应的信息进行实时采集,跟踪更新信息,以增量更新方式采集信息。其中,每个基本任务单位采用独立的采集规则及策略;所述采集规则及策略包括垂直搜索模板半自动生成技术、动态页面优化访问技术和智能化的抓取进程调度策略。

所述数据存储层,用于完成数据的原始数据的汇聚、存储及原始处理,并提供不同类型的功能调用服务;所述数据存储层采用Hadoop框架实现;

所述业务应用层,用于调取数据存储层处理后的数据并进行分析,来实现公有组件与个性业务应用组件剥离,并将网络数据分析后的结果传送至用户层进行实时展示。

所述用户层,用于传输与展示业务应用层的数据信息。

所述基于MapReduce技术进行数据安全态势存储采用分布式文件系统HDFS和MapReduce实现,所述分布式文件系统HDFS是Hadoop的文件系统,用于存储超大文件;MapReduce是Hadoop的并行编程模型,用于对分布式文件系统HDFS上存储的数据进行深度分析。

图2所示,所述基于MapReduce技术进行数据安全态势存储,包括以下步骤:

步骤2.1:调取用户层的数据信息输入至user program;

步骤2.2:MapReduce库将user program的输入文件划分为M份,M为用户定义;

步骤2.3:被分配Map作业的worker,开始读取对应分片的输入数据,Map作业数量是由M决定的,和split一一对应;Map作业从输入数据中抽取出键值对,每一个键值对都作为参数传递给map函数,map函数产生的中间键值对被缓存在内存中;

步骤2.3:缓存的中间键值会被定期写入本地磁盘,而且被分为R个区,R的大小是由用户定义的,将来每个区会对应一个Reduce作业;这些中间键值对的位置会被通报给master,master负责将信息转发给Reduce worker;

步骤2.5:master通知分配了Reduce作业的worker负责的分区的具体位置,当Reduce worker把所有它负责的中间键值对都读过来后,先对它们进行排序,使得相同键的键值对聚集在一起;

步骤2.5:reduce worker遍历排序后的中间键值对,对于每个唯一的键,都将键与关联的值传递给reduce函数,reduce函数产生的输出会添加到这个分区的输出文件中;

步骤2.7:当所有的Map和Reduce作业完成,master唤醒user program,MapReduce函数调用返回user program的代码。

所述建立零信任框架实现电力终端安全防护,包括以下步骤:

步骤3.1:构建零信任模块,对电力终端设备的设备信息,进行采集;并根据采集的设备信息进行信任评分,给出信任值;根据信任值对电力终端设备进行评估,将电力终端设备分为可信任设备、异常设备;

零信任模块采集设备信息的流程为:读取设备数据、读取规则文件、解析规则库、采集设备信息;同时,零信任模块对电力终端设备进行持续的动态设备身份验证,用以阻断虚假设备信息;信任值是身份验证的指标,根据设备的基础属性、访问时延进行综合评分获取;信任值的维护包括以下内容:

(1)信任值最大为M,最低为N;M>N

(2)信任值阈值为H,高于等于H为合法用户,低于H为非法用户;

(3)每次验证成功信任值加T;

(4)每次验证失败信任值减T;

所述信任值包括直接信任值、时延评估信任值、异常行为评估信任值,其计算公式如下:

T=T

T为信任值,T

直接信任值为S型函数,其计算公式为:

其中T

时延评估信任值根据设备应答时间进行评估,其计算公式为:

其中T

异常行为评估信任值根据设备异常行为与正常行为的占比量进行评估,其计算公式为:

其中T

A

步骤3.2:对步骤3.1中的可信任设备进行数据采集,获得采集数据;

步骤3.3:构建安全态势感知模块,对步骤3.2中的采集数据进行态势感知;当感知合格后,将采集的数据,转换为感知数据;

所述态势感知包括入侵检测、脆弱性感知、文件完整性检测、日志监控操作;

步骤3.4:构建实时管控模块,对步骤3.3中的感知数据,进行管控,并生成安全指令;

步骤3.5:将步骤3.4的安全指令下发给电力终端设备,对电力终端设备进行安全防护以及安全加固;

本发明可提升数据质量,提升数据存储安全性,提升终端安全防护,降低数据被篡改、破坏、外泄的几率,促进数据流转,充分发挥电网数据价值,符合国家对数据共享交换的要求,为利用数据创新、挖掘数据红利、推动数据经济提供支撑。

本发明另一方面提供了一种基于Hadoop的电网数据处理系统,包括:计算机可读存储介质和处理器;

所述计算机可读存储介质用于存储可执行指令;

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行第一方面所述的基于Hadoop的电网数据处理方法。

本发明另一方面提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面所述的基于Hadoop的电网数据处理方法。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

相关技术
  • 基于HADOOP的数据处理方法、访问代理装置和系统
  • 一种基于Hadoop的输电网络节点数据分析系统及方法
  • 一种基于Hadoop的车辆大数据处理方法和系统
技术分类

06120115934014