掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及电网安全领域,是一种基于改进CNN-LSTM的电网虚假数据注入辨识方法。

背景技术

随着信息和通信技术的快速发展,传统电力系统正向电力信息物理系统(CPS)转变。通过物理层和网络层的紧密耦合,电力信息物理系统的性能在可靠性及运行效率等方面对比传统电力系统有极大的提高。同时在电力信息物理系统中,系统监控部署的各种量测仪表及控制设备随时产生大量数据,物理层和网络层的大量数据进行交互,虽然使系统变得更加高效,但也增加了网络攻击的风险。虚假数据注入攻击通过状态估计中的漏洞,入侵者构建虚假数据组,篡改系统正常数据,从而改变状态变量、操控系统运行,谋取经济利益。与一般网络攻击相比,FDIA是攻击者根据电网的相关信息精心设计的数据完整性攻击,其目标是黑客入侵电网获取经济利益,对电网来说FDIA是一个巨大的威胁。

一般智能电网通常传统的基于机制建模等方法来检测虚假数据注入攻击,但是传统的方法无法满足高维异构的电力系统快速检测需求,因此通常采用机器学习及深度学习等数据驱动的方式对虚假数据注入攻击进行辨识,且在目前的电力信息物理系统背景下,广域测量系统的大面积部署为数据驱动方法提供了大数据分析基础。其中神经网络模型作为深度学习算法的重要分支,兼具检测效率和精度的优势,不需要进行复杂的时频域建模计算,设计环境相对简单,且面对不同结构的电力系统时通用性更强。广域测量系统的大规模部署为基于机器学习的虚假数据注入攻击识别方法提供了大数据支持,使基于机器学习的FDIA识别方案逐渐走向成熟。

当面对高维数据时一般的深度学习攻击辨识模型会出现训练速度慢精度低的问题,使得算法误报率偏高,检测实时性低,性能不稳定。然而大规模的电力系统通常受到空间和时间复杂度影响,数据特征更易出现高维、非线性的特点,因此特征的提取和选择成为FDIA检测的关键环节,无论采用哪种识别模型提取和筛选电力系统在正常运行状态和受攻击情况下的特征非常必要。

发明内容

本发明目的是解决电网虚假数据注入攻击识别过程中面对高维低价值密度数据对深度学习模型的训练过程中出现的训练慢精度低的问题,以及模型参数与数据规模匹配不当而造成的模型过拟合,误报率高性能不稳定的问题,从电力数据挖掘的角度,提出了一种科学高效,普适性强的基于改进CNN-LSTM的电网虚假数据注入辨识方法。

本发明的技术解决方案是:一种基于改进CNN-LSTM的电网虚假数据注入辨识方法,其特征在于:将预处理的待辨识电力运行数据样本,输入到训练好的改进堆叠自编码器特征提取模型中,并计算重构误差,计算重构数据与原始数据之间的损失,利用反向传播算法更新模型参数。并根据重构误差选择特征提取个数。

将特征提取过的待攻击辨识数据集划分为训练集、验证集、测试集,构建基于CNN-LSTM的虚假数据注入攻击辨识模型,采用训练集对模型进行训练,将验证集输入麻雀搜索算法对CNN-LSTM模型的参数进行优化,最后采用测试集对辨识结果进行验证。

上述方案中,还包括:

所述构建基于CNN-LSTM的虚假数据注入攻击辨识模型中,基于改进堆叠自编码器的虚假数据注入攻击特征提取方法步骤如下:

改进堆叠自编码器的结构,是在自编码器隐藏层之前添加了注意机制层,原始电力运行数据经过编码器进行压缩处理,得到一个隐空间的特征表示。计算每个简化特征的注意力权重向量,注意力权重决定了输入数据的不同部分在特征提取中的重要程度,如果注意力向量发现某个特定特征在攻击辨识方面没有贡献,它将把该向量中相应的特定值设为零,导致网络遗忘这一特征。将注意力权重向量和特征相乘作为输入到隐藏层的特征表示,最后经过解码器进行解码重构,计算重构数据与原始数据之间的损失,利用反向传播算法更新模型参数。

具体步骤如下:

步骤一:将简单预处理后的待进行辨识的电力系统运行数据输入进第一个自编码器,通过第一个自编码器的编码器对输入数据进行压缩处理,得到一个隐空间的特征表示。这一步将输入数据映射到较低维度的表示,捕捉输入数据的关键特征,生成压缩简化的电力数据特征。

步骤二:计算每一个简化电力数据特征的注意力权重,计算每个特征对虚假数据注入攻击的注意力权重,每个特征的注意力权重向量反映了其在特征提取中的重要程度。如果某个特定特征在攻击辨识方面没有贡献,注意力向量将相应的特定值设为零,以促使网络忽略该特征。

步骤三:将第一个自编码器的注意力权重向量和特征表示相乘,得到加权后的特征表示。将加权后的特征表示作为输入传递到第一个自编码器的隐藏层。

步骤四:通过第一个自编码器的解码器重构攻击特征,将重构后的攻击特征结果作为第二个自编码器的输入。

步骤五:通过第二个自编码器的编码器对第一个自编码器解码器的输出进行压缩处理,得到第二个隐空间的特征表示。

步骤六:计算第二个注意力权重,计算每个重构特征对虚假数据注入攻击的贡献大小。

步骤七:将第二个自编码器的注意力权重向量和特征表示相乘,得到加权后的特征表示。

步骤八:通过第二个自编码器的解码器对第二个自编码器隐藏层的特征表示进行解码,以重构第二个自编码器的攻击特征。

步骤九:并计算重构数据与原始数据样本的重构误差,并利用反向传播算法更新模型参数,根据不同数据维度下重构误差的大小,确定最终提取的特征个数。

麻雀搜索算法优化CNN-LSTM的攻击辨识方法具体步骤如下:

步骤一:构建CNN—LSTM攻击辨识模型,包括以下子步骤:

步骤1:构建CNN部分:设计卷积神经网络(CNN)的结构,以提取攻击数据的空间特征。选择适当的卷积层、池化层和激活函数,以及确定卷积核的大小。

步骤2:构建LSTM部分:设计长短时记忆网络(LSTM)的结构,定义LSTM层的数量、隐藏单元的数量和其他超参数。

步骤3:融合CNN和LSTM:将CNN和LSTM连接起来,形成整体的CNN-LSTM模型。这通常涉及将CNN的输出序列输入到LSTM中进行时序建模。

步骤二:麻雀搜索算法优化模型参数,包括以下子步骤:

步骤1:初始化参数范围。

基于攻击辨识任务的特点及数据集中的规模和特征的复杂性,确定需要优化的参数搜索范围,包括卷积层的神经元数量、卷积核大小、池化核大小、LSTM层节点数以及全连接隐含层的节点数。

步骤2:生成初始种群。

使用随机方式生成一组初始化的网络结构,包含卷积层的神经元数量、卷积层的核大小、池化层的核大小以及LSTM层与全连接隐含层的节点数。

步骤3:评估适应度。

对于每个生成的网络结构,使用训练集进行模型训练,并使用验证集评估FDIA攻击辨识模型性能。根据评估结果计算每个个体的适应度值,作为其在种群中的发现者。

步骤4:运行麻雀搜索算法。

在每次迭代中,根据麻雀搜索算法的基本原理,根据适应度值选择一些个体进行交叉和变异操作,生成新的参数。

步骤5:更新种群。

根据交叉和变异操作得到的新参数,更新种群,并重新计算每个个体的适应度。

步骤6:终止条件。

当达到最小误差和最大迭代次数时,算法终止搜索。

步骤7:选择最优解。

在终止条件满足后,从最终的种群中选择适应度最高的个体作为最优解,即所需CNN-LSTM虚假数据注入攻击辨识模型的参数。

步骤三:输出辨识结果。

使用测试集评估模型的性能,包括准确率、精确度、召回率指标。确保模型能够有效地识别攻击和正常行为。

一种基于改进CNN-LSTM的电网虚假数据注入辨识方法,其特征是,它包括的内容有:

(1)基于改进堆叠自编码器的虚假数据注入攻击特征提取方法

采用基于堆叠自编码器算法在根据原始数据集中与攻击相关性高的特征生成新的特征集,削减冗余特征,提升训练精度,并降低模型的复杂度。提升对虚假数据注入攻击的识别效率和精度。

自编码器的结构具有对称性,包括输入层、隐藏层和输出层。电力运行数据通过编码阶段进行线性组合和激活函数操作,随后在隐藏层中完成输入处理。解码阶段则经过线性组合和非线性激活操作,重新构建原始输入样本。每一环节的具体流程如下:

编码环节:从输入层到隐藏层的编码过程如公式(1)所示:

经编码器处理,输入向量

解码环节:从隐藏层到输出层的过程为公式(2)所示:

代表解码后的数据向量,θ′代表解码器的权重参数W′

在上述叙述中,重点在于对单个样本

对于大规模电力运行的数据,仅使用自编码器是不够的。为了获得更好的数据表示,可以使用逐层堆叠方法来训练自编码器称为堆叠自编码器(stacked autoencoders,SAE)。

本发明在堆叠自编码器的基础上,采用注意力机制对模型进行改进,在自编码器输入层后添加注意力机制,利用注意力机制能捕捉关键信息的特点引导模型为与虚假数据注入攻击高度相关的特征提供更大的权重。

注意力机制层使用一个值向量,其中每个值代表相应特征的重要性。通过加权求和,从丰富的特征信息中筛选出一小部分关键特征。具体的计算公式如(5)-(7):

M=tanh(W

α

其中,x′是指AE中的编码器的输出,W

改进堆叠自编码器(Improved stacked autoencoders,ISAE)的结构即在自编码器隐藏层之前添加了注意机制层,原始输入数据经过编码器进行压缩处理,得到一个隐空间的特征表示。计算每个简化特征的注意力权重向量,注意力权重决定了输入数据的不同部分在特征提取中的重要程度,如果注意力向量发现某个特定特征在攻击识别方面没有贡献,它将把该向量中相应的特定值设为零,导致网络遗忘这一特征。将注意力权重向量和特征相乘作为输入到隐藏层的特征表示,最后经过解码器进行解码重构,计算重构数据与原始数据之间的损失,利用反向传播算法更新模型参数。

(2)麻雀搜索算法优化CNN-LSTM的攻击辨识方法

卷积神经网络主要由卷积层(convoCutionaC-Cayer,Conv)、池化层(pooCingCayer)、全连接层(Dense)组成。卷积神经网络拥有表征学习能力,其对卷积层为CNN的核心组成模块,它由一组平行特征图组成,通过不同大小的卷积核对输入数据按其网络结构层层学习,得到输出特征图,该特征图中所有元素均采用相同的权值和偏置项进行计算,卷积操作的数学模型如公式8所示:

运算过程为一个非线性激活函数,其中FE

池化层采用了局部相关性原理,目的在于降低模型规模、提升计算速度,并增强所提取特征的鲁棒性。其手段是通过减少冗余特征量它通过减少冗余特征量的方式,保留了FDIA攻击的关键特征。防止过拟合现象,可提高模型泛化能力,池化层的数学模型如:

式中,h(u,v)为池化输入矩阵中(u,v)位置的值,G(r,s)是池化输出的(r,s)值,y是集合区域的边缘值。

卷积神经网络通过其结构特性可以对电力运行数据中单个数据特征内部的特征进行分析,但在提取序列之间关联性方面相对不足。与CNN专注于良好的局部特征提取能力不同,长短时记忆网络(LSTM)更注重学习序列之间的相关性。LSTM是RNN的一种变体,通过内部的特殊“门”机制解决了传统循环神经网络在参数传递中可能出现的梯度消失或梯度爆炸等问题,因此在使用RNN等相关神经网络时被认为是最佳选择。在LSTM中,有几个关键组成部分:

这些部分共同形成流式计算,具体如下公式(10)-(15)所示:

f

i

o

h

在上述公式中,σ代表Sigmoid函数;w为x的权值项,v为h的权值项,b为偏置项;⊙表示点乘运算符。LSTM的记忆单元接收输入,在σ激活函数的作用下,产生用于控制输入门(i)、遗忘门(f)、输出门(o)的信号。由于Sigmoid函数的值域在(0,1)之间,因此i、f和o的取值也在(0,1)范围内。LSTM根据当前时刻各门的信号来更新记忆单元并生成当前时刻的状态输出,并将其作为后续时刻s的额外输入,这一过程循环不断。

本发明的优点是:针对电力系统运行数据特征冗余导致模型计算量大的问题,采用基于改进堆叠自编码器的电力FDIA特征提取方法。通过引入注意力机制,该模型能够自适应地关注与电力系统攻击辨识任务相关的特征。这使得模型能够更加精准地捕捉攻击所导致的变化和异常,提高了攻击识别的准确性。构建基于CNN-LSTM的虚假数据注入攻击辨识模型,将CNN与LSTM两个网络提取特征向量横向拼接得到新的融合向量,既提取到了电力运行数据局部特征信息,又考虑到了各特征间的关系,最后采用softmax激活函数得到FDIA及正常样本的概率输出,实现FDIA的辨识可以得到更好的分类效果。同时SSA作为一种全局优化算法,有助于优化CNN-LSTM模型的参数,使其更好地适应电力系统攻击辨识的任务,提高整体性能。其自适应性特点有助于适应电力系统数据的变化和攻击的多样性,提高模型对于新型攻击的适应能力,增强了模型的鲁棒性。该方法科学合理,准确性较高,可适用于电网中虚假数据注入攻击的辨识问题,对维护电网安全具有一定实用意义

下面利用附图和具体实施方式对本发明作进一步说明。

附图说明

图1是本发明总体流程图。

图2是本发明基于注意力机制改进SAE的特征提取模型图。

图3是本发明基于注意力机制改进SAE的特征提取模型降维效果对比图。

图4是本发明CNN-LSTM的虚假数据注入攻击辨识模型图。

图5是本发明SSA优化CNN-LSTM虚假数据注入攻击辨识模型参数流程图。

图6是本发明SSA-CNN-LSTM虚假数据注入攻击辨识模型准确率对比图。

图7是本发明SSA-CNN-LSTM虚假数据注入攻击辨识模型精确率对比图。

图8是本发明SSA-CNN-LSTM虚假数据注入攻击辨识模型召回率对比图。

图9是本发明SSA-CNN-LSTM虚假数据注入攻击辨识模型F1-Score对比图。

图10是本发明SSA-CNN-LSTM虚假数据注入攻击辨识模型与不同识别算法性能对比图。

具体实施方式

参照图1-10,一种基于改进CNN-LSTM的电网虚假数据注入辨识方法,包括内容有:

1、注意力机制改进堆叠自编码器的FDIA特征提取方法

改进堆叠自编码器(Improved Stacked Autoencoders,简称ISAE)是一种深度学习模型,其模型结构如图1所示,旨在通过引入注意力机制来提升自编码器的性能。该算法在编码器和解码器之间引入注意力机制层,使网络能够更灵活地学习输入数据的特征,并在重构阶段更加专注于对虚假数据注入攻击有贡献的信息。算法的具体步骤如下所示:

具体步骤如下:

步骤一:将简单预处理后的待进行辨识的电力系统运行数据输入进第一个自编码器,通过第一个自编码器的编码器对输入数据进行压缩处理,得到一个隐空间的特征表示。这一步将输入数据映射到较低维度的表示,捕捉输入数据的关键特征,生成压缩简化的电力数据特征。

步骤二:计算每一个简化电力数据特征的注意力权重,计算每个特征对虚假数据注入攻击的注意力权重,每个特征的注意力权重向量反映了其在特征提取中的重要程度。如果某个特定特征在攻击辨识方面没有贡献,注意力向量将相应的特定值设为零,以促使网络忽略该特征。

步骤三:将第一个自编码器的注意力权重向量和特征表示相乘,得到加权后的特征表示。将加权后的特征表示作为输入传递到第一个自编码器的隐藏层。

步骤四:通过第一个自编码器的解码器重构攻击特征,将重构后的攻击特征结果作为第二个自编码器的输入。

步骤五:通过第二个自编码器的编码器对第一个自编码器解码器的输出进行压缩处理,得到第二个隐空间的特征表示。

步骤六:计算第二个注意力权重,计算每个重构特征对虚假数据注入攻击的贡献大小:

步骤七:将第二个自编码器的注意力权重向量和特征表示相乘,得到加权后的特征表示。

步骤八:通过第二个自编码器的解码器对第二个自编码器隐藏层的特征表示进行解码,以重构第二个自编码器的攻击特征:

步骤九:并计算重构数据与原始数据样本的重构误差,并利用反向传播算法更新模型参数,根据不同数据维度下重构误差的大小,确定最终提取的特征个数。

为了验证特征提取后对识别结果的影响,分别使用三种常见分类模型:朴素贝叶斯、SVM和KNN模型的结果进行分析进行对比,前后的准确率和召回率如图2所示,经过特征提取后比起未经特征提取的数据,平均准确率提高了15.33%,平均召回率提高了13%;与传统堆叠自编码器模型相比平均精确率提高了2.6%,平均召回率提高了4.6%。

2、基于SSA-CNN-LSTM的虚假数据注入攻击辨识方法

为实现电力虚假数据注入攻击的准确辨识,本发明提出一种融合CNN与LSTM的模型(CNN-LSTM),该模型的结构如图3所示,合了CNN与LSTM的优点,将2个网络提取特征向量横向拼接得到新的融合向量,既提取到了电力运行数据局部特征信息,又考虑到了各特征之间的关系,最后采用softmax激活函数得到FDIA及正常样本的概率输出,实现虚假数据注入攻击可以得到更好的识别效果。

鉴于CNN-LSTM模型网络结构设置对性能的显著影响,群体智能优化算法能够模拟自然界中事物或生物的运动和行为规律,以搜索在特定范围内的解空间中的最优解。麻雀搜索算法是一种生物启发式算法,它以麻雀群体在觅食过程中的一系列行为为基础。考虑一个由n只麻雀组成的种群,通过模拟麻雀觅食过程,该算法在一定范围内寻找一些参数的最优解。在一个d维搜索空间中,假设存在若干只麻雀,则第i只麻雀在D维搜索空间中的位置X

在公式中,t表示当前迭代次数;T是最大迭代次数;α是均匀随机数在(0,1]之间;Q是符合标准正态分布的随机数;L是大小为1×d的矩阵其中元素均为1;R

除了发现者,剩余的麻雀均作为加入者,并根据公式(17)进行位置更新:

式中:

式中:β为均值为0,方差为1的按正态分布产生的随机数;K是[-1,1]之间的一个随机数,正值时远离最差麻雀,负值时靠近最差麻雀;e是一个极小数,避免分母为0时无法更新位置;f

麻雀搜索算法(Sparrow Search Algortihm,SSA)收敛速度快,鲁棒性,稳定性都较高,所以麻雀搜索算法相比其他算法更具有高性能的全局搜索能力。因此本发明利用麻雀搜索算法对CNN-LSTM模型的参数进行优化,以提高对二次设备FDIA识别的准确率和效率。通过麻雀搜索算法来优化CNN-LSTM模型如图4所示。

通过麻雀搜索算法来优化CNN-LSTM攻击辨识模型的具体步骤如下:

步骤一:构建CNN—LSTM攻击辨识模型,包括以下子步骤:

步骤1:构建CNN部分:设计卷积神经网络(CNN)的结构,以提取攻击数据的空间特征。选择适当的卷积层、池化层和激活函数,以及确定卷积核的大小。

步骤2:构建LSTM部分:设计长短时记忆网络(LSTM)的结构,定义LSTM层的数量、隐藏单元的数量和其他超参数。

步骤3:融合CNN和LSTM:将CNN和LSTM连接起来,形成整体的CNN-LSTM模型。这通常涉及将CNN的输出序列输入到LSTM中进行时序建模。

步骤二:麻雀搜索算法优化模型参数,包括以下子步骤:

步骤1:初始化参数范围。

基于攻击辨识任务的特点及数据集中的规模和特征的复杂性,确定需要优化的参数搜索范围,包括卷积层的神经元数量、卷积核大小、池化核大小、LSTM层节点数以及全连接隐含层的节点数等。

步骤2:生成初始种群。

使用随机方式生成一组初始化的网络结构,包含卷积层的神经元数量、卷积层的核大小、池化层的核大小以及LSTM层与全连接隐含层的节点数。

步骤3:评估适应度。

对于每个生成的网络结构,使用训练集进行模型训练,并使用验证集评估FDIA攻击辨识模型性能。根据评估结果计算每个个体的适应度值,作为其在种群中的发现者。

步骤4:运行麻雀搜索算法。

在每次迭代中,根据麻雀搜索算法的基本原理,根据适应度值选择一些个体进行交叉和变异操作,生成新的参数。

步骤5:更新种群。

根据交叉和变异操作得到的新参数,更新种群,并重新计算每个个体的适应度。

步骤6:终止条件。

当达到最小误差和最大迭代次数时,算法终止搜索。

步骤7:选择最优解。

在终止条件满足后,从最终的种群中选择适应度最高的个体作为最优解,即所需CNN-LSTM虚假数据注入攻击辨识模型的参数。

步骤三:输出辨识结果。

使用测试集评估模型的性能,包括准确率、精确度、召回率等指标。确保模型能够有效地识别攻击和正常行为。

在使用2种不同的测试集上对本发明提供的基于改进CNN-LSTM的电网虚假数据注入辨识模型性能进行全面验证,通过混淆矩阵、准确率(accuracy)、精确率(precision)、召回率(recall)和F1-Scor等指标组成的柱形图来反应模型性能,识别结果如图5所示。在数据集1上的整体准确率为97.43%,在数据集2上的整体准确率为95.8%,将本发明所提出方法与CNN模型,LSTM模型CNN-LSTM模型及其他参数优化模型进行对比,SSA-CNN-LSTM模型表现出色每一类样本均可准确识别,且总体优于其他模型结果。由图6、图7、图8可知,本发明所提出的SSA-CNN-LSTM电网虚假数据注入攻击识别方法准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1-Score,在数据集1中分别平均提升了10.23%、7.45%、11.88%、13.85%。在数据集2中本发明所述评价方法4项分别平均提升了8.16%、9.46%、7.68%、12.05%。充分体现了其对电网拓扑结构下实施FDIA检测识别稳定可靠性。充分体现了其对电网拓扑结构下实施FDIA检测识别稳定可靠性。各类样本FDIA之间的误报率较低,以上证明了本发明提出模型高精度以及高稳定性。为证本发明SSA-CNN-LSTM方法的识别性能,将本发明模型与目前较流行的分类算法,进行对比,对比结果如图9所示,本发明提出的模型对FDIA识别的综合性能高于其他分类器,其中准确率,精度,召回率,F1指数平均提升了38.23%、24.17%、22.58%、39.16%。

综上,采用本发明的基于深度森林的电力CPS广义虚假数据注入攻击识别方法能够在数据集不平衡、数据维度高的条件下实现FDIA的高精度识别,且模型的误报率较低,不易过拟合,本发明提供的FDIA识别模型有效地提高了FDIA的识别精度以及稳定性。

采用本发明提出的基于SSA-CNN-LSTM的方法在检测识别能力的全面性以及稳定性方面均体现了显著优势,且能够适应不同电力拓扑结构保持高识别精度,本发明所提出方法有效辨识电网虚假数据注入攻击,有利于电力系统安全稳定运行。

本发明的软件程序依据自动化和计算机处理技术编制,是本领域技术人员所熟悉的技术。

上面描述,只是本发明的具体实施方式,各种举例说明不对本发明的实质内容构成限制。

相关技术
  • 一种智能型超低流阻气体控制阀
  • 一种智能型超低流阻气体控制阀
技术分类

06120116571073