掌桥专利:专业的专利平台
掌桥专利
首页

一种面向虚拟电厂业务系统的攻击数据样本生成方法

文献发布时间:2024-04-18 19:58:21


一种面向虚拟电厂业务系统的攻击数据样本生成方法

技术领域

本发明涉及样本生成的技术领域,尤其是涉及一种面向虚拟电厂业务系统的攻击数据样本生成方法。

背景技术

以虚拟电厂(Virtual Power Plant,VPP)为代表的新型业务系统对通信网络的灵活调度能力、差异化业务保障能力、网络安全防护能力提出了更高要求。考虑到公专网络的互联互通存在空间离散性高、随机波动性大、信息物理耦合性强等特点,如何在复杂环境下有效识别和防御在隐蔽地带发动的网络攻击成为亟待解决的问题。

由于虚拟电厂中公专两侧信息流与能量流的动态交互,信息风险与电力风险可相互叠加并在公专两侧交叉传播,而新能源出力与多元负荷的随机波动特性进一步增加了虚拟电厂系统运行的脆弱性并暴露出更多薄弱节点。基于安全风险的跨域传播,攻击者可以针对多个薄弱节点发动协同网络攻击可造成一系列时空协同的电力故障,形成跨越公专两侧的连锁故障。目前,针对公专互动网络环境下虚拟电厂系统的连锁攻击还处于起步阶段,研究者尝试利用大数据技术建立各种模型化的攻击预警机制,比如基于攻击风险的叠加机制与风险转移逻辑模型,攻击事件驱动关系模型,攻击概率模型等,目前攻击样本库中的攻击数据形式比较单一,这些模型已经有了较好的检测性能。但是,一些检测模型在面对攻击者设计的强迷惑性攻击数据时,可能无法很好的发挥检测能力,所以生成更逼真更具有伪装性的攻击数据扩充样本库很有必要性。此外,这些研究大部分属于传统的故障和攻击检测方法,这些方法的有效性主要依赖于人工规则和知识库,需要人工收集已有的大量攻击样本来构建异常监测的知识特征库,这明显忽视了在公专互动虚拟电厂这种特殊业务场景下攻击样本数据的收集难度。

发明内容

本发明的目的就是为了提高攻击样本的多样性,减少攻击样本的生成难度,提高虚拟电厂对攻击的防御能力而提供的一种面向虚拟电厂业务系统的攻击数据样本生成方法。

本发明的目的可以通过以下技术方案来实现:

一种面向虚拟电厂业务系统的攻击数据样本生成方法,方法包括以下步骤:

(a)对虚拟电厂采集的多传感器正常的和攻击的数据进行合并和预处理,得到真实数据;

(b)建立生成器模型,对生成器模型输入满足联合高斯分布的噪声向量,输出虚假攻击数据;

(c)建立判别器模型,对判别器模型输入(a)中获取的真实数据和(b)生成的虚假攻击数据;

(d)基于损失函数反复训练生成器和判别器直至收敛,得到训练完成的攻击数据样本生成模型,所述攻击数据样本生成模型为训练完成的生成器;

(e)将标准正态分布的矩阵输入训练完成的攻击数据样本生成模型,得到新的攻击数据样本。

进一步地,生成器模型基于残差网络和全连接神经网络构建,生成器模型包括依次连接的第一线性层、第一正则化层、第一激活层、第二线性层、第二正则化层、第二激活层和第三线性层,其中,第二线性层的输入为第一激活层的输出和噪声向量的和,第三线性层的输入为第一激活层的输出和第二激活层的输出之和,线性层对数据特征的维度提升或降低。

进一步地,生成器模型的激活层为ReLU函数。

进一步地,判别器模型基于全连接神经网络构建,判别器模型包括依次连接的第四线性层、第四激活层、第一随机失活层、第五线性层、第五激活层、第二随机失活层和第六线性层,随机失活层让部分神经元的激活值以一定概率停止工作。

进一步地,判别器模型的激活层为LeakyReLU函数。

进一步地,(d)的具体步骤为:

(d1)基于判别器的损失函数计算神经网络每次迭代的前向计算结果与真实值的差距;

(d2)利用反向传播技术更新生成器和判别器的权重值,直至损失函数找到一个全局最优值。

进一步地,损失函数为:

其中,E

进一步地,损失函数找到一个全局最优值满足:

其中,f表示神经元的激活函数,W

进一步地,(a)的具体步骤为:

(a1)采集虚拟电厂不同传感器的交互数据,所述交互数据包括正常数据和攻击数据;

(a2)对交互数据进行预处理;

(a3)将预处理后的正常数据和攻击数据合并,得到真实数据。

进一步地,预处理具体为:划分筛选、数据清洗、数据补齐和归一化处理。

与现有技术相比,本发明具有以下有益效果:

本发明通过生成器模型建立虚假的攻击数据,再通过判别器模型学习真实数据和虚假攻击数据的特征,使得生成的攻击数据样本不仅拥有攻击数据的特点又学习到了正常数据的一些特性,这种方法增强了攻击数据的伪装性和迷惑性,又丰富了攻击数据样本库的多样性,实现对一般的虚假数据注入攻击的样本的优化,通过这种优化的攻击模型,攻击检测模型可以更好的应对。同时,本发明不需要人工进行梳理人工规则和知识库,降低的攻击样本的生成难度同时还能保证攻击数据样本库的多样性。

附图说明

图1为本发明的流程图;

图2为本发明的生成器残差网络的结构图;

图3为本发明的判别器全连接网络的结构图;

图4为本发明和常规FDIA模型在平衡数据集下不同迭代次数的准确率对比图;

图5为本发明和常规FDIA模型在不平衡数据集下不同迭代次数的准确率对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

名词解释:

FDIA:虚假数据注入攻击(False Data Injection Attack,FDIA);

Linear层:线性层。

针对现有的虚拟电厂业务系统的攻击数据样本生成难度高,多样性不足的问题,本发明提出一种面向虚拟电厂业务系统的攻击数据样本生成方法,方法的流程图如图1所示。

本发明的方法包括以下步骤:

(a)对虚拟电厂采集的多传感器正常的和攻击的数据进行合并和预处理;

(b)建立生成器模型,输入满足联合高斯分布pz(z)的噪声向量Z,噪声向量Z在经过生成器网络学习如何将pz(z)映射到pr(x),得到生成的虚假攻击数据;

(c)建立判别器模型来进行提取攻击数据和部分正常数据的特征,并区分与虚假攻击数据的真实性;

(d)通过最优化目标的损失函数反复训练生成器和判别器直至收敛;

(e)使用训练好的生成器生成新的攻击数据样本;

之后可以对替换新攻击数据样本后的数据集进行不同检测模型的评估,以验证该攻击样本生成模型的有效性。

步骤(a)的具体过程为:

(a1)采集虚拟电厂不同传感器的交互数据;

(a2)对数据采取包括:划分筛选、数据清洗、数据补齐、归一化处理等操作;

(a3)将正常数据和添加过常规的FDIA的攻击数据合并,放入同一个数据集中。

步骤(b)的具体过程为:

(b1)建立满足联合高斯分布pz(z)的噪声向量Z矩阵:

其中,μ=0,σ=1时为标准正态分布。

(b2)建立基于全连接神经网络(Full Connected Network,FCN)和残差神经网络(Residual Network,ResNet)的攻击样本生成器模型;

(b3)使用全连接神经网络Linear层对数据特征维度提升或降低;

(b4)使用激活函数ReLU学习和拟合更加复杂的非线性函数关系:

f(x)=max(0,x)

其中,x代表经过全连接神经网络Linear层特征维度转变后的数据。

(b5)使用ResNet让信息在网络层之间直接传递,可以有效解决梯度消失和梯度爆炸问题。ResNet的残差块可以表示为:

x

残差块分成两部分直接映射部分和残差部分。h(x

生成器残差网络的结构图如图2所示。生成器模型包括依次连接的第一线性层、第一正则化层、第一激活层、第二线性层、第二正则化层、第二激活层和第三线性层,其中,第二线性层的输入为第一激活层的输出和噪声向量的和,第三线性层的输入为第一激活层的输出和第二激活层的输出之和,线性层对数据特征的维度提升或降低。

步骤(c)的具体过程为:

(c1)建立FCN和激活函数LeakyReLU的攻击样本判别器模型;

(c2)使用全连接神经网络Linear层对数据特征维度提升或降低;

(c3)使用LeakyReLU函数解决神经元死亡问题,增强模型表达能力:

其中,x代表经过全连接神经网络Linear层特征维度转变后的数据,leak代表一个很小的常数。

(c4)使用随机失活层(Dropout)让某些神经元的激活值以一定概率停止工作,使模型的泛化能力得到增强。

判别器全连接网络的结构图如图3所示。判别器模型包括依次连接的第四线性层、第四激活层、第一随机失活层、第五线性层、第五激活层、第二随机失活层和第六线性层。

步骤(d)的具体过程为:

(d1)利用WGAN中判别器的损失函数计算神经网络每次迭代的前向计算结果与真实值的差距,从而指导下一步的训练向正确的方向进行:

其中,E

(d2)利用反向传播技术更新各个模块中的权重值,使得损失函数找到一个全局最优值:

(e)的步骤具体为:利用训练好的生成器,输入标准正态分布的矩阵,得到新的攻击数据样本。

进行不同检测模型的评估的步骤具体为:

(1)将原本数据集中添加过常规的FDIA的攻击数据替换成用生成对抗网络生成的新攻击数据样本;

(2)读取常规的FDIA的训练数据集和生成对抗网络生成的数据集进行预处理。

(3)将两个数据集分别通过不同的检测模型进行对比实验,验证生成对抗网络的攻击样本生成模型的有效性。

下面进行仿真实验及性能分析:

测试数据来自IEEE 14节点测试系统。从纽约独立系统运营商(NYISO)收集了2020年1月1日至2022年5月1日的真实负载数据,并选择了11个区域来表示IEEE 14节点测试系统的11个负载总线,每个总线状态变量通过系统的功率流计算获得。IEEE 14节点测试系统中的每个节点独立地监控相应节点上测试系统的负载信息,因此系统中的节点可以被视为监控同一系统的不同传感器数据源。

攻击样本生成的有效性通过不同的检测模型进行对比实验来验证。该对比实验在平衡数据集和不平衡数据集上进行。在平衡数据集上15000个感知数据划分成了7500条正常数据和7500攻击数据,攻击数据中随机实施了虚假数据注入攻击(FDIA),训练集和测试集的比例为0.3。而在不平衡数据集上训练集由14730个正常数据和270个假攻击数据组成,共15000个数据。在训练过程中,条件生成对抗网络训练迭代轮数为20,批量大小为500,损失函数使用WGAN损失,优化器使用Adam学习器。默认参数为(0.9,0.99),由Adam学习器操作。初始学习率为10-4,每一轮权重都会衰减。在训练模型的过程中,通过最优目标函数确定最优生成器模型,并将其用于之后的生成攻击数据样本。

本发明通过使用四种基本的机器学习网络模型,即自我监督图注意力网络模型(Self-survered Graph Attention Network,SGAT)、随机森林模型(Random Forest,RF)、卷积神经网络模型(Convolutional Neural Networks,CNN)和支持向量机模型(SupportVector Machine,SVM)来测试生成的攻击数据样本是否能有效绕过检测模型,对常规的FDIA攻击样本生成模型优化。

图4表明在平衡数据集下通过条件生成对抗网络的攻击样本生成模型生成的攻击样本与常规的FDIA模型生成的攻击样本的性能对比,可以绕过四种基本机器学习网络模型,有效降低这些检测模型的性能,图5表明在相同条件下,在不平衡数据集下的表现对比,也验证了通过条件生成对抗网络的攻击样本生成模型生成的攻击样本质量更高。表1是在平衡数据集实验下,常规的FDIA模型和生成对抗网络模型生成攻击样本后的检测效果,无论是对于准确率还是基于F1分数的对比,生成对抗网络模型都使得检测模型的性能有了有效下降,即生成了更具有伪装性和迷惑性的攻击数据样本。表2中,当使用不平衡数据集进行实验时,也能观察到类似结果,表示本发明对于平衡数据集和不平衡数据集都有较好的适用性。

表1平衡数据集下两种攻击数据集在四种检测模型上的性能对比

表2不平衡数据集下两种攻击数据集在四种检测模型上的性能对比

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

相关技术
  • 一种基于对抗生成网络的电力系统虚假数据攻击识别方法
  • 一种面向交通信息感知的数字攻击对抗样本生成方法
  • 一种面向交通信息感知的物理攻击对抗样本生成方法
技术分类

06120116480027