掌桥专利:专业的专利平台
掌桥专利
首页

基于分布式深度强化学习的微网隐私保护与能量调度方法

文献发布时间:2023-06-19 19:30:30


基于分布式深度强化学习的微网隐私保护与能量调度方法

技术领域

本发明属于分布式框架、强化学习、微电网能量调度及隐私保护的交叉领域的一种微电网能量实时调度方法,具体涉及了一种基于分布式深度强化学习的微电网隐私保护与能量实时调度方法。

背景技术

新能源技术的发展与应用,使太阳能、风能、水能等清洁能源逐渐成为主导,随着新能源的不断接入,电网规模扩大,电网调度管理难度不断增加。微电网(microgrid,MG),作为新型电力系统的典型代表可以有效管理分布式电源、提高供电可靠性。微电网能量管理面临的一个主要威胁是负载数据与模型参数在交互中带来的数据泄露问题。现有的研究主要通过对数据进行加密保护来提高数据通讯的安全性,如基于数论的RSA加密算法、基于因数分解的ElGamal算法以及Paillier同态加密算法等。然而这些算法消耗大量时间和资源,极大提高了计算量,并且存在私钥泄露的风险,因此如何权衡隐私保护效能和能量管理优化至关重要。

针对此类问题,通常采用将微电网的隐私保护和能量管理统一建模为一个数学优化问题,并通过优化算法来寻找最优权衡策略。如采用基于对偶分解的算法和次优算法来求解具有隐私保护要求的微电网能量管理问题或通过对相邻控制器间的通讯进行随机加权的方法来提高数据通讯的安全性等方法。然而微电网系统中负载存在实时波动性,传统的优化方法难以满足其实时能量管理需求。强化学习算法在模型训练完成后可以对变化的环境做出实时反应,极大的提高了系统反应速度,因此已被广泛研究其在微电网系统上的应用。然而传统的强化学习方法通常只适用于规模有限的微电网系统。随着分布式电源、储能系统以及负载不断接入,各状态、动作参数不断增加,极大的提高了微电网系统能量管理的计算难度。

发明内容

为了解决背景技术中存在的问题,本发明结合中心化训练和去中心化执行的思想,本发明提出了一种基于分布式深度强化学习的微电网隐私保护与能量实时调度方法来解决上述安全性和实时性要求高以及参数空间大的问题。首先,各负载单元在本地统计实时负载需求,并采用差分隐私算法对每个负载数据加入高斯噪声,破坏个体数据有效性。其次,将每个分布式独立发电单元以及主电网视为独立智能体,建立多智能体深度强化学习模型,并将各智能体的能量管理以及隐私保护效能统一设计为多目标优化问题。其目标是:降低独立发电单元运行成本、优化微电网系统与主电网的电力交易、降低独立发电单元与储能单元的使用寿命损耗以及提高负载数据通讯的安全性。本发明结合了强化学习的实时性强、泛化性能好等优点,并加入了分布式框架,降低了单智能体的计算量,提高了学习效率及求解精度。同时考虑到微电网中负载数据上传过程中容易出现的隐私泄露问题,加入了差分隐私算法与强化学习进行结合,有效保护了数据通讯安全。

与传统的强化学习方法相比,本发明所提的分布式深度强化学习的微电网隐私保护与能量在线优化方法在解决微电网能量管理和隐私保护问题上具有以下优势:1、采用深度确定性策略梯度模型,提高了微电网系统的能量实时管理能力;2、建立多个分布式学习模型,有效降低了计算复杂度;3、采用差分隐私的方法进行数据保护,有效避免了私钥泄露带来的危险,降低了数据保护的计算量。

本发明采用的技术方案如下:

步骤1)根据微电网系统构建微电网多智能体强化学习模型,同时根据主电网建立对应的智能体进行本地调度管理;

步骤2)建立微电网隐私保护与能量调度模型;

步骤3)微电网多智能体强化学习模型输出当前时刻的动作集合,当前时刻的动作集合包括各可控发电单元输出的当前时刻发电机功率变化值以及为发电功率数据加噪所需的隐私保护预算参数;根据微电网多智能体强化学习模型的当前时刻状态值集合计算出对应敏感度,各个敏感度再结合对应隐私保护预算参数通过差分隐私算法生成对应拉普拉斯噪声,将拉普拉斯噪声加到对应发电功率数据中后获得观测数据集;将观测数据集传输给主电网,主电网通过观测数据集获取节点差额电量,主电网智能体根据节点差额电量输出对应的动作,动作为主电网与微电网节点的交互电量,根据主电网与微电网节点的交互电量、发电机功率变化值更新出微电网多智能体强化学习模型的下一时刻状态值集合;

步骤4)根据微电网多智能体强化学习模型的动作集合以及当前时刻和下一时刻的状态值集合,利用微电网隐私保护与能量调度模型计算微电网多智能体强化学习模型的总奖励值,若此时对应的回合数达到预设数据采集回合,则开始从经验池中提取历史数据以更新强化学习模型;若未达到则不从经验池中提取历史数据更新强化学习模型,直接进行下一时刻;

步骤5)重复步骤3)-4),直到当前回合结束,若回合结束则重置时刻、发电机发电功率、储能单元荷电状态、主电网交互功率数据,接着采集下一回合的负载需求、实时电价数据;

步骤6)继续重复步骤5),在回合迭代中不断收集、读取历史数据,从而更新强化学习模型,最终不断输出调度策略,实现微电网能量调度及隐私保护最优化。

所述微电网多智能体强化学习模型包括m个智能体,分别根据m个独立发电单元构建获得,m个智能体的经验池共享,微电网多智能体强化学习模型通过以下公式进行设置:

A(t)=[a(1,t),a(2,t),...,a(n,t)]

S(t)=[s(1,t),s(2,t),...,s(n,t)]

Ctr(t)=[c(1,t),c(2,t),...,c(n,t)]

R(t)=[r(1,t),r(2,t),...,r(n,t)]

a(i,t)=[ΔPk(i,t),ε]

其中,A(t)表示时刻t各智能体输出的动作集合,S(t)表示时刻t各智能体的状态值集合,Ctr(t)表示时刻t各智能体的动作策略集合,表示从状态到具体动作的映射关系,R(t)表示时刻t各智能体的奖励值集合,即总奖励值,a(i,t)表示时刻t第i个智能体输出的动作,s(i,t)表示时刻t第i个智能体的本地状态值,c(i,t)表示时刻t第i个智能体的动作策略,r(i,t)表示时刻t第i个智能体的本地奖励值,Pk(i,t)表示时刻t第i个独立发电单元的发电功率,d(j,t)表示时刻t第j个负载的负载需求,SoC(t)表示时刻t储能单元的荷电状态,Pess(t)表示时刻t储能单元的充放电功率,T表示转置,ε为隐私保护预算,ΔPk(i,t)为时刻t第i个独立发电单元功率变化量,n表示独立发电单元数量,m表示负载数量。

所述微电网隐私保护与能量调度模型包括微电网隐私保护与能量优化目标函数和约束条件集合;

所述微电网隐私保护与能量优化目标函数包括微电网隐私保护代价函数和微电网能量调度问题的代价函数,具体公式如下:

其中,Pk(i,t)表示时刻t第i个独立发电单元的发电功率,P

所述约束条件集合包括功率平衡约束、爬坡约束、功率上下限约束和储能单元荷电状态约束;

在t时刻,微电网的功率平衡约束为:

在t时刻,微电网的爬坡约束为:

CL

CL

在t时刻,功率上下限约束为:

P

Pmain

在t时刻,微电网的储能单元荷电状态约束表示为:

SoC

其中,d(j,t)表示时刻t第j个负载的负载需求,Pess(t)表示时刻t储能单元的充放电功率,Pk(i,t+1)表示时刻t+1第i个独立发电单元的发电功率,Pess(t+1)表示时刻t+1储能单元的充放电功率,CL

所述微电网隐私保护代价函数表示为:

L(t)=δ

/>

其中,L

所述微电网能量调度问题的代价函数包括发电成本代价函数、微电网系统与主电网的交易成本代价函数、独立发电单元与储能单元使用寿命的代价函数和储能单元荷电状态代价函数,表示为:

F(t)=θ

其中,θ

发电成本代价函数表示为:

其中,F

微电网系统与主电网的交易成本代价函数表示为:

F

其中,F

独立发电单元与储能单元使用寿命的代价函数表示为:

F

其中,F

储能单元荷电状态代价函数表示为:

F

SoC(t)=Pess(t)*Δt/ESS

其中,F

所述步骤3)中,根据隐私保护预算生成对应噪声,再将当前负载需求和噪声合成后获得观测数据,计算公式如下:

D(i,t)=f(x(i,t))+Lap(Δf/ε)

其中,D(j,t)表示时刻t经过噪声处理后的发电单元输出功率,x(i,t)表示时刻t第i个可控发电单元的输出功率,Δf为敏感度,Lap(Δf/ε)为生成的Laplace噪声,其分布满足f(x|μ,λ)=(1/2λ)e

所述总奖励值的公式如下:

R(t)=L(t)+F(t)

其中,R(t)表示时刻t总奖励值。

所述步骤4)中,根据微电网多智能体强化学习模型的动作集合以及当前时刻和下一时刻的状态值集合,判断当前动作集合是否满足约束条件集合,满足则根据微电网隐私保护代价函数和微电网能量调度问题的代价函数计算各智能体对应的奖励值,不满足则生成预设负值作为对应的奖励值,从而获得总奖励值。

所述微电网多智能体强化学习模型中价值网络的累计奖励及梯度策略的公式如下:

其中,J(θ

价值网络损失函数计算的公式如下:

其中,y

所述步骤1)中,微电网系统中的各个可控发电单元均建立对应的智能体,各个智能体进行本地调度管理。

本发明的有益效果是:

本发明采用深度确定性策略梯度模型,提高了微电网系统的能量实时管理能力;根据微电网多智能体环境特性建立多个分布式学习模型,通过多智能体相互协作,有效地降低了计算复杂度。相比于传统的集中式强化学习,分布式学习模型通过智能体间的数据交互将不确定的相邻智能体动作转为确定的本地环境,极大的提高了系统稳定性;采用差分隐私的方法进行数据保护,结合隐私参数个体数据准确度要求低,聚合查询准确度要求高的特点,采用Laplace噪声进行扰动处理,有效避免了私钥泄露带来的危险,降低了数据保护的计算量。综上所述,本发明提出了一种基于分布式深度强化学习的微电网隐私保护与能量在线优化方法,有效地解决了微电网优化调度中存在的不确定性强、实时性要求高、计算量大以及隐私性强等问题。

附图说明

图1是本发明中基于分布式深度强化学习的微电网隐私保护与能量在线优化方法的流程图。

图2是本发明设计的微电网系统模型图。

图3是本发明设计的神经网络流程图。

图4是本发明中提出算法和传统的深度确定性策略梯度算法在相同环境下收敛情况对比图。

图5是本发明中对数据加入差分隐私保护后,合成数据准确率变化图

图6是本发明中对数据加入差分隐私保护后,单回合内差异率变化图。

具体实施方式

为使本发明的目的、技术方案和优点更加清晰,下面结合附图和实际实验对本发明的技术方案作进一步描述。

参考图1,一种基于分布式深度强化学习的微电网隐私保护与能量在线优化方法,首先智能体获取本地各项环境参数,再将状态值传入动作神经网络中获取当前时刻的动作输出。隐私预算生成噪声并在对负载数据进行加噪处理后将合成数据上传至节点。并在环境中更新出下一时刻状态值,进行约束判断。若满足约束则按照代价函数计算奖励,不满足则给与一个极大的负值作为奖励进行反馈。动作和价值网络从经验池中提取历史数据进行学习,同时将当前时刻状态值、动作、下一时刻状态值及奖励值作为新的一组数据存储入经验池中。将下一时刻状态值更新为当前时刻状态值。若回合未结束则进入下一时刻的循环。

本实施例的一种基于分布式深度强化学习的微电网隐私保护与能量在线优化方法,所述方法包括以下步骤:

如图1所示,本发明包括如下步骤:

步骤1)如图2所示,微电网系统由m个独立发电单元,n个负载和储能单元组成,步骤1)根据微电网系统构建微电网多智能体强化学习模型,具体采用微电网多智能体深度确定性策略梯度算法(即MADDPG)构建获得,同时根据主电网建立对应的智能体进行本地调度管理;主电网与微电网系统相连,如图3所示;

步骤1)中,微电网系统中的各个可控发电单元均建立对应的智能体,各个智能体进行本地调度管理。

每个智能体建立动作在线网络与价值在线网络,其网络参数分别为θ

动作神经网络通过获取本地环境参数s(i,t)来对变化的环境做出实时反应,给出相应动作a(i,t)。价值神经网络获取动作神经网络给出的动作反馈,并对其行为策略做出评价,引导动作网络追寻更高的潜在收益。其中动作神经网络累计收益期望及策略梯度如下式所示:

其中,ρ

价值网络通过从MADDPG模型中所有经验池中提取历史数据进行学习,其主要目的是掌握奖惩信息与环境的关系,引导动作网络优化动作策略。微电网多智能体强化学习模型中价值网络的累计奖励及梯度策略的公式如下:

其中,J(θ

价值网络以最小化智能体的损失函数为更新方向,损失函数计算的公式如下:

其中,y

微电网多智能体强化学习模型包括m个智能体,分别根据m个独立发电单元构建获得,m个智能体的经验池共享,即一个智能体可以从另一个智能体的经验池中提取历史数据进行学习,微电网多智能体强化学习模型通过以下公式进行设置:

A(t)=[a(1,t),a(2,t),...,a(n,t)]

S(t)=[s(1,t),s(2,t),…,s(n,t)]

Ctr(t)=[c(1,t),c(2,t),...,c(m,t)]

R(t)=[r(1,t),r(2,t),...,r(n,t)]

/>

a(i,t)=[ΔPk(i,t),ε]

其中,A(t)表示时刻t各智能体输出的动作集合,S(t)表示时刻t各智能体的状态值集合,Ctr(t)表示时刻t各智能体的动作策略集合,表示从状态到具体动作的映射关系,R(t)表示时刻t各智能体的奖励值集合,即总奖励值,a(i,t)表示时刻t第i个智能体输出的动作,s(i,t)表示时刻t第i个智能体的本地状态值,c(i,t)表示时刻t第i个智能体的动作策略,r(i,t)表示时刻t第i个智能体的本地奖励值,Pk(i,t)表示时刻t第i个独立发电单元的发电功率,d(j,t)表示时刻t第j个负载的负载需求,SoC(t)表示时刻t储能单元的荷电状态,Pess(t)表示时刻t储能单元的充放电功率,T表示转置,ε为隐私保护预算,ΔPk(i,t)为时刻t第i个独立发电单元功率变化量,m表示独立发电单元数量,n表示负载数量。

步骤2)构建微电网隐私保护代价函数和微电网能量调度问题的代价函数,即包括发电成本、储能单元荷电状态、发电机与储能单元使用寿命、主电网交易成本、隐私保护效能在内的代价函数;以及构建包含功率平衡约束、爬坡约束、功率上下限约束和储能单元荷电状态约束的约束条件集合,将微电网隐私保护代价函数和微电网能量调度问题的代价函数与约束条件集合结合后建立微电网隐私保护与能量调度模型,其目标在于保证系统满足约束的条件下降低系统整体代价函数;

微电网隐私保护与能量调度模型包括微电网隐私保护与能量优化目标函数和四个约束条件;

微电网隐私保护与能量优化目标函数包括微电网隐私保护代价函数和微电网能量调度问题的代价函数,具体公式如下:

微电网隐私保护与能量调度模型包括微电网隐私保护与能量优化目标函数和约束条件集合;

所述微电网隐私保护与能量优化目标函数包括微电网隐私保护代价函数和微电网能量调度问题的代价函数,具体公式如下:

其中,L(t)表示微电网隐私保护代价函数值,F(t)表示微电网能量调度问题的代价函数值;R表示单回合内包括的时刻总数;

所述约束条件集合包括功率平衡约束、爬坡约束、功率上下限约束和储能单元荷电状态约束;

在t时刻,微电网的功率平衡约束为:

在t时刻,微电网的爬坡约束为:

CL

CL

在t时刻,功率上下限约束为:

P

Pmain

当储能单元荷电量过高时,会对储能单元造成一定的损耗,而荷电量过低时,面对用电需求突然增加容易出现电力不足的情况。为了保证储能单元的持续稳定运行,需要将荷电量限制在一定范围。在t时刻,微电网的储能单元荷电状态约束表示为:

SoC

其中,d(j,t)表示时刻t第j个负载的负载需求,Pess(t)表示时刻t储能单元的充放电功率,Pk(i,t+1)表示时刻t+1第i个独立发电单元的发电功率,Pess(t+1)表示时刻t+1储能单元的充放电功率,CL

微电网系统中的隐私保护主要考虑从负载侧收集负载需求时产生的隐私泄露危险,因此隐私保护效能主要通过个体数据差异性,以及聚合查询准确性来衡量个体数据差异产生的代价函数。聚合查询结果的准确性表示了合成数据的可用性,以此来衡量聚合查询的差异产生的代价函数。微电网隐私保护代价函数表示为:

L(t)=δ

其中,L

考虑到系统发电成本以及寿命,微电网能量调度问题的代价函数包括发电成本代价函数、微电网系统与主电网的交易成本代价函数、独立发电单元与储能单元使用寿命的代价函数和储能单元荷电状态代价函数,表示为:

F(t)=θ

其中,θ

1)在满足负载需求以及确保功率平衡的条件下,找到最优运行策略,尽可能降低独立发电单元的发电成本,使整体成本最低。发电成本代价函数表示为:

其中,F

2)考虑到电价随时间段分为峰平谷三个价位,微电网系统需要在满足约束的前提下,降低与主电网的交易成本。其微电网系统与主电网的交易成本代价函数表示为:

F

其中,F

3)令独立发电单元工作在最优工作点附近,降低发电损耗。控制储能单元充放电行为,降低对其使用寿命的损耗。独立发电单元与储能单元使用寿命的代价函数表示为:

F

其中,F

4)让储能单元尽量维持在理想荷电状态,储能单元荷电状态代价函数表示为:

F

SoC(t)=Pess(t)*Δt/ESS

其中,F

步骤3)微电网多智能体强化学习模型中各智能体(即可控发电单元)输出当前时刻的动作集合,当前时刻的动作集合包括各可控发电单元输出的当前时刻发电机功率变化值以及为发电功率数据加噪所需的隐私保护预算参数;

根据微电网多智能体强化学习模型的当前时刻状态值集合计算出对应敏感度,各个敏感度再结合对应隐私保护预算参数通过差分隐私算法生成对应拉普拉斯噪声,将拉普拉斯噪声加到对应发电功率数据中后获得观测数据集;具体地,动作a(i,t)由前后的独立发电单元输出功率变化量ΔPk(i,t)和隐私保护预算ε组成,满足a(i,t)=[ΔPk(i,t),ε]

步骤3)中,根据隐私保护预算生成对应噪声,再将当前负载需求和噪声合成后获得观测数据,计算公式如下:

D(j,t)=f(d(j,t))+Lap(Δf/ε)

其中,Δf为敏感度,表示所有待保护参数在测量周期内的最大差异度。Lap(Δf/ε)为生成的Laplace噪声,其分布满足f(x|μ,λ)=(1/2λ)e

步骤4)根据微电网多智能体强化学习模型的动作集合以及当前时刻和下一时刻的状态值集合,利用微电网隐私保护与能量调度模型计算微电网多智能体强化学习模型的总奖励值,若此时对应的回合数达到预设数据采集回合,则开始从经验池中提取历史数据以更新强化学习模型;若未达到则不从经验池中提取历史数据更新强化学习模型,直接进行下一时刻;

步骤4)中,根据微电网多智能体强化学习模型的动作集合以及当前时刻和下一时刻的状态值集合,判断当前动作集合是否满足约束条件集合,满足则根据微电网隐私保护代价函数和微电网能量调度问题的代价函数计算各智能体对应的奖励值,不满足则生成预设负值(具体实施中为-100万)作为对应的奖励值,从而获得总奖励值。状态值主要包括发电机发电功率、储能单元荷电状态、实时电价、负载需求数据,后两者随时刻更新通过实时采集获得。

总奖励值的公式如下:

R(t)=L(t)+F(t)

其中,R(t)表示时刻t总奖励值。

步骤5)重复步骤3)-4),直到当前回合结束,若回合结束则重置时刻、发电机发电功率、储能单元荷电状态、主电网交互功率数据,接着采集下一回合的负载需求、实时电价数据;

步骤6)继续重复步骤5),在回合迭代中不断收集、读取历史数据,从而更新强化学习模型,最终不断输出调度策略,即动作,实现微电网能量调度及隐私保护最优化。

从图4可以看出,随着智能体的不断学习,奖励值也呈现明显上升趋势,在2500回合左右,本发明提出的方法已经能给出大量可行解,而传统的DDPG算法则用了4000回合左右。在3500回合左右本方法已稳定收敛于-25000附近,DDPG算法在9000回合左右才趋于稳定,并收敛于-42000附近。由此可见本发明提出的方法在收敛速度、稳定性及结果上均要优于传统的DDPG算法。从图5,6可知,在训练过程中,原数据于合成数据的聚合查询结果准确率不断升高,最后达到94%上下,证明其聚合属性仍然有效。同时个体数据的差异率极大,个体数据有效性被完全破坏。因此,本发明提出的方法在实现微电网能量调度的前提下对隐私数据实现了有效的保护。

以上结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。

相关技术
  • 基于深度Q值网络强化学习的微电网储能调度方法及装置
  • 面向城市园区微网隐私保护的分布式P2P能量控制方法
  • 基于双Q值网络深度强化学习的微电网能量调度方法
技术分类

06120115934168