掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度强化学习的含风电虚拟电厂聚合调度方法

文献发布时间:2023-06-19 18:27:32


一种基于深度强化学习的含风电虚拟电厂聚合调度方法

技术领域

本发明属于电力系统调度技术领域,特别是涉及到一种基于深度强化学习 的含风电虚拟电厂聚合调度方法。

背景技术

未来新能源大规模并网是必然趋势。受天气的影响,使风电存在随机性、 波动性和间歇性。这些因素的存在会使风电出力的不确定性增加,为新能源的 消纳以及电力系统的调度和运行带来影响。随着能源互联网、智慧能源等新颖 概念相继提出,多能互补正是能源互联网、智慧能源的落脚点。虚拟电厂作为 能源互联网重要组态,可实现区域性多能源聚合调控,对解决好新能源消纳, 电网安全稳定运行具有重要意义。

目前,常见的调度方法一般采用约束求解法,启发式智能算法,或者求解 器求解。虽然以上这些方法具有一定的优势,但会发生过估计和无法收敛的情 况,对具有随机性、间歇性的含新能源虚拟电厂建模十分困难。

因此现有技术当中亟需要一种新型的技术方案来解决这一问题。

发明内容

本发明所要解决的技术问题是:提供一种基于深度强化学习的含风电虚拟 电厂聚合调度方法用于解决常见的调度方法对具有随机性、间歇性的含新能源 虚拟电厂建模困难的技术问题。

一种基于深度强化学习的含风电虚拟电厂聚合调度方法,包括以下步骤, 并且以下步骤顺次进行:

步骤一、构建风电自适应预测模型

所述模型中存储的历史数据均按照对应功率所在的区间进行分组,每组中 的数据均以[预测功率值,实测功率值]的形式表示,将预测功率值和实测功率 值用多种拟合函数进行拟合并比较,获得最佳拟合曲线;

步骤二、获得最接近实际出力的趋势性风电出力场景

对最佳拟合曲线进行风光场景的趋势性刻画并进行修正获得最接近实际出 力的趋势性风电出力场景并获得在t时段的功率输出P

步骤三、通过深度网络学习算法搭建应用于含风电虚拟电厂的深度强化学 习智能体模型

1)定义两个矩阵网络Q

Q

公式(1)中,a

γ为折扣因子,0≤γ≤1,选取γ=0,则表示只考虑当前奖励,意味着采取 短视的策略;选取γ=1表示把未来的收益也加入了当前的价值中;为平衡当前 与未来,则将γ设为0到1之间的一个值;

Q

公式(2)中,b

γ为折扣因子,0≤γ≤1,选取γ=0,则表示只考虑当前奖励,意味着采取 短视的策略;选取γ=1表示把未来的收益也加入了当前的价值中;为平衡当前 与未来,则将γ设为0到1之间的一个值;

2)初始化两个矩阵网络Q

3)Q

4)把状态s分别输入Q

5)选择Q

6)选择Q

7)将状态s′迭代状态s,重复交替更新直至达到训练次数,获得训练后的 应用于含风电虚拟电厂的深度强化学习智能体模型;

步骤四、对应用于含风电虚拟电厂的深度强化学习智能体模型搭建深度强 化学习环境、深度强化学习动作和深度强化学习奖励,分别获得状态s、系统的 动作a以及奖励值r:

S=[P

(3)式中:P

a=[a

(4)式中:a

r=-(o+k+m) (5)

(5)式中:o表示虚拟电厂运行期间为实现供用平衡,对储能电池过放电或 过充电惩罚;k表示响应激励机制;m表示当虚拟电厂内部平衡处于不平衡状 态时,外部电网购买的电量;r表示奖励值计算函数;

步骤五、将步骤四中获得的状态s、系统的动作a以及奖励值r带入公式 (1)或公式(2)中最终训练后的应用于含风电虚拟电厂的深度强化学习智能 体模型,得出风电最优聚合调度结果。

所述步骤一中的多种拟合函数包括正态分布函数、非参数化核平滑分布函 数、T位置尺度分布函数以及极值分布函数。

所述步骤二中获得最接近实际出力的趋势性风电出力场景的具体步骤为:

步骤2-1、多元标准正态分布矩阵生成具有一定相关性的随机数列:

对步骤一中选定的拟合曲线,采用多元标准正态分布进行风光场景的趋势 性刻画,得到了一系列具有自相关性的数列:

Z~N(μ,∑)

式中:矩阵Z为n×T阶的矩阵,其中n是随机数序列的数量,具体含义为 生成风电出力场景的数目;T是每条随机数序列的维度,具体含义为风电出力场 景的长度也称为场景周期;μ是随机数序列的均值;∑是随机数序列的协方差矩 阵;其中,

协方差矩阵中的每一个元素均反映随机数序列和的相关性程度,随机数序 列的协方差矩阵∑中第x行第y列的元素用σ

通过上述方法生成具有相关性的随机数列后,将其作为标准正态分布的输 入,输出的结果符合均匀分布,构造成了相关的随机性数列;

步骤2-2、逆变换法抽样生成风电误差场景:

将步骤2-1获得的相关的随机性数列总的每一个元素均通过逆变换法进行 逆变换抽样,得到预测误差数列,将误差数列叠加至对应的预测功率值数列上 便得到风光出力场景;

步骤2-3、将逆变换法抽样生成的风电误差场景进行缩减:

定义场景表达式如下:

w=(q

其中,w表示风电出力场景,q

场景缩减是使缩减前与缩减后保留的场景集合间的概率距离,即下式最小:

式中:J为场景缩减所要删除的场景集合,称之为弃用场景集,J的数目通过人 为提前给定;p

获得缩减后的风电误差场景;

步骤2-4、对生成后的风电场景进行概率校准指标评价

采用概率校准BS指标来对步骤2-3获得的场景进行定量的有效性评价,此 处的有效性指生成场景和实际风光出力之间趋势一致性,BS指标公式如下:

式(6)表示了在T个周期内场景生成发生事件的比例和实际风电出力的差异 大小,BS指标值越小,算法效果越好;Z

其中,

式(7)和式(8)中,z

场景z

BS指标越小,代表该场景生成方法效果越好,越能满足实际出力场景的趋 势性;

步骤2-5、选取指标最高的风电场景

针对步骤2-4所的得风电场景指标,选取BS指标最高即为能够满足出力场 景的趋势性风电场景Z

通过上述设计方案,本发明可以带来如下有益效果:

本发明面向虚拟电厂模型采用了Double-DQN深度强化学习算法模型进行优 化求解,采用了经验回放和参数冻结机制,提升了深度强化学习算法性能,降 低了发生过估计的可能性,避免了无法收敛的情况出现,有效解决了具有随机 性、间歇性的含新能源虚拟电厂建模困难的问题。本发明在运行时间和决策效 果方面优于传统启发式算法,能实现对虚拟电厂聚合调度的快速收敛并获得趋 优解。

附图说明

以下结合附图和具体实施方式对本发明作进一步的说明:

图1为本发明一种基于深度强化学习的含风电虚拟电厂聚合调度方法中的 逆变换示意图。

具体实施方式

一种基于深度强化学习的含风电虚拟电厂聚合调度方法,包括以下步骤, 且以下步骤顺次进行:

步骤1、构建风电自适应预测模型;

步骤2、考虑趋势性随机性的风电出力场景生成;

步骤3、深度强化学习智能体搭建;

步骤4、深度强化学习环境、动作、奖励搭建;

步骤5、深度强化学习训练求得最优聚合调度结果。

所述步骤1具体包括以下步骤,且以下步骤顺次进行:

步骤1-1、构建风光自适应预测模型:

风电场的预测误差功率的概率分布与预测功率分布相关,可以将风电实测 功率分布看作是预测功率分布的条件概率分布。该方法是将所有数据按照对应 功率所在的区间分成N组,形成如下[预测功率值,实测功率值]表示的数据存 入预测模型。根据大数据统计分析预测功率值和实测功率值之间的误差,将误 差按照不同的出力范围进行区间划分。

步骤1-2选用如下多种拟合函数作为评判备选项。

1)正态分布函数

式中:随机变量x服从一个位置参数为μ.尺度参数为σ的概率分布,且其 概率密度函数f(x)的分布。这个随机变量x就称为正态随机变量,正态随机变 量服从的分布就称为正态分布,记作x~N(μ,σ

2)非参数化核平滑分布

采用Matlab的kernel核函数进行曲线拟合。

3)T位置尺度分布

式中:μ是tlocation分布的位置参数,-∞<μ<+∞,σ是tlocation 分布的尺度参数,σ>0;v是tlocation分布的形状参数,v>0;Γ(*)表示 伽马函数。形状参数v越小,tlocation分布的“尖峰程度”越高,参数v越接近 于正无穷,tlocation分布越接近于正态分布,这表明了tlocation分布比正态 分布的适用范围更广,因为tlocation分布可以通过更改参数使其“靠拢”标 准正态分布。

4)极值分布

式中:f(x)是关于x的极值分布函数;μ是极值分布的均值参数;σ是极 值分布的方差参数。

步骤1-3采用皮尔逊检验法原理进行拟合函数拟合效果检验。

由数理统计中频率与概率的关系,如果拟合函数精度高则

式中:样本容量n充分大(n≥50),n表示总体样本容量为50,n

所述步骤2具体包括以下步骤,且以下步骤顺次进行:

步骤2-1、多元标准正态分布矩阵生成具有一定相关性的随机数列:

对预测模型选定的拟合曲线,采用多元标准正态分布进行风光场景的趋势 性刻画,得到了一系列具有自相关性的数列。

Z~N(μ,∑)

式中:矩阵Z为n×T阶的矩阵,其中n是指随机数序列的数量,T是指每条 随机数序列的维度,由于这n条随机数序列是用于抽样生成风电出力场景,因此 n的具体含义为生成风电出力场景的数目,而T即为风中出力场景的长度,或者 称为场景周期,矩阵中的元素Z

协方差矩阵∑中的每一个元素均反映随机数序列和的相关性程度,随机数 序列的协方差矩阵∑中第x行第y列的元素用σ

实际上,协方差矩阵元素σ

范围参数ε可以控制列向量Z

协方差矩阵中的每一个元素反映随机数序列和的相关性程度,根据公式,取 值能够控制随机数序列的时序性,也就是控制着和的相关性。这里可以改变协 方差矩阵元素的具体大小,来控制生成风电场景的随机性和波动性,研究表明ε 通常取100至300是符合实际情况下大多数风电出力的波动要求。

通过上述方法生成具有相关性的随机数列后,将其作为标准正态分布的输 入,根据其性质输出的结果是符合均匀分布,如此便构造成了大量相关的随机 性数列,以此抽样可以符合相关数据的相关性,也符合蒙特卡罗随机法抽样思 想。

步骤2-2、逆变换法抽样生成风电误差场景图:

逆变换抽样法是根据多元标准正态分布矩阵产生的随机数列,将该数列中 的每一个元素进行下式的求解变得到,图1为逆变换示意图,图1的左图为对 应预测模型预测误差的累积概率分布F

式中:Φ(c

采用mvnrnd函数随机生成一个服从多元标准正态分布的随机数序列,序列 中一个元素为W=0.5,可以计算得到其对应的累积概率分布函数值Φ(c

将数列按照逆变换抽样法对拟合误差函数进行抽样,得到预测误差数列, 将误差数列叠加预测数列上便得到风光出力场景。

步骤2-3、后向缩减的场景缩减算法;

定义场景表达式如下:

w=(q

其中,w表示风电出力场景,q

场景缩减的思想是使缩减前与缩减后保留的场景集合间的概率距离,即下 式最小:

式中:p

1)设定J为空集。

2)在第k次迭代中,判断需要删除的场景w

3)删除w

4)如果k小于J的场景数目,则重复步骤2),否则进行步骤5)。

5)弃用集J中的场景w

式中:J(o)为弃用集J中所有被场景w

步骤2-4、对生成后的风电场景进行概率校准指标评价

针对如何评判场景的有效性,采用概率校准BS指标来对上述方法产生的场 景进行一个定量的评价。主要从对生成场景和实际风光出力之间趋势一致性方 面做出评价,具体的BS指标公式如下

式中:表示了在T个周期内场景生成发生事件的比例和实际风电出力的差 异大小,BS指标值越小,算法效果越好;z

其中,

式(7),式(8)中,P[g(z

z

场景z

步骤2-5、选取指标最高的风电场景

针对步骤2-4所的得风电场景指标,选取BS指标最高即为能够满足出力场 景的趋势性风电场景,将其用P

所述步骤3具体包括以下步骤,且以下步骤顺次进行:

步骤3-1、深度强化学习智能体搭建

深度网络在传统的学习算法中,由于维数灾难,Q-learning算法难以解决 大规模马尔科夫决策问题,故而产生了价值函数近似的深度网络学习算法。通 过神经网络的参数,满足输入一个状态值可以的到在此动作下的近似值,即: Q′(s,a,ω)≈Q(s,a)采用Double DQN求解:

1)定义两个矩阵网络Q

Q

公式(1)中,a

γ为折扣因子,0≤γ≤1,选取γ=0,则表示只考虑当前奖励,意味着采取 短视的策略;选取γ=1表示把未来的收益也加入了当前的价值中;γ决定时间 的远近对回报的影响程度,表示牺牲当前收益,换取长远收益的程度,为平衡 当前与未来,则将γ设为0到1之间,一般设定为0.9,实际可根据训练结果进 行调整。将累计回报作为评价策略优劣的评估函数。

Q

公式(2)中,b

2)初始化两个矩阵网络Q

3)Q

4)把状态s分别输入Q

5)选择Q

6)选择Q

7)将状态s′迭代状态s,重复交替更新2到6次直至达到训练次数,获得 训练后的应用于含风电虚拟电厂的深度强化学习智能体模型;

所述步骤4具体包括以下步骤,且以下步骤顺次进行:

步骤4-1、深度强化学习环境搭建

状态空间的选择关系到了深度强化学习的最终效果,由于智能体的训练是 在经过建模后的环境中进行,因此智能体只观测到真实场景下的部分状态。对 于如上模型,环境提供给智能体的信息为多个风电场出力、虚拟电厂竞标电量 (总需求状态)、分时电价、可控负荷状态和储能荷电状态。

S=[P

(3)式中:P

步骤4-2、深度强化学习动作搭建

智能体观测到环境的状态信息后,根据自身策略集,采用Double-DQN算法 在动作空间a中选择一个动作。控制的设备分别是多风电场、可控负荷、电动 汽车、储能对于风电场是功率调节,每个可控负荷,其可以接收开、断两个动 作,对于储能系统和电动汽车,可以接收充电、放电、闲置三个动作。系统的 总动作空间是多种设备动作空间的笛卡尔积,总动作空间定义如下:

a=[a

式中:a

步骤4-3、深度强化学习奖励搭建

本发明设计的奖励函数主要包括在虚拟电厂运行过程中达成虚拟电厂最佳 经济效益,在达成竞标量(总需求)的条件下,当调度超出或无法达到总需求 都会进行一定的惩罚,促使深度学习模型能向奖励值最高的调度策略学习。最 终实现多风电厂在虚拟电厂内部的聚合调度,确保风能全部消纳,提高新能源 利用率。储能电池的过放或过充电会进行惩罚。可控负荷要实现参与调控的最 大经济效益,过多的调节会影响客户满意度而进行惩罚。

r=-(o+k+m)

式中:o表示虚拟电厂运行期间为实现供用平衡,对储能电池过放电或过充电 惩罚;k表示响应激励机制,在高峰电价和高峰电价期间,可控负荷运行调节 将有更大的奖励,对低估电价和正常价格可控负荷运行将有奖励,即当电力输 出不足或电价较高时可以关闭,控制负载并在其他时间打开负载;m表示当虚 拟电厂内部平衡处于不平衡状态时,外部电网购买的电量;r表示奖励值计算函 数;

步骤5、深度强化学习训练输出最优聚合调度结果

将步骤4中获得的状态s、系统的动作a以及奖励值r带入公式(1)或公 式(2)中最终训练后应用于含风电虚拟电厂的深度强化学习智能体模型,得出 风电最优聚合调度结果。

相关技术
  • 基于深度强化学习的能源互联网中虚拟电厂经济调度方法
  • 基于场景和深度强化学习的虚拟电厂经济调度方法
技术分类

06120115573728