导航：首页> 烟草；雪茄烟；纸烟；吸烟者用品>一种基于深度强化学习的含风电虚拟电厂聚合调度方法

一种基于深度强化学习的含风电虚拟电厂聚合调度方法

文献发布时间：2023-06-19 18:27:32

技术领域

本发明属于电力系统调度技术领域，特别是涉及到一种基于深度强化学习的含风电虚拟电厂聚合调度方法。

背景技术

未来新能源大规模并网是必然趋势。受天气的影响，使风电存在随机性、波动性和间歇性。这些因素的存在会使风电出力的不确定性增加，为新能源的消纳以及电力系统的调度和运行带来影响。随着能源互联网、智慧能源等新颖概念相继提出，多能互补正是能源互联网、智慧能源的落脚点。虚拟电厂作为能源互联网重要组态，可实现区域性多能源聚合调控，对解决好新能源消纳，电网安全稳定运行具有重要意义。

目前，常见的调度方法一般采用约束求解法，启发式智能算法，或者求解器求解。虽然以上这些方法具有一定的优势，但会发生过估计和无法收敛的情况，对具有随机性、间歇性的含新能源虚拟电厂建模十分困难。

因此现有技术当中亟需要一种新型的技术方案来解决这一问题。

发明内容

本发明所要解决的技术问题是：提供一种基于深度强化学习的含风电虚拟电厂聚合调度方法用于解决常见的调度方法对具有随机性、间歇性的含新能源虚拟电厂建模困难的技术问题。

一种基于深度强化学习的含风电虚拟电厂聚合调度方法，包括以下步骤，并且以下步骤顺次进行：

步骤一、构建风电自适应预测模型

所述模型中存储的历史数据均按照对应功率所在的区间进行分组，每组中的数据均以[预测功率值，实测功率值]的形式表示，将预测功率值和实测功率值用多种拟合函数进行拟合并比较，获得最佳拟合曲线；

步骤二、获得最接近实际出力的趋势性风电出力场景

对最佳拟合曲线进行风光场景的趋势性刻画并进行修正获得最接近实际出力的趋势性风电出力场景并获得在t时段的功率输出P

步骤三、通过深度网络学习算法搭建应用于含风电虚拟电厂的深度强化学习智能体模型

1)定义两个矩阵网络Q

公式(1)中，a

γ为折扣因子，0≤γ≤1，选取γ＝0，则表示只考虑当前奖励，意味着采取短视的策略；选取γ＝1表示把未来的收益也加入了当前的价值中；为平衡当前与未来，则将γ设为0到1之间的一个值；

公式(2)中，b

2)初始化两个矩阵网络Q

3)Q

4)把状态s分别输入Q

5)选择Q

6)选择Q

7)将状态s′迭代状态s，重复交替更新直至达到训练次数，获得训练后的应用于含风电虚拟电厂的深度强化学习智能体模型；

步骤四、对应用于含风电虚拟电厂的深度强化学习智能体模型搭建深度强化学习环境、深度强化学习动作和深度强化学习奖励，分别获得状态s、系统的动作a以及奖励值r：

S＝[P

(3)式中：P

a＝[a

(4)式中：a

r＝-(o+k+m) (5)

(5)式中：o表示虚拟电厂运行期间为实现供用平衡，对储能电池过放电或过充电惩罚；k表示响应激励机制；m表示当虚拟电厂内部平衡处于不平衡状态时，外部电网购买的电量；r表示奖励值计算函数；

步骤五、将步骤四中获得的状态s、系统的动作a以及奖励值r带入公式 (1)或公式(2)中最终训练后的应用于含风电虚拟电厂的深度强化学习智能体模型，得出风电最优聚合调度结果。

所述步骤一中的多种拟合函数包括正态分布函数、非参数化核平滑分布函数、T位置尺度分布函数以及极值分布函数。

所述步骤二中获得最接近实际出力的趋势性风电出力场景的具体步骤为：

步骤2-1、多元标准正态分布矩阵生成具有一定相关性的随机数列：

对步骤一中选定的拟合曲线，采用多元标准正态分布进行风光场景的趋势性刻画，得到了一系列具有自相关性的数列：

Z～N(μ，∑)

式中：矩阵Z为n×T阶的矩阵，其中n是随机数序列的数量，具体含义为生成风电出力场景的数目；T是每条随机数序列的维度，具体含义为风电出力场景的长度也称为场景周期；μ是随机数序列的均值；∑是随机数序列的协方差矩阵；其中，

协方差矩阵中的每一个元素均反映随机数序列和的相关性程度，随机数序列的协方差矩阵∑中第x行第y列的元素用σ

通过上述方法生成具有相关性的随机数列后，将其作为标准正态分布的输入，输出的结果符合均匀分布，构造成了相关的随机性数列；

步骤2-2、逆变换法抽样生成风电误差场景：

将步骤2-1获得的相关的随机性数列总的每一个元素均通过逆变换法进行逆变换抽样，得到预测误差数列，将误差数列叠加至对应的预测功率值数列上便得到风光出力场景；

步骤2-3、将逆变换法抽样生成的风电误差场景进行缩减：

定义场景表达式如下：

w＝(q

其中，w表示风电出力场景，q

场景缩减是使缩减前与缩减后保留的场景集合间的概率距离，即下式最小：

式中：J为场景缩减所要删除的场景集合，称之为弃用场景集，J的数目通过人为提前给定；p

获得缩减后的风电误差场景；

步骤2-4、对生成后的风电场景进行概率校准指标评价

采用概率校准BS指标来对步骤2-3获得的场景进行定量的有效性评价，此处的有效性指生成场景和实际风光出力之间趋势一致性，BS指标公式如下：

式(6)表示了在T个周期内场景生成发生事件的比例和实际风电出力的差异大小，BS指标值越小，算法效果越好；Z

其中，

式(7)和式(8)中，z

场景z

BS指标越小，代表该场景生成方法效果越好，越能满足实际出力场景的趋势性；

步骤2-5、选取指标最高的风电场景

针对步骤2-4所的得风电场景指标，选取BS指标最高即为能够满足出力场景的趋势性风电场景Z

通过上述设计方案，本发明可以带来如下有益效果：

本发明面向虚拟电厂模型采用了Double-DQN深度强化学习算法模型进行优化求解，采用了经验回放和参数冻结机制，提升了深度强化学习算法性能，降低了发生过估计的可能性，避免了无法收敛的情况出现，有效解决了具有随机性、间歇性的含新能源虚拟电厂建模困难的问题。本发明在运行时间和决策效果方面优于传统启发式算法，能实现对虚拟电厂聚合调度的快速收敛并获得趋优解。

附图说明

以下结合附图和具体实施方式对本发明作进一步的说明：

图1为本发明一种基于深度强化学习的含风电虚拟电厂聚合调度方法中的逆变换示意图。

具体实施方式

一种基于深度强化学习的含风电虚拟电厂聚合调度方法，包括以下步骤，且以下步骤顺次进行：

步骤1、构建风电自适应预测模型；

步骤2、考虑趋势性随机性的风电出力场景生成；

步骤3、深度强化学习智能体搭建；

步骤4、深度强化学习环境、动作、奖励搭建；

步骤5、深度强化学习训练求得最优聚合调度结果。

所述步骤1具体包括以下步骤，且以下步骤顺次进行：

步骤1-1、构建风光自适应预测模型：

风电场的预测误差功率的概率分布与预测功率分布相关，可以将风电实测功率分布看作是预测功率分布的条件概率分布。该方法是将所有数据按照对应功率所在的区间分成N组，形成如下[预测功率值，实测功率值]表示的数据存入预测模型。根据大数据统计分析预测功率值和实测功率值之间的误差，将误差按照不同的出力范围进行区间划分。

步骤1-2选用如下多种拟合函数作为评判备选项。

1)正态分布函数

式中：随机变量x服从一个位置参数为μ.尺度参数为σ的概率分布，且其概率密度函数f(x)的分布。这个随机变量x就称为正态随机变量，正态随机变量服从的分布就称为正态分布，记作x～N(μ，σ

2)非参数化核平滑分布

采用Matlab的kernel核函数进行曲线拟合。

3)T位置尺度分布

式中：μ是tlocation分布的位置参数，-∞＜μ＜+∞，σ是tlocation 分布的尺度参数，σ＞0；v是tlocation分布的形状参数，v＞0；Γ(*)表示伽马函数。形状参数v越小，tlocation分布的“尖峰程度”越高，参数v越接近于正无穷，tlocation分布越接近于正态分布，这表明了tlocation分布比正态分布的适用范围更广，因为tlocation分布可以通过更改参数使其“靠拢”标准正态分布。

4)极值分布

式中：f(x)是关于x的极值分布函数；μ是极值分布的均值参数；σ是极值分布的方差参数。

步骤1-3采用皮尔逊检验法原理进行拟合函数拟合效果检验。

由数理统计中频率与概率的关系，如果拟合函数精度高则

式中：样本容量n充分大(n≥50)，n表示总体样本容量为50，n

所述步骤2具体包括以下步骤，且以下步骤顺次进行：

步骤2-1、多元标准正态分布矩阵生成具有一定相关性的随机数列：

对预测模型选定的拟合曲线，采用多元标准正态分布进行风光场景的趋势性刻画，得到了一系列具有自相关性的数列。

Z～N(μ，∑)

式中：矩阵Z为n×T阶的矩阵，其中n是指随机数序列的数量，T是指每条随机数序列的维度，由于这n条随机数序列是用于抽样生成风电出力场景，因此 n的具体含义为生成风电出力场景的数目，而T即为风中出力场景的长度，或者称为场景周期，矩阵中的元素Z

协方差矩阵∑中的每一个元素均反映随机数序列和的相关性程度，随机数序列的协方差矩阵∑中第x行第y列的元素用σ

实际上，协方差矩阵元素σ

范围参数ε可以控制列向量Z

协方差矩阵中的每一个元素反映随机数序列和的相关性程度，根据公式，取值能够控制随机数序列的时序性，也就是控制着和的相关性。这里可以改变协方差矩阵元素的具体大小，来控制生成风电场景的随机性和波动性，研究表明ε 通常取100至300是符合实际情况下大多数风电出力的波动要求。

通过上述方法生成具有相关性的随机数列后，将其作为标准正态分布的输入，根据其性质输出的结果是符合均匀分布，如此便构造成了大量相关的随机性数列，以此抽样可以符合相关数据的相关性，也符合蒙特卡罗随机法抽样思想。

步骤2-2、逆变换法抽样生成风电误差场景图：

逆变换抽样法是根据多元标准正态分布矩阵产生的随机数列，将该数列中的每一个元素进行下式的求解变得到，图1为逆变换示意图，图1的左图为对应预测模型预测误差的累积概率分布F

式中：Φ(c

采用mvnrnd函数随机生成一个服从多元标准正态分布的随机数序列，序列中一个元素为W＝0.5，可以计算得到其对应的累积概率分布函数值Φ(c

将数列按照逆变换抽样法对拟合误差函数进行抽样，得到预测误差数列，将误差数列叠加预测数列上便得到风光出力场景。

步骤2-3、后向缩减的场景缩减算法；

定义场景表达式如下：

w＝(q

其中，w表示风电出力场景，q

场景缩减的思想是使缩减前与缩减后保留的场景集合间的概率距离，即下式最小：

式中：p

1)设定J为空集。

2)在第k次迭代中，判断需要删除的场景w

3)删除w

4)如果k小于J的场景数目，则重复步骤2)，否则进行步骤5)。

5)弃用集J中的场景w

式中：J(o)为弃用集J中所有被场景w

步骤2-4、对生成后的风电场景进行概率校准指标评价

针对如何评判场景的有效性，采用概率校准BS指标来对上述方法产生的场景进行一个定量的评价。主要从对生成场景和实际风光出力之间趋势一致性方面做出评价，具体的BS指标公式如下

式中：表示了在T个周期内场景生成发生事件的比例和实际风电出力的差异大小，BS指标值越小，算法效果越好；z

其中，

式(7)，式(8)中，P[g(z

场景z

步骤2-5、选取指标最高的风电场景

针对步骤2-4所的得风电场景指标，选取BS指标最高即为能够满足出力场景的趋势性风电场景，将其用P

所述步骤3具体包括以下步骤，且以下步骤顺次进行：

步骤3-1、深度强化学习智能体搭建

深度网络在传统的学习算法中，由于维数灾难，Q-learning算法难以解决大规模马尔科夫决策问题，故而产生了价值函数近似的深度网络学习算法。通过神经网络的参数，满足输入一个状态值可以的到在此动作下的近似值，即： Q′(s，a，ω)≈Q(s，a)采用Double DQN求解：

1)定义两个矩阵网络Q

公式(1)中，a

γ为折扣因子，0≤γ≤1，选取γ＝0，则表示只考虑当前奖励，意味着采取短视的策略；选取γ＝1表示把未来的收益也加入了当前的价值中；γ决定时间的远近对回报的影响程度，表示牺牲当前收益，换取长远收益的程度，为平衡当前与未来，则将γ设为0到1之间，一般设定为0.9，实际可根据训练结果进行调整。将累计回报作为评价策略优劣的评估函数。

公式(2)中，b

2)初始化两个矩阵网络Q

3)Q

4)把状态s分别输入Q

5)选择Q

6)选择Q

7)将状态s′迭代状态s，重复交替更新2到6次直至达到训练次数，获得训练后的应用于含风电虚拟电厂的深度强化学习智能体模型；

所述步骤4具体包括以下步骤，且以下步骤顺次进行：

步骤4-1、深度强化学习环境搭建

状态空间的选择关系到了深度强化学习的最终效果，由于智能体的训练是在经过建模后的环境中进行，因此智能体只观测到真实场景下的部分状态。对于如上模型，环境提供给智能体的信息为多个风电场出力、虚拟电厂竞标电量 (总需求状态)、分时电价、可控负荷状态和储能荷电状态。

S＝[P

(3)式中：P

步骤4-2、深度强化学习动作搭建

智能体观测到环境的状态信息后，根据自身策略集，采用Double-DQN算法在动作空间a中选择一个动作。控制的设备分别是多风电场、可控负荷、电动汽车、储能对于风电场是功率调节，每个可控负荷，其可以接收开、断两个动作，对于储能系统和电动汽车，可以接收充电、放电、闲置三个动作。系统的总动作空间是多种设备动作空间的笛卡尔积，总动作空间定义如下：

a＝[a

式中：a

步骤4-3、深度强化学习奖励搭建

本发明设计的奖励函数主要包括在虚拟电厂运行过程中达成虚拟电厂最佳经济效益，在达成竞标量(总需求)的条件下，当调度超出或无法达到总需求都会进行一定的惩罚，促使深度学习模型能向奖励值最高的调度策略学习。最终实现多风电厂在虚拟电厂内部的聚合调度，确保风能全部消纳，提高新能源利用率。储能电池的过放或过充电会进行惩罚。可控负荷要实现参与调控的最大经济效益，过多的调节会影响客户满意度而进行惩罚。

r＝-(o+k+m)

式中：o表示虚拟电厂运行期间为实现供用平衡，对储能电池过放电或过充电惩罚；k表示响应激励机制，在高峰电价和高峰电价期间，可控负荷运行调节将有更大的奖励，对低估电价和正常价格可控负荷运行将有奖励，即当电力输出不足或电价较高时可以关闭，控制负载并在其他时间打开负载；m表示当虚拟电厂内部平衡处于不平衡状态时，外部电网购买的电量；r表示奖励值计算函数；

步骤5、深度强化学习训练输出最优聚合调度结果

将步骤4中获得的状态s、系统的动作a以及奖励值r带入公式(1)或公式(2)中最终训练后应用于含风电虚拟电厂的深度强化学习智能体模型，得出风电最优聚合调度结果。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：纪秀;李聪;戚成龙;李德鑫;王佳蕊;郎超越;张红;王晓丹;李蒙;王合心;白杨;
专利申请人：长春工程学院;吉林省电力科学研究院有限公司;

上一篇：一种气溶胶生成装置控制方法和装置
下一篇：一种基于WEB的网络交换设备管理系统、方法及电子设备