掌桥专利:专业的专利平台
掌桥专利
首页

一种考虑源荷储互动的虚拟电厂能量协同优化方法

文献发布时间:2023-06-19 12:24:27



专利领域

本发明属于电力系统优化调度领域,具体涉及一种考虑源荷储互动的虚拟电厂能量协同优化方法。

背景技术

2016年能源局发布的《能源生产和消费革命战略》中明确表示2030年全国非化石能源发电占比要达到15%,2050年则要超过50%。在此背景下以分布式电源(distributedgenerator,DG)为主的发电行业迅速发展,所占比重逐年增长。DG发电具有很多优点如靠近用户侧弥补了集中式发电的不足,降低了输送损耗,但是,DG由于存在容量小、数量大、分布不均等问题,使得接入会给电网的稳定运行带来了潮流改变、谐波变化、电压闪变等技术难题,大电网往往限制其接入。有文献明确指出单纯的从源源协调,源荷、源储互动等方面进行研究难以实现智能电网的发展需求,只有源荷储全面互动、协调平衡才能适应智能电网的发展需求。虚拟电厂可以有效地将DG、储能系统、可控负荷、电动汽车等分布式能源(distributed energy resources,DERs)聚合及协调优化,作为一个特殊电厂进行统一管理并参与电力市场调度。但现有的VPP能量管理方面的研究主要是以运行成本最低或收益最大为目标,采用线性、动态规划或启发式算法来实现优化求解,但是这种优化方式依赖于物理模型或数学模型的准确建立,求解时间长,在分布式能源出力不确定、负荷随机波动等实际情况下,传统解法所得结果与实际电网运行需求具有较大误差。所以,需要一种不需要精确建模、能快速求解的考虑源荷储互动的虚拟电厂能量协同优化方法。

发明内容

1、一种考虑源荷储互动的虚拟电厂能量协同优化方法主要包含如下步骤:

步骤A.提出虚拟电厂能量管理系统架构,对含有光-蓄-荷的互补系统构建虚拟电厂优化调度模型,并提出系统约束条件;

步骤B.构建用于VPP能量管理的马尔科夫决策模型,确定智能体决策所需的输入状态空间s

步骤C.构建基于DDQN算法的虚拟电厂能量优化管理模型,进行智能体训练;

步骤D.通过在线运行状态数据采集,输入状态送给训练后的智能体,智能体根据接受状态给出蓄电池以及可中断负荷功率优化结果。

2、步骤A中虚拟电厂优化调度模型具体为:

目标在满足安全约束条件下,研究的目标函数为所有优化时间段内总收益最大,即

式中,T为优化周期本文取一天96个15min;

考虑如下约束:

1)功率平衡约束

本发明的未考虑系统网损,因此系统功率应满足约束为:

式中

2)蓄电池约束

为了保证蓄电池正常工作,在进行优化时蓄电池充放电应该满足电池充/放电速率约束以及电池容量约束:

式(3)为充/放电速率约束,基于对电池使用寿命、经济性等方面的考虑,电池的充放电速率不能过高,也不能过低,本发明固定充放电速率进行研究。式(4)为蓄电池荷电状态约束,荷电状态其数值上定义为剩余容量占电池容量的比值,因此对荷电状态约束可反映对电池容量的约束。上式中μ为蓄电池效率;

3)可中断负荷约束

式中

3、步骤B中基于VPP能量管理的马尔科夫决策模型具体为:

1)状态。假设虚拟电厂中各元件均安装量测装置,可通过信息采集系统获得观测数据。同时光伏、负荷的变化与时刻t紧密相关,所解决的问题观测状态可以选择时间序列、光伏发电量、基础负荷耗电量、可中断负荷量以及蓄电池的荷电状态,则s

其中t表示的当前时刻,

2)动作。动作的选取又是决策过程的体现,在本方法所设定的模型中,可中断负荷的中断与储能系统的充放电是所提出能量优化的核心,为此我们选择IL与蓄电池的动作组合作为控制动作。

式中a

则两者功率的集合为

则以功率增量的蓄电池电量表示变为:

又考虑到约束条件限制,因此则变为:

式中,

IL与储能系统需要根据当前的状态进行动作策略的选取,因此设置即时奖励函数,立即获得动作和环境的优劣评估值,奖励函数设置如下:

总的奖励为三部分组成,其中w

在此处的奖励函数步骤A所给出的目标函数与约束条件相对应,通过奖励函数的设置使得该智能体往符合约束条件的方向调整。

4、步骤C中的构建基于DDQN算法的VPP能量优化管理模型具体为:

在本方法中,采用状态-动作估计值函数来表示状态S

其中α是学习率,它介于0、1之间,代表了保留先前训练的结果的程度,值越大则保留原来训练结果程度越小。在样本数与训练次数充足情况下,通过这样的值迭代算法,Q函数最终收敛到最优状态-动作值。

本方法采用DDQN算法构造Q函数,DDQN将Q网络分为动作函数V和优势函数A两个部分,即可将价值函数重写为:

Q(s,a)=V(s)+A(s,a) (18)

又因为每次的控制只能得到一个最佳Q值,无法拆解成具体的动作函数值与优势函数值,为了消除多余自由度,故对优势函数进行去中心化处理,因此更新后的价值函数可以表示为:

其中A表示所有可执行动作的集合,|A|代表所有可执行动作的数量。

随后进行基于DDQN算法的智能体进行训练,具体流程如下表述:

(1)初始化阶段,在此阶段需要设置DDQN算法的超参数,初始化经验回放池与神经网络。

(2)经验积累阶段,详细的说就是随着时间步数的增加,根据观测所得VPP状态结合贪心策略进行动作选取,并将状态动作元组连续存储在回放池中,进行经验积累。

(3)最后当池中的样本数量累计超过设定的重播数量开始M值时,将从池中随机抽取一批n的样本,分别计算样本的目标Q值和预测Q值,基于这些值,采用公式计算误差函数,采用小批量梯度下降法更新神经网络中的权重。DDQN算法流程图如图2所示。

5.在步骤C训练好的模型下,通过在线运行状态数据采集,输入状态送给训练后的智能体,智能体根据接受状态给出蓄电池以及可中断负荷功率优化结果,实现虚拟电厂能量优化管理。

本发明基于电网在线运行状态数据采集,使用系统可观测状态作为数据样本,设计了一种采用DDQN结构的无模型深度强化学习方法来进行能量管理优化。构建了含有光伏、蓄电池、可中断负荷的基于DDQN的VPP体系结构,接着为了获得最大的长期利润,将VPP的能量管理问题公式化为MDP,根据系统运行具体要求确定观测状态、执行动作以及回报激励。同时定义了VPP系统的状态动作估计值函数并引入了经验回放池、贪心策略、批量梯度下降法及冻结网络等方法进行神经网络的学习与训练,最后将基于DDQN的DRL算法被应用到具有最大累积奖励的MDP求解中。

所建立的基于DDQN的虚拟电厂能量协同优化方法,不依赖于精确物理模型的建立,同时具有快速求解的特征,能够在满足基础负荷需求的前提下,实现蓄电池与可中断负荷能量优化管理,实现利益最大化。本模型在建模方式上具有一般性,适用范围广泛,易推广至虚拟电厂能量管理优化、需求侧资源能量管理优化等领域。

附图说明

1、图1为虚拟电厂能量协同优化方法流程图。

2、图2为含源-荷-储的虚拟电厂物理模型。

3、图3为DDQN算法流程图。

4、图4为某典型日优化结果图。

具体实施方式

本发明提供一种考虑源荷储互动的虚拟电厂能量协同优化方法;下面结合附图和实施例对本发明予以说明。

图1所示为虚拟电厂能量协同优化流程图。图中包含如下步骤:

步骤A.提出虚拟电厂能量管理系统架构,对含有光-蓄-荷的互补系统构建虚拟电厂优化调度模型,并提出系统约束条件;

步骤B.构建用于VPP能量管理的马尔科夫决策模型,确定智能体决策所需的输入状态空间s

步骤C.构建基于DDQN算法的虚拟电厂能量优化管理模型,进行智能体训练;

步骤D.通过在线运行状态数据采集,输入状态送给训练后的智能体,智能体根据接受状态给出蓄电池以及可中断负荷功率优化结果。

上述步骤是在图2的虚拟电厂物理框架下完成,该框架构建了一个小型虚拟电厂,采用集中控制的方式,分散在输配电网络中的各个单元通过与控制中心的双向通信得到协调。各单元将自己的运行状态等信息通过信道传送给控制中心,控制中心则将调度指令下放至各参与单元,各单元之间通过能量网进行传输。

上述步骤具体实施说明如下:

步骤A:提出虚拟电厂能量管理系统架构,对含有光-蓄-荷的互补系统构建虚拟电厂优化调度模型,并提出系统约束条件,具体包括:

步骤A1:构建虚拟电厂能量管理系统框架,具体来说,在虚拟电厂控制中心的能量管理系统通过通信技术采集终端的信息,以获得状态动作转换数据包括s

步骤A2:构建虚拟电厂优化调度模型,并提出约束条件:

式(20)为目标函数,T为优化周期本文取一天96个15min;

步骤B:构建用于VPP能量管理的马尔科夫决策模型,确定智能体决策所需的输入状态空间s

步骤B1:构建状态模型。

其中t表示的当前时刻,

步骤B2:选取动作。

式中a

步骤B3:设置奖励函数:

步骤C:构建基于DDQN算法的虚拟电厂能量优化管理模型,进行智能体训练。

步骤C1:构建基于DDQN算法的状态-动作价值函数。

步骤C2:设计基于DDQN的能量优化算法,主要包括以下方面:

1)构建两个神经网络,一个用来拟合V(s

2)建立具有一定容量经验回收池,以减轻数据之间的强相关性。采用经验重播将每个时间步的(s

3)引入ε-greedy进行策略改进,以选取合适的动作,如公式所示。

其中

4)使用小批量梯度下降法进行Q网络参数更新训练,定义目标Q值与神经网络输出之间的均方误差为:

同时为了固定目标估值网络,稳定训练过程,进行目标网络冻结,即设置两个神经网络,一个是目标网络,一个是预测网络,在训练时,目标网络仅用于计算目标

步骤C3:使用Python3.7及MXNet框架实现DDQN算法的虚拟电厂能量优化模型训练。

步骤D:通过在线运行状态数据采集,输入状态送给训练后的智能体,智能体根据接受状态给出蓄电池以及可中断负荷功率优化结果。

本发明选取美国纽约某地区的2019年5月1日-2019年10月31日的五个月的光伏、负荷15分钟级数据来对算法进行训练及验证,并假设储能系统容量为500kW·h,初始容量为200kW·h,电池效率η=95%,电池的荷电状态范围为10%≤SOC≤90%,最大充电、放电速率均为100kW/h。假设可中断负荷按照基础负荷的40%进行实时变化,最大可完全切除,补偿电价为0.9元/kW。系统上网电价设置为1元/kW,电网分时电价如表1所示,设置三个情景进行仿真分析。

表1电网分时电价

DDQN结构设置中状态网络和动作优势网络的输入层都有5个神经元,两个隐藏层均为256个神经元,使用ReLU作为激活函数,输出层分别为1个和6个神经元(情景2为3个,即动作组合数),所有这些层都采用全连接。DQN算法的输出层则直接为Q值估计值即6个神经元,并未分成两个神经网络。算法的成功收敛是各参数相互配合的结果,其中折扣因子γ=0.95,explore_ratio=1,总共训练轮数Episodes为3000,每轮交互96次,其他相关具体参数见下表2。

表2DRL算法的超参数

发明效果

相较于现有技术,本发明具有如下优点:

1.本发明构建的基于DDQN的虚拟电厂能量管理模型,不需要精确物理模型的建立,并且在缺乏初始环境信息的情况下,通过环境与智能体的交互学习,进行累积奖励以此获得最优的控制决策,在满足基础负荷的情况下,减VPP的运营成本,增大售电收益。

2.本发明在马尔科夫决策过程中的动作选取时,为了符合约束条件限制,加入了蓄电池功率约束,减少了训练过程中错误动作的选取,有利于训练的收敛。

3.本发明构建的基于DDQN的虚拟电厂能量管理算法构建了两个神经网络分别拟合状态、动作,并建立具有一定容量经验回收池以减轻数据之间的强相关性,引入ε-greedy进行策略改进,以选取合适的动作,采用小批量梯度下降法进行Q网络参数更新训练,采用网络冻结方式稳定训练过程。

4.本发明利用蓄电池的快速精准动态响应能力以及可中断负荷的能量转移性质,实现了源荷储互动协同优化管理,有效提高了VPP收益。通过引入蓄电池配合,每日平均购电量下降,每日平均收益增加。同时通过表3可知,使用DDQN算法进行优化会获得比使用DQN算法收益更高。由图4可知,通过引入蓄电池和IL需求响应管理,达到尽可能增大收益的目的,在蓄电池根据价格变化进行“低储高发”的同时,在购电高峰期实现需求响应管理进行IL切断,减少购电量。

表3月总收益比较

5.本发明在建模方式上具有一般性,不具有任何特殊的应用条件,适用范围广泛,易推广至分布式能源需求响应能量管理等领域。

相关技术
  • 一种考虑源荷储互动的虚拟电厂能量协同优化方法
  • 考虑源荷储协同运行的微电网储能优化配置方法
技术分类

06120113283396