掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度强化学习的虚拟电厂分布式资源调度方法

文献发布时间:2024-04-18 19:58:21


一种基于深度强化学习的虚拟电厂分布式资源调度方法

技术领域

本发明属于电力技术领域,涉及一种基于深度强化学习的虚拟电厂分布式资源调度方法。

背景技术

近年来,国内外学者对虚拟电厂最优调度方法进行了广泛的研究,其方法主要包括经典方法、启发式方法和基于深度学习和强化学习的方法。经典方法主要有线性规划、混合整数线性规划等,是处理虚拟电厂优化运行问题的基本手段;然而,在实际应用中,虚拟电厂的现实机制和关系可能非常复杂,难以通过经典方法准确建模。启发式方法可以降低计算成本,缩短计算时间,并适用于包含大量整数变量和非线性约束的复杂模型,但启发式算法的成功依赖于参数的正确选择,如种群大小和突变率。如果种群规模不足会阻碍算法探索整个解空间,导致收敛到局部最优。基于深度学习和强化学习的方法包括有监督、无监督和深度强化学习方法,这类方法不一定需要大量的先验知识,考虑到虚拟电厂调度问题的复杂性、速度和计算量,基于学习的方法成为经常使用的优化方法。

发明内容

有鉴于此,本发明的目的在于提供一种基于深度强化学习的虚拟电厂分布式资源调度方法。先提出了采用综合目标函数的聚合分布式资源、暖通空调系统和其他负载的虚拟电厂调度模型,平衡负荷调节经济成本和空调舒适性成本;其后描述了用于微网能量管理的带约束的马尔可夫决策过程,提出了一种基于深度确定性策略梯度算法(DeepDeterministic Policy Gradient,DDPG)的调度问题求解方法,智能体通过利用历史和当前负荷需求、光伏输出和温度数据来确定空调运行功率、负荷调节量和充放电功率;有效利用分布式光伏资源,实施需求响应策略进行负荷调节;通过智能家居设备实现对空调的智能控制。

为达到上述目的,本发明提供如下技术方案:

一种基于深度强化学习的虚拟电厂分布式资源调度方法,该方法包括以下步骤:

步骤1:建立以经济成本和温度惩罚的综合成本最小化为目标函数的优化模型;

步骤2:将步骤1中的模型转化为马尔可夫决策模型;

步骤3:基于步骤2中的马尔可夫决策模型,使用深度神经网络构建调控智能体,并利用深度确定性策略梯度算法训练和更新神经网络内部参数;部署调度决策模型,根据模型输出结果进行调度决策;

所述步骤1具体为:

目标函数以经济成本和温度惩罚的综合成本最小化为目标函数,如下式:

式中,

约束包括:当用户在家且室内温度高于用户所能承受的温度时会产生温度惩罚,如下式:

式中,

VPP的功率平衡方程,如下式:

式中,

变频空调的运行函数包括(4)-(6),室内温度计算如下式:

式中,

空调制冷量输入计算及空调运行功率计算如下式:

式中,Q

储能的运行函数如下式:

式中,

空调运行功率上下限限制,如下式:

式中,

储能充放电功率上下限限制如式(9),从电网进口电量的限制如式(10),用户负荷削减量限制如式(11),储能状态限制如式(12):

式中

在没有智能家居设备的情况下,式(8)转化为:

可选的,所述步骤2具体为:

在马尔可夫决策过程中,智能体由深度神经网络生成,在t时刻,智能体应当决定动作

约束包括公式(10)~(11),以及(15):

将综合成本的负值设为奖励函数:

马尔可夫决策过程制定的目标函数为:

可选的,所述步骤3具体为:

元组(s

在提出的基于DDPG的优化方法中,生成一个演员深度神经网络来代表智能体,生成一个评论家深度神经网络来指导智能体;演员网络的功能标记为a

其中γ是0~1之间的折现因子;如果设为1,则评论家网络与初始目标函数完全等价,γ越小,评论家的训练收敛速度越快;训练演员网络,使评论家网络的价值最大化,如下式:

maxQ(s

将(18)-(19)转换成损失函数的形式,使随机梯度下降方法更新演员网络和评论家网络θ

本发明的有益效果在于:

(1)本公开提出一种基于综合目标函数的虚拟电厂分布式资源调度模型,实现了负荷调节经济成本和空调舒适性成本的平衡。

(2)本公开所提方法基于深度确定性策略梯度算法,使得智能体能够利用历史和当前负荷需求、光伏输出和温度数据来确定空调运行功率、储能系统的调节量和充放电功率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:

图1为日期间用户在家的比例;

图2为PPO和提出的基于DDPG算法的训练曲线;

图3为等效发电资源;

图4为等效用电设备;

图5为虚拟用户的空调制冷效果。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

基于深度强化学习的虚拟电厂分布式资源调度方法,包括如下步骤:

1、提出了采用综合目标函数的聚合分布式资源、暖通空调系统和其他负载的虚拟电厂调度模型,平衡负荷调节经济成本和空调舒适性成本:

该模型假设对不确定性的完美预测,作为后续提出的基于DDPG的方法的基准。提出了VPP调度问题的马尔可夫决策过程公式和DRL方法。

式中,

式中,

式中,

式中,

式中,Q

式中,

式中,

其中,式(1)中以经济成本和温度惩罚的综合成本为目标函数,式(2)中只有当用户在家且室内温度高于用户所能承受的温度时才会产生温度惩罚,式(3)为VPP的功率平衡方程。式(4)-(6)为变频空调的运行函数。用户可以在回家前通过智能家居设备调节空调。式(7)为总储能的运行函数。

另外,在没有智能家居设备的情况下,式(8)应转化为:

式中,

2、在马尔可夫决策过程中,智能体由深度神经网络生成,在t时刻,智能体应当决定动作

约束:

(10)-(11)

将综合成本的负值设为奖励函数:

马尔可夫决策过程制定的目标函数为:

元组(s

在提出的基于DDPG的优化方法中,生成一个演员深度神经网络来代表智能体,生成一个评论家深度神经网络来指导智能体。演员网络的功能标记为a

其中γ是0~1之间的折现因子。如果设为1,则评论家网络与初始目标函数完全等价,γ越小,评论家的训练收敛速度越快。训练演员网络,使评论家网络的价值最大化:

maxQ(s

将(18)-(19)转换成损失函数的形式,使随机梯度下降方法可以更新演员网络和评论家网络θ

验证如下:

基于中国西南地区X市的真实数据,在X市的居民中发放了1500份问卷,调查用户的家居习惯,最终回收1242份问卷。附图1为日期间用户在家的比例。根据比例曲线,生成240个不同行为的虚拟用户进行虚拟电厂模拟,选择其中3个用户如附图1和附图5所示。

选取2020年、2021年和2022年6月至9月的366天数据作为样本集。然后将总样本集分成两部分,333天作为训练集,33天作为测试集。

通过基于近端策略优化算法(Proximal Policy Optimization,PPO)和提出的基于深度确定性策略优化方法DDPG的方法对智能体进行了10小时的训练。训练曲线如附图2所示。这些曲线支持了基于DDPG的方法在收敛速度上优于基于PPO的方法,与理论最优值的差距仅为2.03%。

附图3-5为极端高温试验日,气温可达45℃时,基于DDPG调度方法的结果。在这种情况下,智能体利用智能家居设备合理控制空调的运行功率,从而显著降低空调功耗。此外,由于前期和后期分布式光伏输出不足,加上整个社会的电力短缺,在这些时期仍存在大量的负荷削减。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 一种基于深度强化学习的含风电虚拟电厂聚合调度方法
  • 一种基于深度神经网络的分布式电源虚拟电厂有功调度等值聚合方法及系统
技术分类

06120116482924