掌桥专利:专业的专利平台
掌桥专利
首页

基于近端策略优化算法的光储充电站运行优化方法及系统

文献发布时间:2023-06-19 19:28:50


基于近端策略优化算法的光储充电站运行优化方法及系统

技术领域

本发明涉及电动汽车充电站能量调度运行技术领域,具体涉及一种基于近端策略优化算法的光储充电站经济运行优化方法及系统。

背景技术

近几年,光伏-储能联合应用的模式得到迅速发展。通过将光伏和储能有机的结合,可以充分发挥其各自的优势。由于光伏发电受外界环境影响较大,出力呈现一定的波动性,因此配置储能系统可进一步加强对电动汽车充电负荷的就地补偿效果,通过管理储能电池的充放电行为实现能量在时间和空间上平移,缓解电网在高峰时段的供电压力,达到平稳配电网负荷波动、减缓配电网扩容压力、提高配电网运行经济性的目的。可见,基于光储充一体化的电动汽车充电站不仅可以实现光伏资源的就地消纳,减少充电站与配网简单连接对配电网造成的冲击影响,同时还提高了可再生能源的渗透率,实现电动汽车充电站与可再生能源的衔接,是应对能源互联网战略的重要举措。

针对光储充一体化电站的优化调度问题,现有的研究方法多聚焦于传统的数学优化建模方式。例如已有研究提出一种计及光储快充一体站的配电网日前优化调度方法,通过储能的有功和无功优化决策,从而改善充电负荷大规模接入带来的运行问题。针对孤岛式光储充电站的经济调度问题,已有研究建立了基于Stackelberg博弈的双层优化调度模型。

综合考虑一体化电站内多能源的协调互补问题属于复杂的非线性混合整数规划问题,求解难度大,且新能源的可控性需求与随机特性,大幅度增加了该问题的计算负担与求解难度,因此,基于数据驱动的强化学习方式受到了大家的广泛关注。已有研究提出了基于深度学习的无模型方法来确定现实场景中的最优调度策略,该方法以电价和电池荷电状态作为输入量,并输出实时充电/放电计划,从而达到经济高效的优化目标并满足用户的驾驶需求。

上述现有技术中的一体化电站运行调度方法的缺点为:这些方法中,优化模型多以充电站的收益最大为目标进行构建,然而针对光储充放一体站,在考虑站内经济运行的同时,仍需进一步考虑新能源的就地消纳问题。且现阶段的优化运行调度方法多集中于日前调度,因此局限于固定的调度计划,不能动态的对源、荷的随机变化做出响应。同时,现有的优化运行模型多基于传统数学优化建模,该方法仍依赖于对可再生能源和负荷的精确预测。

发明内容

本发明的目的在于提供一种基于近端策略优化算法的光储充电站经济运行优化方法及系统,以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的,本发明采取了如下技术方案:

一方面,本发明提供一种基于近端策略优化算法的光储充电站经济运行优化方法,包括:

获取实时的光储充一体站的数据信息;

利用预先训练好的运行优化模型,对获取的光储充一体站的数据信息进行处理,得到光储充一体站的最优运行出力决策;其中,将光储充一体站的历史数据信息作为训练集,采用近端策略优化算法进行所述运行优化模型的训练,获得相应决策动作;其中,训练运行优化模型的目标函数为最小化电站运行成本,运行成本包括从电网购电的成本和电储能的充放电折旧成本;约束条件包括电功率平衡约束、主电网交互功率约束、储能设备运行约束、储能荷电状态约束。

优选的,采用近端策略优化算法进行所述运行优化模型的训练,获得相应决策动作,包括:

由状态空间S、动作空间A、状态转移概率P和回报函数R构成的四元组数据{S、A、P、R},作为训练和学习的基础数据;在Actor-Critic架构下融入动态步长机制和重要性采样技术进行安全约束经济调度决策网络训练学习,通过优势函数的剪切机制限制新旧策略之间的距离,利用梯度更新机制,在奖励函数引导下寻找最优调度策略作为最终的相应决策动作。

优选的,安全约束经济调度决策网络的训练包括样本产生与提取、价值网络训练和策略网络训练三部分;

在s

优选的,在价值网络训练中,首先从样本池中提取样本序列

式中,η

式中,E(.)为期望函数,V

基于时序差分算法,推导

优选的,将优势函数

Q

V

式中,Q

优势函数

优选的,将新旧两个策略的采样概率之比融入到步长的设置中,得到策略网络的动态学习率η

式中,η

通过优势函数作为策略网络的损失函数,以引导策略网络逐步改善网络性能,因此,策略网络的参数更新如下所示:

式中,η

第二方面,本发明提供一种基于近端策略优化算法的光储充电站经济运行优化系统,包括:

获取模块,用于获取实时的光储充一体站的数据信息;

决策模块,用于利用预先训练好的运行优化模型,对获取的光储充一体站的数据信息进行处理,得到光储充一体站的最优运行出力决策;其中,将光储充一体站的历史数据信息作为训练集,采用近端策略优化算法进行所述运行优化模型的训练,获得相应决策动作;其中,训练运行优化模型的目标函数为最小化电站运行成本,运行成本包括从电网购电的成本和电储能的充放电折旧成本;约束条件包括电功率平衡约束、主电网交互功率约束、储能设备运行约束、储能荷电状态约束。

第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的基于近端策略优化算法的光储充电站经济运行优化方法。

第四方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的基于近端策略优化算法的光储充电站经济运行优化方法。

第五方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的基于近端策略优化算法的光储充电站经济运行优化方法的指令。

本发明有益效果:通过深度强化学习方法,基于综合考虑站内各类运行约束及安全约束条件,建立以站内运行成本最小为目标的一体站经济运行优化模型。通过采用近端策略优化算法(PPO算法)获得相应决策动作,结合分时电价信息,优化充电站内储能系统的运行出力情况,使动作决策更加逼近最优策略。

本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的优化运行方法的实现原理图。

图2为本发明实施例所述的优化运行方法的优化建模流程图。

图3为本发明实施例所述的考虑的电负荷、光伏发电的历史数据情况。

图4为本发明实施例所述的所考虑的分时电价信息情况。

图5为本发明实施例所述的PPO算法的训练情况。

图6为本发明实施例所述的PPO算法的储能系统调度结果。

图7为本发明实施例所述的一体站与主电网交换电功率情况。

具体实施方式

下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1提供一种基于近端策略优化算法的光储充电站经济运行优化系统,包括:

获取模块,用于获取实时的光储充一体站的数据信息;

决策模块,用于利用预先训练好的运行优化模型,对获取的光储充一体站的数据信息进行处理,得到光储充一体站的最优运行出力决策;其中,将光储充一体站的历史数据信息作为训练集,采用近端策略优化算法进行所述运行优化模型的训练,获得相应决策动作;其中,训练运行优化模型的目标函数为最小化电站运行成本,运行成本包括从电网购电的成本和电储能的充放电折旧成本;约束条件包括电功率平衡约束、主电网交互功率约束、储能设备运行约束、储能荷电状态约束。

本实施例1中,利用上述的系统,实现了基于近端策略优化算法的光储充电站经济运行优化方法,包括:

利用获取模块获取实时的光储充一体站的数据信息;

利用决策模块,基于预先训练好的运行优化模型,对获取的光储充一体站的数据信息进行处理,得到光储充一体站的最优运行出力决策;其中,将光储充一体站的历史数据信息作为训练集,采用近端策略优化算法进行所述运行优化模型的训练,获得相应决策动作。

建立的一体站经济运行优化模型中,目标函数为最小化电站运行成本,运行成本包括从电网购电的成本和电储能的充放电折旧成本;约束条件包括电功率平衡约束、主电网交互功率约束、储能设备运行约束、储能荷电状态约束。

(1)目标函数为:光储充一体化电站经济调度问题的目标是最小化电站运行成本,其包括从电网购电的成本和电储能的充放电折旧成本。一体站运行成本数学表达式为:

F=min(C

式中,C

1)电网购电成本为:

式中,P

2)电储能充放电折旧成本为:

式中,P

(2)约束条件

光储充一体化电站经济调度问题的约束包括功率平衡约束、主电网交互功率约束、储能设备运行约束和储能荷电状态约束。

1)电功率平衡约束

在时段t,电功率平衡约束可表示为:

P

式中,P

2)主电网交互功率约束

考虑到电网侧的运行稳定性,主网对一体站的功率交互有上、下限约束要求:

式中,

3)储能设备运行约束

光储充一体化电站中各设备均有设备运行的上限和下限范围,对于电储能设备充电/放电功率有:

式中,

4)储能荷电状态约束

对于电储能设备,还需要避免深度充放电对电储能的损害,因此电储能的荷电状态(SOC)被限定在一定范围内。

式中,

C

式中,Q

式中,η

此外,为保证电储能持续稳定运行,要求一个调度周期始末电储能容量相等。

采用近端策略优化算法获得相应决策动作,包括:

由状态空间S、动作空间A、状态转移概率P和回报函数R构成的四元组数据{S、A、P、R},作为训练和学习的基础数据;在Actor-Critic架构下融入动态步长机制和重要性采样技术进行安全约束经济调度决策网络训练学习,通过优势函数的剪切机制限制新旧策略之间的距离,从而确保新策略在旧策略的近端产生;利用梯度更新机制,在奖励函数引导下寻找最优调度策略作为最终的相应决策动作。

安全约束经济调度决策网络的训练包括样本产生与提取、价值网络训练和策略网络训练三部分;

首先在s

在价值网络训练中,首先从样本池中提取样本序列〈s

式中,η

式中,E(.)为期望函数,V

基于时序差分算法,推导

将优势函数

Q

V

式中,Q

优势函数

将新旧两个策略的采样概率之比融入到步长的设置中,得到策略网络的动态学习率η

式中,η

通过优势函数作为策略网络的损失函数,以引导策略网络逐步改善网络性能,因此,策略网络的参数更新如下所示:

式中,η

实施例2

本实施例在站内光伏发电功率及负荷变动数据的基础上,建立以站内运行成本最小为目标的一体站经济运行优化模型。通过将相关数据输入至目标网络,采用近端策略优化算法获得相应决策动作,从而实现对站内储能系统出力的优化控制。提供了基于近端策略优化算法的光储充电站经济运行优化方法。

如图1所示,该方法建立以一体化电站站内运行成本最小为目标的经济调度模型,通过PPO算法的策略网络与一体站环境的不断交互,生成一批可以覆盖整个给定的电负荷及光伏出力区间内的训练样本,并将其放入样本池中,供策略和价值网络学习训练。PPO算法利用强化学习的自我学习机制以及价值网络逐步改善策略网络的决策性能,探索学习不同电负荷、光伏出力场景下的储能最优调度计划,最终实现对调度问题的在线快速决策。

基于近端策略优化算法的光储充电站经济运行优化方法,包括如下的处理步骤:

步骤S1:基于设定的目标函数、约束条件和决策变量建立一体站经济运行优化模型。其具体步骤包括:

(1)目标函数

光储充一体化电站经济调度问题的目标是最小化电站运行成本,其包括从电网购电的成本和电储能的充放电折旧成本。一体站运行成本数学表达式为:

F=min(C

式中,C

1)电网购电成本

式中,P

2)电储能充放电折旧成本

式中,P

(2)约束条件

光储充一体化电站经济调度问题的约束包括功率平衡约束、主电网交互功率约束、储能设备运行约束和储能荷电状态约束。

1)电功率平衡约束

在时段t,电功率平衡约束可表示为:

P

式中,P

2)主电网交互功率约束

考虑到电网侧的运行稳定性,主网对一体站的功率交互有上、下限约束要求:

式中,

3)储能设备运行约束

光储充一体化电站中各设备均有设备运行的上限和下限范围,对于电储能设备充电/放电功率有:

式中,

(4)储能荷电状态约束

对于电储能设备,还需要避免深度充放电对电储能的损害,因此电储能的荷电状态(SOC)被限定在一定范围内。

式中,

C

式中,Q

式中,η

此外,为保证电储能持续稳定运行,要求一个调度周期始末电储能容量相等。

步骤S2:在站内光伏发电功率及负荷变动数据的基础上,采用近端策略优化算法(PPO算法)获得相应站内储能系统决策动作,从而实现对一体化电站内各能源间的优化控制。其具体步骤包括:

(1)状态空间S

在光储充一体站经济运行优化模型中,选取用户电负荷需求量、光伏发电功率、电储能荷电状态以及所处的调度时段作为状态变量,由此可建立经济运行优化模型的状态空间,如下所示:

S={S

式中,S

(2)动作空间A

为确定光储充一体站的储能最优出力计划,将其实际出力设置为决策变量A

A={A

式中,A

(3)奖励函数R

为了训练智能体生成经济、安全、可行的调度计划,结合经济调度成本构建调度计划智能体的奖励函数,如下所示:

式中,r

首先在s

如图2所示,在价值网络训练中,首先从样本池中提取样本序列s

式中,η

式中,E(.)为期望函数,V

为进一步评估运行计划的优劣,提高PPO算法的收敛性,将优势函数

Q

V

式中,Q

优势函数

此外,PPO算法将新旧两个策略的采样概率之比融入到步长的设置中,得到策略网络的动态学习率η

式中,η

通过优势函数作为策略网络的损失函数,以引导策略网络逐步改善网络性能,因此,策略网络的参数更新如下所示;

式中,η

在已有的光伏-负荷数据(如图3所示)及分时电价信息(如图4所示)的基础上,设置经济调度模型的调度周期为24h,调度时段为15min(一个周期内共96个时段),采用PPO强化学习算法进行自我探索学习,通过1000回合的训练后结果收敛,得到站内储能系统的经济调度策略,训练结果如图5、图6、图7所示。

通过设计上述基于PPO强化学习算法的一体站经济运行控制策略,有效解决了含有可再生能源发电及用户负荷需求随机波动等不确定性因素的优化决策问题。在完整优化周期内相关数据的驱动下,实现优化光储充一体化电站场景内储能系统的调度出力情况,使动作决策更加逼近最优策略。

实施例3

本发明实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现基于近端策略优化算法的光储充电站经济运行优化方法,该方法包括:

获取实时的光储充一体站的数据信息;

利用预先训练好的运行优化模型,对获取的光储充一体站的数据信息进行处理,得到光储充一体站的最优运行出力决策;其中,将光储充一体站的历史数据信息作为训练集,采用近端策略优化算法进行所述运行优化模型的训练;其中,训练运行优化模型的目标函数为最小化电站运行成本,运行成本包括从电网购电的成本和电储能的充放电折旧成本;约束条件包括电功率平衡约束、主电网交互功率约束、储能设备运行约束、储能荷电状态约束。

实施例4

本发明实施例4提供一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现基于近端策略优化算法的光储充电站经济运行优化方法,该方法包括:

获取实时的光储充一体站的数据信息;

利用预先训练好的运行优化模型,对获取的光储充一体站的数据信息进行处理,得到光储充一体站的最优运行出力决策;其中,将光储充一体站的历史数据信息作为训练集,采用近端策略优化算法进行所述运行优化模型的训练;其中,训练运行优化模型的目标函数为最小化电站运行成本,运行成本包括从电网购电的成本和电储能的充放电折旧成本;约束条件包括电功率平衡约束、主电网交互功率约束、储能设备运行约束、储能荷电状态约束。

实施例5

本发明实施例5提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现基于近端策略优化算法的光储充电站经济运行优化方法的指令,该方法包括:

获取实时的光储充一体站的数据信息;

利用预先训练好的运行优化模型,对获取的光储充一体站的数据信息进行处理,得到光储充一体站的最优运行出力决策;其中,将光储充一体站的历史数据信息作为训练集,采用近端策略优化算法进行所述运行优化模型的训练;其中,训练运行优化模型的目标函数为最小化电站运行成本,运行成本包括从电网购电的成本和电储能的充放电折旧成本;约束条件包括电功率平衡约束、主电网交互功率约束、储能设备运行约束、储能荷电状态约束。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。

技术分类

06120115928494