掌桥专利:专业的专利平台
掌桥专利
首页

分层多智能体深度强化学习配电网电压调节方法

文献发布时间:2023-06-19 19:30:30


分层多智能体深度强化学习配电网电压调节方法

技术领域

本发明属于人工智能与控制系统交叉技术领域,更具体地说,涉及一种分层多智能体深度强化学习配电网电压调节方法。

背景技术

传统基于模型的方法比如模型预测控制、随机规划、鲁棒优化等方法虽然能够在一定程度上解决电压越线问题,但是此类方法通常需要知晓配电网系统的模型参数或不确定性先验信息,其控制性能的好坏与系统参数精确与否关系很大。为解决这个问题,基于无模型的深度强化学习方法被应用到配电网电压调节问题中,比如有单时间尺度的Multi-Agent Deep Deterministic Policy Gradient(MADDPG)算法,多时间尺度的Soft Actor-Critic Multi-Agent Soft Actor-Critic(SAC-MASAC)算法,这些方法虽然能够有效解决配电网电压安全问题,但是这些方法都无法满足考虑多种类型混杂设备在不同时间尺度的协同电压调节的场景;当离散设备数量较多时,现有方法所采用的的单智能体集中式控制方案无法应对动作空间随设备数量增加而呈指数增长的局限,从而无法实现大量离散、连续设备的协同电压调节,限制了配电网中多类型混杂设备的协同调压潜力。

发明内容

针对现有技术的不足,本发明的目的在于提升高比例新能源发电接入配电网环境下的多类型混杂设备协同电压调节能力,解决大规模新能源发电不确定性导致的电压波动问题,同时通过优化配电网系统中可调控设备的有功、无功出力降低系统网损并最大程度减小离散设备的动作频率,提升设备的使用寿命。

为了解决上述技术问题至少之一,根据本发明的一方面,提供了一种分层多智能体深度强化学习配电网电压调节方法,包括如下步骤:

S1、考虑多类型混杂设备协同构建配电网电压调节优化模型,将一天作为一个总控制周期,每天划分为T个慢时间尺度时隙用于控制上层离散设备,每个控制时隙划分为Γ个快时间尺度间隔用于控制下层连续设备,其中,T=Γ·J。其中J为常数,并根据电气距离将配电网系统划分为I个子区域。多类型混杂设备协同配电网电压调节优化模型包括目标函数,约束条件以及决策变量。

(1-1)目标函数定义如下:

minC

/>

其中:

①C

其中:V

②C

其中:G

③C

其中:χ

(1-2)多类型混杂设备协同电压调节优化模型包含的约束条件如下:

1)潮流平衡及电压约束:

V

其中:

2)有载调压变压器与并联电容器约束:

χ

V

ψ

其中:χ

3)光伏逆变器有功、无功功率约束:

其中:

4)储能系统约束:

B

其中:

5)静止无功补偿器与柔性负荷约束:

其中:

(1-3)多类型混杂设备协同电压调节优化模型包含的决策变量如下:每个慢时间尺度有载调压变压器的档位χ

S2、将上述多类型混杂设备协同调压问题建模为双层马尔科夫博弈,给定离散调节设备包括X个有载调压变压器和Y个电容器组,则上层马尔科夫博弈总共X+Y个智能体。

(2-1)针对上层慢时间尺度离散设备,设计上层马尔科夫博弈对应智能体的状态、动作以及奖励函数。

①上层慢时间尺度智能体状态:有载调压变压器x(1≤x≤X)对应智能体的状态

其中:

其中:

②上层慢时间尺度智能体动作:上层有载调压变压器x与并联电容器组y对应智能体的动作分别设计为

③上层慢时间尺度智能体奖励:上层智能体的奖励包括电压越过安全范围的惩罚项及离散设备动作次数的惩罚项,其表达式为:

r

其中:r

(2-2)针对下层快时间尺度连续设备,设计下层马尔科夫博弈对应智能体的状态、动作以及奖励函数。

①下层快时间尺度智能体状态:下层定义每个子区域为一个智能体,则区域i对应智能体的状态设计为:

其中:

②下层快时间尺度智能体动作:每个区域内包含光伏逆变器,静止无功补偿器,储能系统或柔性负荷等调控资源,因此区域i对应智能体的动作设计为:

其中:

③下层快时间尺度智能体奖励:下层每个智能体的奖励包含4个部分,其中包括电压越过安全范围惩罚,系统网损惩罚,储能系统充放电惩罚及调度柔性负荷惩罚,其表达式为:

其中:

S3、上层离散多智能体注意力深度强化学习算法与下层连续多智能体注意力深度强化学习算法中的每个智能体都包含策略网络、目标策略网络、评价网路、目标评价网络以及注意力网络。

(3-1)每个上层智能体x的动作网络和目标动作网络包含一层输入层,W

(3-2)每个上层智能体x的评价网络和目标评价网络包含一层输入层,M

(3-3)每个下层智能体i的动作网络和目标动作网络与上层智能体类似,包含一层输入层,W

(3-4)每个下层智能体i的评价网络和目标评价网络包含一层输入层,M

S4、上下两层算法通过奖励信息的交互实现快慢时间尺度的协同电压调节,在训练过程中:

①每个上层智能体x在t(0≤t<T)时隙观测配电网的本地环境状态,并根据所观测到的状态

/>

其中:

同时通过梯度下降方法训练和更新策略网络参数

其中:μ为温度系数用于平衡

通过

②当下层每个智能体x运行至Γ时刻,将t时隙内Γ个电压越线奖励值

其中:

同时通过梯度下降方法训练策略网络参数

其中:μ为温度系数用于平衡

通过

③当上层智能体运行至T时刻,上、下层智能体完成一个周期的训练,重复上述步骤①-②直至训练过程结束,得到快慢时间尺度对上下两层设备的优化控制策略。最终将训练得到的控制策略通过动作网络的在线部署实现所提出方法在配电系统的实施。

根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明的分层多智能体深度强化学习配电网电压调节方法中的步骤。

根据本发明的又一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明的分层多智能体深度强化学习配电网电压调节方法中的步骤。

相比于现有技术,本发明至少具有如下有益效果:

与基于下垂控制方法相比,所提方法能充分利用各种连续、离散、多时间尺度混杂设备的调压潜力,具有更强的调压能力;

与基于模型的电压调节方法相比,所提方法对于模型参数不确定性具有鲁棒性;

与基于无模型深度强化学习的电压调节方法相比,所提方法具有更高的可扩展性和更好的调压性能。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。

图1为本发明的方法流程图;

图2为线路参数在不同扰动情况下的电压调节对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。

除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

如图1-2所示,

实施例1:

下面以IEEE 33节点配电系统为例子说明本发明所述的分层多智能体深度强化学习配电网电压调节方法,其中系统中包含1个有载调压变压器,2个电容器组,9个光伏发电系统,3个静止无功补偿器,1个储能及3个柔性负荷用于电压调节。

(1)首先构建多类型混杂设备协同配电网电压调节优化模型,将一天作为一个总控制周期,每天划分为T=12个慢时间尺度时隙用于控制上层离散设备,每个控制时隙划分为Γ=8个快时间尺度间隔用于控制下层连续设备,并且T=Γ·J,其中J=15分钟。并根据电气距离将配电网系统划分为I=4个子区域。多类型混杂设备协同配电网电压调节优化模型包括目标函数,约束条件以及决策变量。

(1-1)目标函数定义如下:

minC

/>

其中:

①C

其中:V

②C

其中:G

③C

其中:χ

(1-2)多类型混杂设备协同电压调节优化模型包含的约束条件如下:

1)潮流平衡及电压约束:

V

其中:

2)有载调压变压器与并联电容器约束:

χ

V

ψ

其中:χ

3)光伏逆变器有功、无功功率约束:

其中:

4)储能系统约束:

B

其中:节点n的储能系统最大、最小充放电功率

5)静止无功补偿器与柔性负荷约束:

其中:静止无功补偿器最大最小无功容量

(1-3)多类型混杂设备协同电压调节优化模型包含的决策变量如下:每个慢时间尺度有载调压变压器的档位χ

2、将上述多类型混杂设备协同调压问题建模为双层马尔科夫博弈,给定离散调节设备包括X=1个有载调压变压器和Y=2个电容器组,则上层马尔科夫博弈总共X+Y=3个智能体。

(2-1)针对上层慢时间尺度离散设备,设计上层马尔科夫博弈对应智能体的状态、动作以及奖励函数。

①上层慢时间尺度智能体状态:有载调压变压器x(1≤x≤X)对应智能体的状态

其中:

其中:

②上层慢时间尺度智能体动作:上层有载调压变压器x与并联电容器组y对应智能体的动作分别设计为

③上层慢时间尺度智能体奖励:上层智能体的奖励包括电压越过安全范围的惩罚项及离散设备动作次数的惩罚项,其表达式为:

r

其中:r

(2-2)针对下层快时间尺度连续设备,设计下层马尔科夫博弈对应智能体的状态、动作以及奖励函数。

①下层快时间尺度智能体状态:下层定义每个子区域为一个智能体,则区域i对应智能体的状态设计为:

其中:

②下层快时间尺度智能体动作:每个区域内包含光伏逆变器,静止无功补偿器,储能系统或柔性负荷等调控资源,因此,区域i对应智能体的动作设计为:

其中:

③下层快时间尺度智能体奖励:下层每个智能体的奖励包含4个部分,其中包括电压越过安全范围惩罚,系统网损惩罚,储能系统充放电惩罚及调度柔性负荷惩罚,其表达式为:

其中:

3、上层离散多智能体注意力深度强化学习算法与下层连续多智能体注意力深度强化学习算法中的每个智能体都包含策略网络、目标策略网络、评价网路、目标评价网络以及注意力网络。

(3-1)每个上层智能体x的动作网络和目标动作网络包含一层输入层,W

(3-2)每个上层智能体x的评价网络和目标评价网络包含一层输入层,两层隐藏层和一层输出层。每个评价网络的输入由三个部分完成,首先,每个上层智能体通过各自的单层感知机

(3-3)每个下层智能体i的动作网络和目标动作网络与上层智能体类似,包含一层输入层,两层隐藏层和一层输出层。每个动作网络输入层神经元的个数为配电网每个子区域所观测状态的维数,动作网络通过输出均值μ和方差σ

(3-4)每个下层智能体i的评价网络和目标评价网络包含一层输入层,两层隐藏层和一层输出层。每个评价网络的输入由三个部分完成,首先,每个下层智能体通过各自的单层感知机

4、上下两层算法通过奖励信息的交互实现快慢时间尺度的协同电压调节,在训练过程中:

①每个上层智能体x在t(0≤t<12)时隙观测配电网的本地环境状态,并根据所观测到的状态

其中:

同时通过梯度下降方法训练和更新策略网络参数

其中:μ为温度系数用于平衡

通过

②当下层每个智能体x运行至Γ时刻,将t时隙内Γ个电压越线奖励值

其中:

同时通过梯度下降方法训练策略网络参数

其中:μ为温度系数用于平衡

通过

③当上层智能体运行至T时刻,上、下层智能体完成一个周期的训练,重复上述步骤①-②直至训练过程结束,得到快慢时间尺度对上下两层设备的优化控制策略。最终将训练得到的控制策略通过动作网络的在线部署实现所提出方法在配电系统的实施。

表1和表2分别为在IEEE 33节点和IEEE141节点系统下,本发明方法与对比方法电压调节与系统网损的结果对比,图2为线路参数在不同扰动情况下的电压调节对比图。对比方案一(B1)采用下垂控制方法控制PV逆变器的无功输出进行电压调节,对比方案二(B2)采用SAC-MASAC方法对离散和连续设备进行控制。本发明分别在标准的IEEE 33和IEEE141系统作为仿真环境以验证所提出方法的有效性,可扩展性及鲁棒性,在IEEE 33系统中包含1个OLTC,2个CB,1个BESS,3个SVC,9个PV以及3个FL。在IEEE 141系统中包含1个OLTC,2个CB,1个BESS,6个SVC,22个PV以及7个FL。根据表1对比结果可以看出,所提方法能够将所有节点电压调节到安全范围内的同时降低系统网损,所提出方法的网损相比方案一和方案二分别降低27.5%和7.09%,同时相比方案一和方案二对离散设备的调节次数也最少,验证了所提出方法的有效性。根据图2可以看出,线路扰动量的增大至40%时,所提出方法仍能将所有节点电压稳定在安全范围内,直到线路扰动量的增大至60%时,仅有部分节点电压越过安全范围,验证了所提出方法的鲁棒性。根据表2可以看出,在IEEE141节点测试系统中,虽然所提出方法对离散设备的调节次数要大于对比方案二,但是所提出方法仍具有最好的调压性能和最低的系统网损,验证了所提出算法具有较强的可扩展性。

表1IEEE 33节点性能对比

表2IEEE 141节点性能对比

实施例2:

本实施例的计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1的分层多智能体深度强化学习配电网电压调节方法中的步骤。

本实施例的计算机可读存储介质可以是终端的内部存储单元,例如终端的硬盘或内存;本实施例的计算机可读存储介质也可以是所述终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡,安全数字卡,闪存卡等;进一步地,计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。

本实施例的计算机可读存储介质用于存储计算机程序以及终端所需的其他程序和数据,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

实施例3:

本实施例的计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的分层多智能体深度强化学习配电网电压调节方法中的步骤。

本实施例中,处理器可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等;存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据,存储器的一部分还可以包括非易失性随机存取存储器,例如,存储器还可以存储设备类型的信息。

本领域内的技术人员应明白,实施例公开的内容可提供为方法、系统、或计算机程序产品。因此,本方案可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本方案可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本方案是参照根据本方案实施例的方法、和计算机程序产品的流程图和/或方框图来描述的,应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合;可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。

本发明所述实例仅仅是对本发明的优选实施方式进行描述,并非对本发明构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的保护范围。

相关技术
  • 一种基于多智能体深度强化学习的配电网电压控制方法
  • 一种基于多智能体深度强化学习的配电网电压控制方法
技术分类

06120115933488