掌桥专利:专业的专利平台
掌桥专利
首页

计及迁移强化学习电动汽车场站的配电网无功优化方法

文献发布时间:2024-04-18 20:02:18


计及迁移强化学习电动汽车场站的配电网无功优化方法

技术领域

本发明属于智能强化学习技术领域和计算机技术领域,具体涉及一种计及迁移强化学习电动汽车场站的配电网无功优化方法。

背景技术

近年来我国电动汽车(EV)行业发展迅速,预计2030年EV数量将达6000万辆。然而大量电动汽车的接入也给配电网(PDN)的运行带来了诸多挑战,与传统负荷不同EV是一种灵活性负荷且用户的充放电行为高度不确定,大规模EV的聚合可能导致PDN功率急剧升高或降低,进而增加PDN的运行成本并导致频繁的节点电压违规。对于EV的管理需要从两方面进行考虑,站在EV车主的角度,需要制定有序策略引导EV用户在电价低谷时补充电能以满足出行电量需求,在电价高峰期售卖富裕电能,从而获得收益、降低充电成本、提高电能管理收益。站在配电运营商(DSO)的角度,面对EV数量的急速增长,需要考虑如何错开EV负荷和其他负荷的用电高峰,同时采取一定优化措施改善大规模EV接入给PDN造成的挑战。

电动汽车充电站(EVS)可以借助V2G双向充电机在任何P-Q四象限进行充电/放电,同时可以在任何SOC水平上产生/消耗无功功率而不影响电池的生命周期,即使在没有EV接入时EVS依然可以通过逆变器和电网进行无功互动。因此,面对大规模EV接入PDN带来的复杂性和强不确定性,DSO可以将EVS作为媒介,通过颁布激励型电价曲线让EV车主参与需求响应,进而调节PDN的用电高峰,当大量EV接入电网充放电时,也可以通过EVS的无功输出能力对PDN进行无功优化,进而改善PDN的功率损耗并减少电压越限的行为。

发明内容

本发明的目的,在于提供一种计及迁移强化学习电动汽车场站的配电网无功优化方法,能够有效地利用EVS的无功输出能力,改善配电网的功率损耗,减少电压越限的行为,从而提高整个电网的运行效率和稳定性。

为了达成上述目的,本发明的解决方案是:

一种计及迁移强化学习电动汽车场站的配电网无功优化方法,包括如下步骤:

步骤1,将单辆电动汽车的充放电调度问题描述为一个马尔科夫决策过程,并采用近端策略优化方法对该决策过程进行求解,其目标为最大化充放电过程的收益,并满足电动汽车用户的出行行为;

步骤2,采用迁移强化学习技术将步骤1中训练好的电动汽车策略模型迁移到不同类型和不同区域的车辆上得到一个集成在配电网侧的电动汽车充电站模型;

步骤3,将步骤2得到的电动汽车充电站模型建模成强化学习智能体参与配电网的无功优化,并使用近端策略优化方法训练该智能体的无功优化策略,得到基于电动汽车充电站的配电网无功调控模型;

步骤4,采用真实的时变电价、电动汽车出行行为分布、PDN负荷对马尔科夫决策过程的模型进行训练,最终得到电动汽车充电站的充放电策略模型和无功调节策略模型,并对该模型进行测试和在线部署。

采用上述方案后,本发明的有益效果包括:

(1)高效的电动汽车充放电调度策略:本发明的步骤1将单辆EV的充放电调度问题描述为一个马尔科夫决策过程,并采用近端策略优化方法求解。这种方法能够最大化充放电过程的收益,同时满足EV用户的出行需求,这不仅提高了EV用户的经济效益,还是EV参与了需求响应,有助于平衡电网负荷,减少电网压力。

(2)迁移强化学习技术的应用:在步骤2中,通过迁移强化学习(TRL)技术,将单个EV的策略模型迁移到不同类型和不同区域的车辆上,形成集成在配电网侧的EVS模型。该模型满足EV用户和DSO双方的利益,同时考虑了时变电价和EV车主出行行为的不确定性,能够有效地适应不同的运行环境和用户行为,提高了模型的泛化能力和实用性。

(3)配电网无功优化策略的创新:步骤3中,将EVS建模为强化学习智能体,参与配电网的无功优化。使用PPO算法训练智能体的无功优化策略,基于EVS的PDN无功调控模型。这种策略能够有效地利用EVS的无功输出能力,改善配电网的功率损耗,减少电压越限的行为,从而提高整个电网的运行效率和稳定性。

附图说明

图1是本发明一个实施例提供的计及迁移强化学习电动汽车场站的配电网无功优化方法流程示意图;

图2是本发明一个实施例提供的基于迁移强化学习的EVS模型构造过程;

图3是本发明一个实施例提供的IEEE 33-bus测试系统示意图;

图4是本发明一个实施例提供的一个EVS中200辆EV在一天内的充放电情况;

图5是本发明一个实施例提供的聚合到PDN侧的3个EVS一年中一天内充放电功率的平均值和波动范围;

图6是本发明一个实施例提供的计及EVS无功优化的17:00和23:00时刻系统节点电压示意图。

具体实施方式

实施例1

参照图1和图2所示,为本发明的第一个实施例,该实施例提供了计及迁移强化学习电动汽车场站的配电网无功优化方法,包括:

步骤1:将单辆电动汽车的充放电调度问题描述为一个马尔科夫决策过程(MDP),并采用近端策略优化(PPO)方法求解MDP,其目标为最大化充放电过程的收益,并满足EV用户的出行行为;

智能体与环境:步骤1中的智能体为EV实时充放电决策智能体,其根据既定输入状态,实时输出单位时间内电动汽车充放电功率,并通过与环境交互学习经验实现不断优化。智能体观测的环境包括电动汽车实时电池荷电状态(SOC)和该时间节点的时变电价;

状态空间S:t时刻EV充放电环境状态可定义为S

动作空间A:在t时刻的动作a

奖励函数R:EV实时充放电马尔可夫决策过程的奖励函数设置为:

r

上式中,r

本发明采用PPO算法对MDP模型进行求解,PPO是在Aator-Critic网络架构的基础上不断改善得来的,目标函数为:

式中r(θ)=π

步骤2:采用迁移强化学习(TRL)技术将步骤1中训练好的EV策略模型迁移到不同类型和不同区域的车辆上得到一个集成在配电网侧的EVS模型,该模型可以满足DSO和EV车主双方的利益需求,同时也充分考虑了时变电价的不确定性和各EV车主出行行为的不确定性;

迁移学习的目的是利用源域D

步骤3:在步骤2得到EVS模型后,将EVS建模成强化学习智能体参与PDN的无功优化,并使用PPO算法训练该智能体的无功优化策略,得到基于EVS的PDN无功调控模型;

智能体与环境:本发明使用pypower工具包搭建了配电网的环境,在每个决策步t,配电网都会注入变量

EVS智能体状态空间S:t时刻环境状态可定义为S

EVS智能体动作空间A:在t时刻的动作a

EVS智能体奖励函数:奖励函数为PDN的网络损耗成本和节点电压越限惩罚:r

然后本发明采用PPO算法对该MDP模型进行训练求解;

步骤4:采用真实的时变电价、EV出行行为分布、PDN负荷对步骤1、2、3提到的模型进行训练,最终得到EVS的充放电策略模型和无功调节策略模型,并对该模型进行测试和在线部署,下表为步骤1中EV充放电策略的训练流程和步骤3中无功优化策略的训练流程:

实施例2

参照图3至图6,为本发明的一个实施例,提供了计及迁移强化学习电动汽车场站的配电网无功优化方法,为了验证本发明的有益效果,通过实验进行科学论证。

使用IEEE33节点测试系统对所提方法的有效性和先进性进行了验证,测试系统如图3所示。在IEEE33节点系统中,3台EVS被连接在母线13,22,24处,每个母线上都聚合了一定的负荷,其中包括住宅用户和工业用户。选取了3种不同类型的EV作为EVS中的用户,分别为大型EV,中型EV,小型EV,并假设所研究的EVS均分布在配电网的居民区,表1展示了各种EV的电池容量和最大充放电功率,到达时间,出发时间,和到达时间电池SOC服从正态分布。使用真实的时变电价数据对EV充放电策略进行训练,分辨率为1个小时。

表1不同类型EV参数

表2PPO算法超参数设置

使用基于TRL方法得到的EV策略模型采样出不同类型EV的充放电策略,并通过聚合多辆EVS得到3个PDN侧的EVS。EVS1共聚合了200辆EVS,其中大型、中型、小型车的比例为2:3:5。EVS2聚合了140辆EVS,3种车型的占比为4:1:2。EVS3聚合了160辆EVs,车型占比为1:1:6。图4展示了EVS1中200辆EV在一天内的充放电情况,红色曲线表示一天内的电价趋势,从EV用户的角度可以看出,每辆EV为了最大化自己的收益采取了最佳的充放电策略,即电价低时充电,电价高时放电。图5展示了聚合到PDN侧的3个EVS一年中一天内充放电功率的平均值和波动范围,从DSO的角度可以看出,这些EVS模型响应了激励型的电价曲线,使EV用户的充电行为避开了用电高峰,并在电网用电需求大时放电。

在得到EVS的模型以后,使用聚合到PDN的EVS功率数据和负荷数据对EVS构建的无功优化智能体进行训练,并在训练完成后进行测试,图6展示了训练完成后EVS无功优化的效果。图6分别绘制了17:00和23:00无EVS调压和计及EVS无功支撑配电系统33节点电压情况。从图中可以看出,虽然基础的有功负荷在17:00时刻开始增加,但由于电动汽车集群此刻大规模放电、为配电网提供电能补给,导致该时刻系统各节点电压相对较高。在此基础上,根据所提策略释放EVS的无功支撑,使得电力系统各节点电压峰谷差明显降低,保证各节点用户的电能质量。此外在无EVS调压情况下,23:00时刻电动汽车集群根据前文所提策略大规模充电,导致形成新的负荷高峰,配电网各节点电压较15:00出现明显下降趋势。经过EVS无功出力调节节点电压后,该时刻各节点电压都得到有效调控、稳定在0.93p.u.限制区间以上。

本发明实施例还提供了另一种计算机设备,包括处理器和配置为存储能够在处理器上运行的计算机程序的存储器;其中,处理器配置为运行计算机程序时,执行前述实施例中的方法步骤。

在实际应用中,上述处理器包括现场可编程门阵列(Field-Programmable GateArray,FPGA)、处理器可以为中央处理器CPU(Central Processing Unit)或数字信号处理器(DSP,Digital Signal Processing)。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本发明实施例不作具体限定。

上述存储器可以是易失性存储器(volatile memory),例如随机存取存储器(RAM,Random-Access Memory);或者非易失性存储器(non-volatile memory),例如只读存储器(ROM,Read-Only Memory),快闪存储器(flash memory),硬盘(HDD,Hard Disk Drive)或固态硬盘(SSD,Solid-State Drive);或者上述种类的存储器的组合,并向处理器提供指令和数据。

在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,用于存储计算机程序。

可选的,该计算机可读存储介质可应用于本发明实施例中的任意一种方法,并且该计算机程序使得计算机执行本发明实施例的各个方法中由处理器实现的相应流程,为了简洁,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 一种计及储能无功调整能力的配电网有功无功联合优化调度的方法
  • 一种基于图强化学习的配电网电压无功优化方法
技术分类

06120116585998