掌桥专利:专业的专利平台
掌桥专利
首页

一种电网运行方式智能调节方法及系统

文献发布时间:2023-06-19 12:21:13


一种电网运行方式智能调节方法及系统

技术领域

本发明涉及一种电网运行方式智能调节方法及系统,属于电网调控技术领域。

背景技术

近年来的能源与环境政策及标准极大地促进了绿色能源的大力发展,可再生能源在电网中的渗透比例不断提高。然而,由于其间歇性、动态性和随机性,将大量此类能源接入到的电网中会对电力系统的安全和经济运行带来巨大挑战。在现有方法中,制定未来电网运行方式是通过大规模的数值仿真模拟,来寻找考虑各种故障情况下的最优电网运行方式。该过程包括电力需求预测、新线路建设计划、维护和停运计划、发电机组计划等。由于该问题的高度复杂性、非线性和维数,这一过程通常需要耗费大量的人力,通过手动修改模型参数,利用经验来实现预期目标。电力工业尚缺乏一种有效的方法和工具来自动化这一过程。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷,提供一种电网运行方式智能调节方法及系统。

为解决上述技术问题,本发明提供一种电网运行方式智能调节方法,包括:

获取当前电网数据,输入到预先确定的考虑安全约束的电网模型进行电网潮流计算,根据计算结果提取电网运行状态数据,所述当前电网数据包括电网拓扑结构、母线信息、负荷信息、发电机出力信息、变压器信息、电网控制设备状态;

将电网运行状态数据输入到预先训练好的智能体,得到最优发电机控制策略,所述发电机控制策略为发电机有功功率控制信号;

根据所述最优发电机控制策略对电网运行方式进行调节。

进一步的,所述电网模型为:

其中,

所述安全约束的约束条件为:

其中,

进一步的,所述智能体的训练过程包括:

获取历史电网数据,历史电网数据包括不同时间断面下的电网拓扑结构、母线信息、负荷信息、发电机出力信息、变压器信息、电网控制设备状态,输入到所述电网模型,得到对应时间断面下的电网运行状态数据以及计算智能体奖励值,;

以某时间断面下的电网运行状态数据为输入,采用最大熵智能体强化学习算法,得到智能体控制动作,所述智能体控制动作为发电机控制策略;

将得到的发电机控制策略输入至所述电网模型进行计算,根据计算结果提取下一时间断面下的电网运行状态数据;

基于该时间断面下的电网运行状态数据,智能体奖励值,智能体控制动作和下一时间断面下的电网运行状态数据更新智能体网络参数;

迭代循环计算,直至满足被控区域内输电线路在电网基本状态和故障状态下功率不超过安全限额,输出训练好的智能体。

进一步的,采用P-Q分解法、Newton-Raphson法、P-Q自动转化为YR法或者P-Q自动转化为Newton-Raphson法求解所述电网模型。

进一步的,所述电网运行状态数据表示为:

s=(P,V,G)

其中,P表示研究区内的一组线路有功功率,V表示同一区域内的母线的电压幅值,G表示发电机有功功率输出的矢量。

进一步的,所述计算智能体奖励值包括:

r=r

其中,r表示奖励值,r

进一步的,所述电网运行控制目标为:

其中,c(v)是发电机v的发电成本,C代表考虑运行成本的发电机集合,P

一种电网运行方式智能调节系统,包括:

获取模块,用于获取当前电网数据,输入到预先确定的考虑安全约束的电网模型进行电网潮流计算,根据计算结果提取电网运行状态数据,所述当前电网数据包括电网拓扑结构、母线信息、负荷信息、发电机出力信息、变压器信息、电网控制设备状态;

处理模块,用于将电网运行状态数据输入到预先训练好的智能体,得到最优发电机控制策略,所述发电机控制策略为发电机有功功率控制信号;

调节模块,用于根据所述最优发电机控制策略对电网运行方式进行调节。

一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。

一种计算设备,包括,

一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

本发明所达到的有益效果:

本发明根据预先训练好的智能体,实现了在考虑不确定性的情况下自动搜索可行的电网运行条件。

附图说明

图1为本发明的考虑安全约束的电网运行方式智能调节方法实现原理;

图2为本发明中奖励值计算流程;

图3为本发明的基于最大熵强化学习的电网运行方式自动调节算法实例;

图4为本发明实施例中智能体训练过程;

图5为本发明实施例中发电机出力调整过程;

图6为本发明实施例中不同探索步数下智能体的奖励值对比;

图7为本发明实施例中不同探索步数下智能体的总控制迭代次数对比;

图8为本发明实施例中使用恒定和变化温度系数后智能体的性能对比。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明提供一种电网运行方式智能调节方法,首先,将电网运行方式制定的问题描述为MDP(Markov Decision Process,马尔可夫决策过程),在MDP中收集电网潮流信息形成状态空间,在训练强化学习智能体时将控制目标和约束建模为奖励值。其次,采用了一个通用的框架,使各种类型的控制行动,包括发电机有功功率调整和负荷转移等,来自动调节考虑多种故障工况下的传输线路功率。

本发明提供一种电网运行方式智能调节方法,图1给出了该方法的整体框架,即在一个指定电网区域内调节电网中选定发电机的有功功率输出,来满足电网运行方式的多种安全性需求,包括基态和故障工况下。

包括:

根据当前电网数据求解电网模型,并基于计算结果提取电网状态数据;

基于电网状态数据,通过预先训练好的智能体,得到发电机控制策略;所述发电机控制策略是指发电机有功功率控制信号;

基于最优发电机控制策略对电网运行方式进行调节。

本发明中需预先训练智能体,参见图1,包括:

步骤(1):将电网模型与电网运行方式文件传输至电网仿真环境中;

步骤(2):基于历史电网数据(包括不同时间断面下的电网拓扑结构、母线信息、负荷信息、发电机出力信息、变压器信息、电网控制设备状态)求解电网模型,得到当前电网运行状态数据;

步骤(3):采用电网模型的计算结果计算智能体奖励值;

步骤(4):将奖励值发送至经验回放池中存储;

步骤(5):提取当前电网运行状态数据;

步骤(6):将当前电网运行状态数据发送至经验回放池中存储;

步骤(7):基于当前电网运行状态数据采用最大熵智能体,得到智能体控制动作,即为发电机控制策略;

步骤(8):将智能体控制动作发送至经验回放池中存储;

步骤(9):将智能体控制动作发送至电网仿真环境中存储入电网运行方式文件中并施加于电网模型,得到下一电网运行状态数据,并更新智能体网络参数,迭代循环计算,直至满足电网运行控制目标。

本发明采用了具有自动温度系数计算的最大熵强化学习算法,实现了在考虑不确定性的情况下自动搜索可行的电网运行条件。

具体的,求解电网模型包括:

电网模型表示为:

其中,

电网模型需满足以下约束条件,他们分别表示各种电力设备的物理极限,要求所有的线路潮流、发电机输出和电压幅值都要运行在它们的物理极限以内。

其中,

其中,g

电网合理运行方式可考虑多种控制目标,即在满足上述所有约束条件的同时,尽量减少发电成本和/或输电网损。以最小化发电成本为控制目标由公式(11)给出;而最小化输电网损为控制目标则由公式(12)给出:

其中,c(k)是发电机k的发电成本,C代表考虑运行成本的发电机集合,P

本发明中,采用P-Q分解法、Newton-Raphson法、P-Q自动转化为YR法或者P-Q自动转化为Newton-Raphson法

本发明中,电网状态数据表示为:s=(P,V,G),其中P表示研究区内的一组线路有功功率,V表示同一区域内的母线的电压幅值,G表示发电机有功功率输出的矢量。

本发明采用最大熵强化学习算法(SAC)训练智能体的方式搜索电网最优运行方式,训练强化学习智能体可提供预防性和矫正性控制措施,以确保电网在多种运行工况下的安全性。

强化学习是机器学习方法的一个分支,它包括一个智能体依次采取行动并与环境互动,以便最大化积累的回报。在每一步t,智能体观察一个状态s

为了找到一个好的政策,可以使用诸如Q-学习这样的基于价值函数的方法来衡量一个行动在某一特定状态下的好坏,或者基于策略的方法来直接找出在不同状态下应该采取什么控制策略,而不知道这些行动有多好。然而,在现实世界中所面临的问题极其复杂。

本发明中选择了最大熵强化学习算法(Soft Actor Critic,SAC),该算法在样本效率和稳定性方面都表现出了最先进的性能,因为它具有在训练过程中最大化期望奖励和熵的独特能力。

公式(13)中给出了用于计算Q值的目标函数,θ和ψ分别代表建模软Q值函数和控制策略的参数化网络,V

在公式(14)中给出了策略的目标函数,在本发明中,使用正态分布,在之前的计算中,温度系数α是固定的,但是随着奖励值的变化,使用固定的温度系数进行训练会使智能体性能变得不稳定,所以最好有一个自动的温度系数,它也可以随着政策的更新而变化,以探索更多的动作空间。因此,在本发明中,将平均熵约束添加到原始目标函数中,同时允许熵在不同状态下发生变化。因此,新的目标函数修改如下:

其中,H

具体的,训练强化学习智能体,更新发电机的有功功率出力,包括:

具体的,奖励值是智能体在每个控制迭代中表现优劣的一个反馈,一个设计良好的奖励值不仅能指导智能体向更有效的方向更新神经网络参数,而且可以加快整个训练过程。我们的控制目标是在紧急情况下最小化有功功率的变化,保证电网安全,防止潜在的线路功率超载问题。所考虑的故障是指电网中的传输线路故障,这意味着被控区域必须能够保持基态和N-1故障后的安全和可靠性。

奖励值函数则定义为故障奖励和基态奖励之和:

r=r

其中,r

故障奖励值计算为:

其中,P

基态奖励值计算为:

该函数中的所有变量都与故障奖励函数中定义的变量相同。唯一的区别是,基态奖励值的计算保证当前拓扑结构不变的前提下,检查线路功率越限的情况。奖励值的计算流程如图2所示。首先,输入电网运行方式模型与数据,并指定故障集合(L);其次,针对故障集合L中的每一条线进行故障分析,进入循环,直至所有故障线路扫描结束。在每个故障分析中,进行潮流方程求解,当遇到潮流求解不收敛时,可采用更换数值求解方法的方式或者去除电气岛的方式,确保潮流结果收敛。再次,根据潮流计算结果计算奖励值。最终输出累计奖励值。

具体的,电网运行状态定义为:s=(P,V,G),其中P表示研究区内的一组线路有功功率,V表示同一区域内的母线的电压幅值,G表示发电机有功功率输出的矢量。为了在训练智能体时保持不同类型输入输出的一致性,对P,V,G进行归一化出力。

图3为本发明的SAC潮流控制算法的实现过程。第1-3行初始化策略网络、Q网络和目标网络的权重。第4行设置重放缓冲区大小。第5-29行展示了每一个完整样本的训练过程。第6行在样本开始时重置s

在成功地找到控制策略后,如果使用缩减的N-1故障集来节省计算资源,对于那些在计算过程中被忽略的其他故障线路,仍然可能发生安全问题,因此增加了30-34行中的查看所有故障线路的步骤以确保系统安全性。

本发明还提供一种基于最大熵强化学习的电网运行方式自动调节装置,包括:

电网仿真环境模块,用于求解电网潮流方程,并在每个交互步骤中更新其电网运行状态数据;

训练过程模块,用于基于电网状态数据训练强化学习智能体,输出发电机控制策略;

使用过程模块,用于发电机控制策略在满足安全性需求的情况下对电网潮流进行调节;所述安全性需求包括基态和故障工况下。

具体的,电网仿真环境模块包括潮流求解器和环境组件;

环境组件用于更新及存储电网运行状态数据;所述电网运行状态数据存储在电网运行方式文件中。

具体的,环境组件将发电机控制策略更新入电网运行方式文件中。

本发明中以电网运行状态数据以BPA格式存储。

潮流求解器用于基于最新的电网运行状态数据求解电网潮流方程,潮流求解器包括四种不同的数值方法:“P-Q分解法”、“Newton-Raphson法”、“P-Q自动转化为YR法”和“P-Q自动转化为Newton-Raphson法”。

具体的,训练过程模块包括状态提取模块,奖励值计算模块,智能体更新模块和经验回放池:

状态提取模块用于抓取电网运行状态数据并存储入经验回放池;

奖励值计算模块基于潮流求解器的输出结果根据基态和N-1故障计算奖励值,并存储入经验回放池;

智能体更新模块用于基于电网运行状态采用最大熵智能体给出控制动作,即发电机控制策略;以及基于奖励值,当前电网运行状态,发电机控制策略和下一电网运行状态更新网络参数。

当经验回放池存储的信息超出容量时,将旧数据从缓冲区中删除。

具体的,使用过程模块用于将当前电网运行状态数据输入到训练好的智能体中,得到最优发电机控制策略,对电网运行方式进行调节。

相应的本发明还提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述方法。

相应的本发明还提供一种计算设备,包括,一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的指令。

实施例

为了验证本发明方法的有效性,以华东地区高压电网(220kv+)模型为对象,采用电网运行方式模型来生成未来运行方案。该模型包括6500母线,600台发电机,6000条线路和4300台变压器。该电网规划模型以BPA格式提供。选取浙江电网金华分区进行个案研究。“金华”区电网共有大约200条母线和170条传输线路。

为了训练有效的强化学习智能体,状态空间包括“金华”分区的主要传输线路功率。控制空间则包括调整金华附近所有可用发电机的有功功率输出来构成。训练SAC智能体的控制目标是得到在基态和N-1故障下的安全运行方式。在电网仿真环境中,使用支持BPA格式数据的交流潮流方程求解软件程序,在训练过程中与强化学习智能体进行连续交互。环境的输入保存在一个潮流文件(BPA格式)中,其中包含控制动作。环境的输出包括母线电压、发电机输出、线路功率等,保存在文本文件中,然后由解析器提取其关键信息,更新状态空间、动作空间和奖励值。

以2019年1月华东电网运行方式为例来验证该方法,使用不同参数所训练出的SAC智能体性能在图4至图8中进行了详细比对。

图4给出了在考虑N-1故障情况下SAC智能体的总体性能,从平均奖励和训练步长曲线可以看出,SAC智能体在60个样本后成功收敛。仿真结果验证了该方法的有效性,可以节省大量的人工操作时间。图5给出了智能体所使用的7台发电机组的有功变化轨迹,可以看出,SAC智能体只需要三个步骤就可以找到最佳调整发电机功率的控制策略,其变化是围绕原始值进行合理调整的,这符合工程师的经验,即使用最小变化来调整发电机的出力,以解决安全问题。

同时,本实施例还研究了不同参数对SAC智能体性能的影响。两个参数为探索步骤和温度系数。参见图6和图7,对不同的探索步骤进行了小规模的搜索,显示了智能体在训练初期随机探索了多少步。我们比较了三个不同的探索步骤:10、20和30,共100个样本。参见图7,虽然这三个不同的探索步骤在训练的开始阶段都是振荡的,但它们都在90个样本左右得以收敛。这表明当勘探步骤在一个小范围内变化时,不会影响智能体找到最佳控制策略的能力。当探索步长设置为30时,收敛速度更快,说明对环境的更多了解有助于智能体更快地到达目标状态。

此外,温度系数会影响SAC智能体的表现和训练速度。固定该参数值可能会显著减慢或危及SAC智能体的收敛性。参见图8,当温度系数可以随着训练过程进行自动调节时,SAC智能体性能明显收敛更快。

本发明提供一种考虑安全约束的电网运行方式智能调节方法,该方法采用了具有自动温度系数计算的SAC算法,仿真结果验证了该方法的有效性,表明该框架能够在考虑不确定性的情况下自动搜索可行的电网运行条件。

值得指出的是,该装置实施例是与上述方法实施例对应的,上述方法实施例的实现方式均适用于该装置实施例中,并能达到相同或相似的技术效果,故不在此赘述。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种电网运行方式智能调节方法及系统
  • 一种交通信号灯绿波智能调节方法及智能调节系统
技术分类

06120113267470