导航：首页> 生物化学；啤酒；烈性酒；果汁酒；醋；微生物学；酶学；突变或遗传工程>一种基于拉格朗日松弛强化学习的频率控制方法和装置

一种基于拉格朗日松弛强化学习的频率控制方法和装置

文献发布时间：2023-06-19 18:58:26

技术领域

本发明涉及分布式电网的频率控制技术领域，尤其涉及一种基于拉格朗日松弛强化学习的频率控制方法和装置。

背景技术

目前，随着化石能源供应紧张、温室效应等环境问题日益严峻，实现可再生能源转型是能源发展的必然趋势。为了实现可再生能源转型的目标，需要构建清洁低碳安全高效的能源体系，实施可再生能源替代行动，构建以新能源为主体的新型电力系统。在建设新型电力系统的大背景下，新能源接入电力系统的比例不断增加，其功率间歇性、随机性及不可预测性，给电网带来了较多的问题，其中将新能源的波动性折算到秒级、分钟级短时间尺度上，电网亟需调频资源。

随着智能电网的飞速发展，装机容量不断扩大，新能源及分布式能源不断接入，传统集中式自动发电控制模式难以满足电网的发展及运行条件。

而分布式控制模式从分布式能源利用率角度，由于电网结构、电厂容量以及机组调节速率的限制，不同类型的电厂在功率分配以及利用率方面存在巨大差异。集中式AGC所控制的电厂功率只能通过省调进行分配，分布式能源电厂和新能源电厂难以实现协同控制。没有固定发电量指标的小容量电厂，集中式AGC模式下很难有高效的利用率。

目前，现有的控制方法大多采用传统控制方法(如PI控制，最优控制)作为调频控制策略，缺少针对不同典型二次调频场景的强化学习控制策略，当大规模新能源接入电力系统时，存在难以维持分布式电网各区域频率稳定的问题。

发明内容

本发明提供了一种基于拉格朗日松弛强化学习的频率控制方法和装置，解决了现有的控制方法大多采用传统控制方法作为调频控制策略，缺少针对不同典型二次调频场景的强化学习控制策略，当大规模新能源接入电力系统时，存在难以维持分布式电网各区域频率稳定的技术问题。

本发明第一方面提供的一种基于拉格朗日松弛强化学习的频率控制方法，应用于多个新能源电力系统，所述新能源电力系统包括拉格朗日松弛控制器和发电机组，所述方法包括：

响应于接收到的频率调整请求，选取所述频率调整请求对应的所述新能源电力系统作为目标新能源电力系统；

获取当前时刻所述目标新能源电力系统对应的目标ACE状态数据和功率指令值；

通过所述拉格朗日松弛控制器采用所述目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵；

通过所述拉格朗日松弛控制器采用随机贪婪策略从所述目标矩阵执行选取操作，确定对应的目标功率差值；

采用所述功率指令值与所述目标功率差值，确定对应的目标参考总功率，并将所述目标参考总功率发送至所述发电机组；

按照预设梯度调整所述发电机组的出力，将所述发电机组当前时刻的输出功率调整为所述目标参考总功率。

可选地，还包括：

获取所述目标新能源电力系统当前时刻的频率偏差数据和联络线功率偏差数据；

将所述目标参考总功率作为新的功率指令值；

采用所述频率偏差数据和所述联络线功率偏差数据，确定新的目标ACE状态数据，并跳转执行所述通过所述拉格朗日松弛控制器采用所述目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵的步骤。

可选地，所述目标ACE状态数据包括初始状态数据和初始奖励值数据，所述获取当前时刻所述目标新能源电力系统对应的目标ACE状态数据和功率指令值的步骤包括：

获取当前时刻所述目标新能源电力系统对应的初始ACE状态数据和所述功率指令值；

采用所述初始ACE状态数据输入预设的ACE状态模型，输出对应的所述初始状态数据和所述初始奖励值数据。

可选地，所述通过所述拉格朗日松弛控制器采用所述目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵的步骤，包括：

初始化目标参数；

根据所述初始状态数据与所述初始奖励值数据，通过随机贪婪策略从所述目标参数内的第一动作集数据中选取对应的第一目标动作；

采用所述初始状态数据执行所述第一目标动作，通过所述ACE状态模型生成第一目标状态数据和第一目标奖励值数据；

采用所述第一目标状态数据与所述第一目标奖励值数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵。

可选地，还包括：

根据所述初始状态数据与所述初始奖励值数据，通过随机贪婪策略从所述目标参数内的第二动作集数据中选取对应的第二目标动作；

采用所述初始状态数据执行所述第二目标动作，通过预设的目标矩阵差分模型生成第二目标状态数据和第二目标奖励值数据；

采用所述第二目标状态数据和所述第二目标奖励值数据更新所述目标参数内的动作指数矩阵，生成对应的动作指数数据；

采用所述动作指数数据输入预设的目标矩阵迭代模型进行更新，并跳转执行所述采用所述第一目标状态数据与所述第一目标奖励值数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵的步骤。

可选地，所述通过所述拉格朗日松弛控制器采用随机贪婪策略从所述目标矩阵执行选取操作，确定对应的目标功率差值的步骤，包括：

采用随机贪婪策略从所述目标矩阵选取对应的第三目标动作；

根据所述第三目标动作从所述第一动作集数据匹配关联的功率差值作为目标功率差值。

可选地，所述采用所述功率指令值与所述目标功率差值，确定对应的目标参考总功率，并将所述目标参考总功率发送至所述发电机组的步骤，包括：

计算所述功率指令值与所述目标功率差值之间的和值，生成对应的目标参考总功率；

将所述目标参考总功率发送至所述发电机组。

本发明第二方面提供的一种基于拉格朗日松弛强化学习的频率控制装置，应用于新能源电力系统，所述新能源电力系统包括拉格朗日松弛控制器和发电机组，所述装置包括：

响应模块，用于响应于接收到的频率调整请求，选取所述频率调整请求对应的所述新能源电力系统作为目标新能源电力系统；

数据获取模块，用于获取当前时刻所述目标新能源电力系统对应的目标ACE状态数据和功率指令值；

目标矩阵模块，用于通过所述拉格朗日松弛控制器采用所述目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵；

目标功率差值模块，用于通过所述拉格朗日松弛控制器采用随机贪婪策略从所述目标矩阵执行选取操作，确定对应的目标功率差值；

目标参考总功率模块，用于采用所述功率指令值与所述目标功率差值，确定对应的目标参考总功率，并将所述目标参考总功率发送至所述发电机组；

调整模块，用于按照预设梯度调整所述发电机组的出力，将所述发电机组当前时刻的输出功率调整为所述目标参考总功率。

本发明第三方面提供的一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述任一项所述的基于拉格朗日松弛强化学习的频率控制方法的步骤。

本发明第四方面提供的一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上述任一项所述的基于拉格朗日松弛强化学习的频率控制方法。

从以上技术方案可以看出，本发明具有以下优点：

响应于接收到的频率调整请求，选取频率调整请求对应的新能源电力系统作为目标新能源电力系统，获取当前时刻目标新能源电力系统对应的目标ACE状态数据和功率指令值，通过拉格朗日松弛控制器采用目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵，通过拉格朗日松弛控制器采用随机贪婪策略从目标矩阵执行选取操作，确定对应的目标功率差值，采用功率指令值与目标功率差值，确定对应的目标参考总功率，并将目标参考总功率发送至发电机组，按照预设梯度调整发电机组的出力，将发电机组当前时刻的输出功率调整为目标参考总功率；解决现有的控制方法大多采用传统控制方法作为调频控制策略，缺少针对不同典型二次调频场景的强化学习控制策略，当大规模新能源接入电力系统时，存在难以维持分布式电网各区域频率稳定的技术问题；实现了在强随机性负荷情况维持分布式电网各区域频率稳定和提高分布式电网消纳如风电和光伏等间歇性能源的能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一提供的一种基于拉格朗日松弛强化学习的频率控制方法的步骤流程图；

图2为本发明实施例二提供的一种基于拉格朗日松弛强化学习的频率控制方法的步骤流程图；

图3为本发明实施例中的目标新能源电力系统示意图；

图4为本发明实施例中的拉格朗日松弛控制器更新目标矩阵示意图；

图5为本发明实施例中的发电机组示意图；

图6为本发明实施例中的采用拉格朗日松弛控制器与现有的FAQL控制器和Q控制器的两区域电网第一控制性能指标示意图；

图7为本发明实施例中的采用拉格朗日松弛控制器与现有的FAQL控制器和Q控制器的两区域电网第二控制性能指标示意图；

图8为本发明实施例中的采用拉格朗日松弛控制器与现有的FAQL控制器和Q控制器的两区域电网第三控制性能指标示意图；

图9为本发明实施例中的采用拉格朗日松弛控制器与现有的FAQL控制器和Q控制器的两区域电网第四控制性能指标示意图；

图10为本发明实施例三提供的一种基于拉格朗日松弛强化学习的频率控制装置的结构框图。

具体实施方式

本发明实施例提供了一种基于拉格朗日松弛强化学习的频率控制方法和装置，用于解决了现有的控制方法大多采用传统控制方法作为调频控制策略，缺少针对不同典型二次调频场景的强化学习控制策略，当大规模新能源接入电力系统时，存在难以维持分布式电网各区域频率稳定的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例一提供的一种基于拉格朗日松弛强化学习的频率控制方法的步骤流程图。

本发明提供的一种基于拉格朗日松弛强化学习的频率控制方法，应用于多个新能源电力系统，新能源电力系统包括拉格朗日松弛控制器和发电机组，方法包括：

新能源电力系统，指的是以新能源为主体的新型电力系统，以坚强智能电网为枢纽平台，以源网荷储互动与多能互补为支撑，具有清洁低碳、安全可控、灵活高效基本特征的电力系统。

拉格朗日松弛控制器，指的是引入拉格朗日松弛的频率调整Q学习(FrequencyAdjustment Q Learning-Lagrangian Relaxation，FAQL-LR)强化学习控制器。

发电机组，指的是为考虑发电机组出力速率控制(Generator output RateControl，GRC)的再热式汽轮机机组，由调速器模块、GRC模块、汽轮机模块和功率限幅模块组成。

步骤101、响应于接收到的频率调整请求，选取频率调整请求对应的新能源电力系统作为目标新能源电力系统。

频率调整请求，指的是新能源电力系统响应接收到的针对系统频率调整的请求。

目标新能源电力系统，指的是接收到频率调整请求的新能源电力系统。

在本发明实施例中，响应于接收到针对系统频率调整的请求信息，选取接收到频率调整请求的新能源电力系统作为目标新能源电力系统。

步骤102、获取当前时刻目标新能源电力系统对应的目标ACE状态数据和功率指令值。

目标ACE状态数据，指的是将当前时刻目标新能源电力系统的ACE值对应的初始状态数据和初始奖励值数据作为目标ACE状态数据，用于输入目标矩阵迭代模型中以求得对应的目标矩阵的参数。

功率指令值，指的是当前时刻目标新能源电力系统内的发电机组按照上一时刻拉格朗日松弛控制器发送的功率指令进行输出的输出功率。

在本发明实施例中，获取当前时刻目标新能源电力系统用于输入目标矩阵迭代模型中以求得对应的目标矩阵的参数和目标新能源电力系统内的发电机组按照上一时刻拉格朗日松弛控制器发送的功率指令进行输出的输出功率。

步骤103、通过拉格朗日松弛控制器采用目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵。

目标矩阵迭代模型，指的是用于生成目标矩阵的矩阵迭代模型。

目标矩阵，指的是用于确定目标功率差值的矩阵。

在本发明实施例中，将获取到的目标ACE状态数据输入拉格朗日松弛控制器内的目标矩阵迭代模型，输出对应的目标矩阵。

步骤104、通过拉格朗日松弛控制器采用随机贪婪策略从目标矩阵执行选取操作，确定对应的目标功率差值。

随机贪婪策略，指的是强化学习中的随机策略，其含义是选取使得动作值函数最大的动作的概率为

目标功率差值，指的是目标参考总功率与功率指令值之间的差值。

在本发明实施例中，通过采用随机贪婪策略，对输出的目标矩阵进行选取操作，确定对应的目标功率差值。

步骤105、采用功率指令值与目标功率差值，确定对应的目标参考总功率，并将目标参考总功率发送至发电机组。

在本发明实施例中，根据获取到的功率指令值与目标功率差值进行和值运算，生成目标参考总功率，并将目标参考总功率输出至发电机组。

步骤106、按照预设梯度调整发电机组的出力，将发电机组当前时刻的输出功率调整为目标参考总功率。

在本发明实施例中，按照预设梯度调整发电机组的出力，预设梯度根据人们的需求而设置，将发电机组当前时刻的输出功率调整为目标参考总功率。

在发明实施例中，响应于接收到的频率调整请求，选取频率调整请求对应的新能源电力系统作为目标新能源电力系统，获取当前时刻目标新能源电力系统对应的目标ACE状态数据和功率指令值，通过拉格朗日松弛控制器采用目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵，通过拉格朗日松弛控制器采用随机贪婪策略从目标矩阵执行选取操作，确定对应的目标功率差值，采用功率指令值与目标功率差值，确定对应的目标参考总功率，并将目标参考总功率发送至发电机组，按照预设梯度调整发电机组的出力，将发电机组当前时刻的输出功率调整为目标参考总功率；解决现有的控制方法大多采用传统控制方法作为调频控制策略，缺少针对不同典型二次调频场景的强化学习控制策略，当大规模新能源接入电力系统时，存在难以维持分布式电网各区域频率稳定的技术问题；实现了在强随机性负荷情况维持分布式电网各区域频率稳定和提高分布式电网消纳如风电和光伏等间歇性能源的能力。

请参阅图2，图2为本发明实施例二提供的一种基于拉格朗日松弛强化学习的频率控制方法的步骤流程图。

步骤201、响应于接收到的频率调整请求，选取频率调整请求对应的新能源电力系统作为目标新能源电力系统。

如图3所示，图3为本发明实施例中的目标新能源电力系统示意图。

值得一提的是，拉格朗日松弛控制器适用于多区域分布式电网，目标新能源电力系统包括拉格朗日松弛控制器和发电机组，其中，区域联络线交换功率ΔP

在本发明实施例中，步骤201的具体实施过程与步骤101类似，在此不再赘述。

步骤202、获取当前时刻目标新能源电力系统对应的目标ACE状态数据和功率指令值。

进一步地，目标ACE状态数据包括初始状态数据和初始奖励值数据，步骤202可以包括以下子步骤：

S11、获取当前时刻目标新能源电力系统对应的初始ACE状态数据和功率指令值。

初始ACE状态数据，指的是联络线交换功率、一次调频系数和电网信息反馈频率偏差。

在本发明实施例中，获取当前时刻目标新能源电力系统对应的联络线交换功率、一次调频系数、电网信息反馈频率偏差和电网信息反馈频率偏差。

S12、采用初始ACE状态数据输入预设的ACE状态模型，输出对应的初始状态数据和初始奖励值数据。

在本发明实施例中，采用联络线交换功率、一次调频系数和电网信息反馈频率偏差输入预设的ACE状态模型，输出对应的初始状态数据和初始奖励值数据。

在具体实现中，为方便方法的实现，可以通过将上述过程转换为公式封装的形式，其中，预设的ACE状态模型可以如下：

式中，ACE

值得一提的是，-(ACE)

步骤203、通过拉格朗日松弛控制器采用目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵。

进一步地，步骤203可以包括以下子步骤：

S21、初始化目标参数。

目标参数，指的是目标矩阵Q，动作指数矩阵Q

在本发明实施例中，将拉格朗日松弛控制器中的目标参数进行初始化。

S22、根据初始状态数据与初始奖励值数据，通过随机贪婪策略从目标参数内的第一动作集数据中选取对应的第一目标动作。

随机贪婪策略指的是∈-greedy策略平衡了利用和探索，其中选取动作值函数最大的部分为利用，其他非最优动作仍有概率为探索部分。其具体公式为：

式中，π(a|s)表示在目标ACE状态数据关联的当前状态s选择动作a的概率；ε表示随机因子；A表示动作集合；Q(s,a)表示在目标ACE状态数据关联的当前状态s下a的动作-状态价值。

在本发明实施例中，基于初始状态数据和初始奖励值数据，即可确定目标新能源电力系统的初始状态，在初始状态下，通过随机贪婪策略从目标参数内的第一动作集数据中选取对应的第一目标动作。

S23、采用初始状态数据执行第一目标动作，通过ACE状态模型生成第一目标状态数据和第一目标奖励值数据。

在本发明实施例中，根据初始状态数据关联的初始状态作出第一目标动作，通过ACE状态模型生成第一目标状态数据和第一目标奖励值数据。

值得一提的是，第一目标动作a就是第一动作集数据A的索引。

S24、采用第一目标状态数据与第一目标奖励值数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵。

在具体实现中，为方便方法的实现，可以通过将上述过程转换为公式封装的形式，其中，预设的目标矩阵迭代模型可以如下：

式中，Q

在本发明实施例中，采用第一目标状态数据与第一目标奖励值数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵。

进一步地，步骤203可以还包括以下子步骤：

S25、根据初始状态数据与初始奖励值数据，通过随机贪婪策略从目标参数内的第二动作集数据中选取对应的第二目标动作。

在本发明实施例中，根据初始状态数据与初始奖励值数据，通过随机贪婪策略从目标参数内的第二动作集数据中选取对应的第二目标动作。

S26、采用初始状态数据执行第二目标动作，通过预设的目标矩阵差分模型生成第二目标状态数据和第二目标奖励值数据。

在具体实现中，为方便方法的实现，可以通过将上述过程转换为公式封装的形式，其中，预设的目标矩阵差分模型可以如下：

式中，r

值得一提的是，以相同状态-动作值的前后两步差值Q

S27、采用第二目标状态数据和第二目标奖励值数据更新目标参数内的动作指数矩阵，生成对应的动作指数数据。

在本发明实施例中，根据动作指数矩阵在第二动作集数据中选择动作然后计算得到动作指数。

S28、采用动作指数数据输入预设的目标矩阵迭代模型进行更新，并跳转执行采用第一目标状态数据与第一目标奖励值数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵的步骤。

在本发明实施例中，将获取到的动作指数数据输入预设的目标矩阵迭代模型进行更新，并跳转S24步骤。

值得一提的是，在S21-S28中，如图4所示，拉格朗日松弛控制器初始化目标参数，目标矩阵Q，动作指数矩阵Q

值得一提的是，两个矩阵是同步运行的，Ql矩阵是计算动作指数的，他的状态和奖励均来自Q矩阵的前后两步的差值，Ql做出动作之后计算得到动作指数，然后Q矩阵再根据含动作指数的目标矩阵迭代模型进行更新。

图4中初始化目标参数均可知，具体为：学习率α＝0.1，折扣因子γ＝0.95，环境信息数量N＝20，动作集A＝[-50:5:50]。其中，动作指数η的计算方法为：以S26中所示Q

步骤204、通过拉格朗日松弛控制器采用随机贪婪策略从目标矩阵执行选取操作，确定对应的目标功率差值。

进一步地，步骤204可以包括以下子步骤：

S31、采用随机贪婪策略从目标矩阵选取对应的第三目标动作。

第三目标动作，指的是从目标矩阵中选取出的动作。

在本发明实施例中，在状态为s的情况下，通过随机贪婪策略从目标矩阵这一行中选出一个第三目标动作a。

值得一提的是，一次迭代只用选一次动作，所以，此处的第三目标动作与第一目标动作相同。

S32、根据第三目标动作从第一动作集数据匹配关联的功率差值作为目标功率差值。

在本发明实施例中，选出的这个第三目标动作a即可在第一动作集数据A中确定一个数A(a)，这个选中的数即为与上一次迭代的功率的差值。

步骤205、采用功率指令值与目标功率差值，确定对应的目标参考总功率，并将目标参考总功率发送至发电机组。

值得一提的是，发电机组如图5所示：

发电机组为考虑发电机组出力速率控制(Generator output Rate Control，GRC)的再热式汽轮机机组，由调速器模块、GRC模块、汽轮机模块和功率限幅模块组成，用这四个模块模拟真实的再热汽轮机组的工作状况。所述区域功率联络线是各个区域的功率交流联络线，当一个区域内的发电-用电不平衡时，通过联络线调用其他区域的功率维持整个电网的稳定。为验证控制器的控制能力，所述负荷为MATLAB/Simulink随机生成的负荷信号。所述再热式汽轮机组的具体参数解释为：Tg为调速器时间常数，Tr为二次时间常数，Tt为汽轮机延迟时间常数，Kr为汽轮机比例系数。

进一步地，步骤205可以包括以下子步骤：

S41、计算功率指令值与目标功率差值之间的和值，生成对应的目标参考总功率。

在本发明实施例中，然后把这个数与上一次迭代的功率指令相加得到本次迭代的总功率指令，然后作为控制器的输出。

S42、将目标参考总功率发送至发电机组。

在本发明实施例中，将目标参考总功率发送至发电机组。

步骤206、按照预设梯度调整发电机组的出力，将发电机组当前时刻的输出功率调整为目标参考总功率。

在本发明实施例中，步骤206的具体实施过程与步骤106类似，在此不再赘述。

步骤207、获取目标新能源电力系统当前时刻的频率偏差数据和联络线功率偏差数据。

在本发明实施例中，获取目标新能源电力系统当前时刻的频率偏差数据和联络线功率偏差数据。

步骤208、将目标参考总功率作为新的功率指令值。

在本发明实施例中，将当前控制器输出的目标参考总功率作为新的功率指令值。

步骤209、采用频率偏差数据和联络线功率偏差数据，确定新的目标ACE状态数据，并跳转执行通过拉格朗日松弛控制器采用目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵的步骤。

请参阅图6-图9，将拉格朗日松弛控制器与现有的FAQL控制器和Q控制器做比对。

请参阅图6，图6为在正弦扰动下，基于FAQL-LR所提出的拉格朗日松弛控制器始终可以把区域频率偏差维持在0.01Hz以内，FAQL控制器为0.0207Hz，Q控制器为0.0399Hz。

请参阅图7，图7为在正弦扰动下，基于FAQL-LR所提出的拉格朗日松弛控制器始终可以把10minACE平均值维持在3.0454MW以内，FAQL控制器为20.6642MW，Q控制器为40.4466MW。

请参阅图8，图8为在正弦扰动下，基于FAQL-LR所提出的拉格朗日松弛控制器始终可以把10min CPS平均值维持在199.7586％以上，FAQL控制器为198.9024％，Q控制器为196.4539％。

请参阅图9，图9为在正弦扰动下，基于FAQL-LR所提出的拉格朗日松弛控制器始终可以把联络线功率偏差维持在1.6562MW以内，FAQL控制器为19.7328MW，Q控制器为128.8520MW。

在本发明实施例中，采用频率偏差数据和联络线功率偏差数据输入预设的ACE状态模型，得到新的目标ACE状态数据，并跳转执行通过拉格朗日松弛控制器采用目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵的步骤。

请参阅图10，图10为本发明实施例三提供的一种基于拉格朗日松弛强化学习的频率控制装置的结构框图。

本发明实施例提供了一种基于拉格朗日松弛强化学习的频率控制装置，应用于新能源电力系统，新能源电力系统包括拉格朗日松弛控制器和发电机组，装置包括：

响应模块301，用于响应于接收到的频率调整请求，选取频率调整请求对应的新能源电力系统作为目标新能源电力系统。

数据获取模块302，用于获取当前时刻目标新能源电力系统对应的目标ACE状态数据和功率指令值。

目标矩阵模块303，用于通过拉格朗日松弛控制器采用目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵。

目标功率差值模块304，用于通过拉格朗日松弛控制器采用随机贪婪策略从目标矩阵执行选取操作，确定对应的目标功率差值。

目标参考总功率模块305，用于采用功率指令值与目标功率差值，确定对应的目标参考总功率，并将目标参考总功率发送至发电机组。

调整模块306，用于按照预设梯度调整发电机组的出力，将发电机组当前时刻的输出功率调整为目标参考总功率。

进一步地，还包括：

偏差数据获取模块，用于获取目标新能源电力系统当前时刻的频率偏差数据和联络线功率偏差数据。

第一更新模块，用于将目标参考总功率作为新的功率指令值。

第二更新模块，用于采用频率偏差数据和联络线功率偏差数据，确定新的目标ACE状态数据，并跳转执行通过拉格朗日松弛控制器采用目标ACE状态数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵的步骤。

进一步地，目标ACE状态数据包括初始状态数据和初始奖励值数据，数据获取模块302包括：

第一数据获取子模块，用于获取当前时刻目标新能源电力系统对应的初始ACE状态数据和功率指令值。；

ACE状态模型子模块，用于采用初始ACE状态数据输入预设的ACE状态模型，输出对应的初始状态数据和初始奖励值数据。

进一步地，目标矩阵模块303包括：

参数初始化子模块，用于初始化目标参数。

第一目标动作子模块，用于根据初始状态数据与初始奖励值数据，通过随机贪婪策略从目标参数内的第一动作集数据中选取对应的第一目标动作。

第二数据获取子模块，用于采用初始状态数据执行第一目标动作，通过ACE状态模型生成第一目标状态数据和第一目标奖励值数据。

目标矩阵迭代模型子模块，用于采用第一目标状态数据与第一目标奖励值数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵。

进一步地，目标矩阵模块303还包括：

第二目标动作子模块，用于根据初始状态数据与初始奖励值数据，通过随机贪婪策略从目标参数内的第二动作集数据中选取对应的第二目标动作。

第三数据获取子模块，用于采用初始状态数据执行第二目标动作，通过预设的目标矩阵差分模型生成第二目标状态数据和第二目标奖励值数据。

动作指数数据子模块，用于采用第二目标状态数据和第二目标奖励值数据更新目标参数内的动作指数矩阵，生成对应的动作指数数据。

跳转子模块，用于采用动作指数数据输入预设的目标矩阵迭代模型进行更新，并跳转执行采用第一目标状态数据与第一目标奖励值数据输入预设的目标矩阵迭代模型，确定对应的目标矩阵的步骤。

进一步地，目标功率差值模块304包括：

第三目标动作子模块，用于采用随机贪婪策略从目标矩阵选取对应的第三目标动作。

匹配子模块，用于根据第三目标动作从第一动作集数据匹配关联的功率差值作为目标功率差值。

进一步地，目标参考总功率模块305包括：

目标参考总功率计算子模块，用于计算功率指令值与目标功率差值之间的和值，生成对应的目标参考总功率。

目标参考总功率发送子模块，用于将目标参考总功率发送至发电机组。

本发明实施例的一种电子设备，电子设备包括：存储器及处理器，存储器中储存有计算机程序；计算机程序被处理器执行时，使得处理器执行如上述任一实施例的基于拉格朗日松弛强化学习的频率控制方法。

存储器可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器具有用于执行上述方法中的任何方法步骤的程序代码的存储空间。例如，用于程序代码的存储空间可以包括分别用于实现上面的方法中的各种步骤的各个程序代码。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。程序代码可以例如以适当形式进行压缩。这些代码当由计算处理设备运行时，导致该计算处理设备执行上面所描述的方法中的各个步骤。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被执行时实现如本发明任一实施例的基于拉格朗日松弛强化学习的频率控制方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘岩;周保荣;黄福全;赵文猛;李江南;王滔;毛田;
专利申请人：深圳供电局有限公司;