掌桥专利:专业的专利平台
掌桥专利
首页

基于SAC深度强化学习的SVG参数优化辨识方法

文献发布时间:2023-06-19 18:37:28


基于SAC深度强化学习的SVG参数优化辨识方法

技术领域

本发明涉及电力信息技术领域,尤其是涉及基于SAC深度强化学习的SVG参数优化辨识方法。

背景技术

柔性交流输电技术FACTS的出现为提升电网可靠性和经济性提供了新的技术手段。静止无功发生器(SVG)作为FACTS家族的重要成员,在改善电力系统电压质量及提高系统运行稳定性方面得到广泛应用。准确的SVG控制器模型参数对电力系统仿真分析的正确性尤为重要,而很多厂商由于技术保密不提供相应的SVG控制参数,因此SVG控制器参数辨识很有必要。目前,对SVG控制器参数辨识的研究很少,更多的是对其控制器模型和工作原理的研究,由于SVG控制器参数众多,所以对SVG控制器进行参数辨识要花费许多时间。因此,研究出适当的方法对SVG控制器进行参数辨识并得出准确的参数具有工程意义和研究价值。

文献“Zheng Qiang Guan,Si Jing Liu,Xing Hua Liu.Static Var GeneratorTechnology and its Applications[J].Applied Mechanics and Materials,2014,2963(494-495):”对SVG控制器的工作原理以及无功电流的检测方法作了详细介绍,但对于SVG控制器参数辨识问题的研究较少。文献“夏天华,马骏超,黄弘扬,彭琰,肖修林,陈皓,郭瑞鹏.基于RTDS硬件在环测试的SVG控制器参数辨识[J].电力系统保护与控制,2020,48(13):110-116”提出了一种基于控制器硬件的在环测试的参数辨识方法,采用的粒子群算法虽然简单,但容易陷入局部最优解。文献“曹斌,丛雨,原帅,张晓琳,王琪,王立强,赵永飞.基于控制器硬件在环的SVG模型参数测试方法[J].电器与能效管理技术,2021(06):63-66+78.”提出了一种基于RTDS硬件的在环测试的参数辨识方法,将测试得到的SVG响应数据作为实测数据,对于不同的控制器参数组合,采用BPA软件进行暂态仿真,根据暂态仿真结果与实测数据的最小二乘指标进行参数辨识,能够准确对SVG控制器参数进行辨识,但是SVG控制器参数众多,对每个参数进行辨识耗时较大。文献“Sutton R S,Barto A G.Reinforcementlearning:An introduction[M].Cambridge,MA:MIT press,2018.”针对风电场随机特性引起的辨识结果不准确问题,综合低风速模型算法和高风速模型算法的优点,提出一种多方式混合辨识算法。

强化学习主要关注智能体如何对环境的刺激做出决策,以取得最大的平均累积回报,从而形成一种从状态到动作的映射关系。强化学习方法与一般的数学优化算法和现代进化算法相比有很多优势。第一,强化学习在寻优的过程中不需要精确模型,甚至不需要对模型进行任何描述。因此,强化学习方法具有较强的通用性。第二,强化学习对策略的优化仅仅依靠于在不同状态或行为下环境反馈的奖励或惩罚信号,不需要计算目标函数的梯度信息。因此,强化学习方法可避免对目标函数连续、可导、凸性等要求,也避免了求微分和矩阵求逆等复杂运算,很大程度降低了计算的时间和复杂度。

强化学习通过智能体感知环境状态信息,通过反复试错不断修正智能体行为策略,从而获得最大化的平均累积回报。强化学习具有对环境的先验要求低的优点,是一种可以应用到实时环境中的在线学习方法,因此在电力系统领域有着广泛的应用。在电力系统无功优化领域,文献“Shang X,Li M,Ji T,et al.Discrete reactive poweroptimization considering safety margin by dimensional Q-learning[A].In:2015IEEE Innovative Smart Grid Technologies-Asia(ISGTASIA)[C],2015.1–5.”采用强化学习对电力系统无功进行优化。文献“Shang X,Li M,Ji T,et al.Discrete reactivepower optimization considering safety margin by dimensional Q-learning[A].In:2015IEEE Innovative Smart GridTechnologies-Asia(ISGTASIA)[C],2015.1–5.”提出了一种基于分维搜索的强化学习算法,其奖励函数设计采用罚函数形式将电压安全问题和发电机无功出力限制考虑在内。文献“尚筱雅.基于改进强化学习算法的终端电网在线等值建模方法及其应用[D].华南理工大学,2018.”提出一种ERL(Enhanced ReinforcementLearning)算法对区域负荷时变系统进行参数辨识,该算法能对模型参数进行准确快速的跟踪。文献“Wang Siqi et al.On Multi-Event Co-Calibration of Dynamic ModelParameters Using Soft Actor-Critic[J].IEEE TRANSACTIONS ON POWER SYSTEMS,2021,36(1):521-524.”提出了一种基于最大熵、soft actor critic(SAC)的非策略深度强化学习(DRL)算法的参数校准方法,以自动调整不正确的参数集,同时考虑多个事件,可以节省大量的劳动力。

综上,本发明考虑将强化学习应用到SVG控制器参数辨识,克服传统方法计算量大的缺陷,通过soft actor critic(SAC)深度强化学习算法对SVG参数进行准确快速估计。

发明内容

本发明的目的是提供一种基于SAC深度强化学习的SVG参数优化辨识方法,解决以上所述的问题。

为实现上述目的,本发明提供了一种基于SAC深度强化学习的SVG参数优化辨识方法,其特征在于:包括以下步骤:

步骤一,建立与SVG实测曲线运行环境相同的SVG接入单机无穷大系统的等值数学模型;

步骤二,利用扰动法计算各参数的无功功率轨迹灵敏度、电压轨迹灵敏度以及电流轨迹灵敏度并进行筛选;

步骤三,建立基于BPA的SAC的环境;

步骤四,搭建SAC智能体;

步骤五,开始SVG参数辨识训练,得到最终辨识结果。

优选的,SVG实测曲线为RTDS实测曲线,所使用的仿真工具PSD-BPA。

优选的,步骤二的具体方法为:

SVG参数存于暂态数据文件中的VG/VG+卡,待辨识参数以BPA暂态数据文件中VG/VG+卡的值作为参数初始值进行潮流计算,设置短路故障,进行暂态计算,记录接有SVG母线处的无功曲线,电流曲线以及电压曲线;将选定参数在初始值的基础上增加5%,再一次进行暂态计算,得到输出曲线,然后计算选定参数的无功轨迹灵敏度、电流轨迹灵敏度、电压轨迹灵敏度,计算公式如下:

式中:

优选的,步骤三的具体方法为:

针对辨识的每个SVG参数,确定参数的范围,SVG参数的值作为状态s

s

根据BPA中的暂态文件SWI文件格式,将状态s

R=-(Q-Q

其中Q

SAC给出的动作a

最终得到当前状态s

优选的,步骤四的具体方法为:

SAC智能体中的神经网络选取MLP多层感知机,MLP神经网络的结构包括输入层、隐藏层和输出层,目标值网络

SAC智能体中状态价值网络

其中

然后训练动作价值网络

其中,

目标值网络

得到每个网络的误差函数之后,开始计算各个网络误差函数的梯度

优选的,步骤五的具体方法为:

首先初始化基于BPA的暂态计算环境,并初始化SVG参数和参数范围,然后初始化SAC模型,并初始化网络参数

因此,本发明采用上述基于SAC深度强化学习的SVG参数优化辨识方法,利用电力系统仿真软件BPA对SVG进行建模仿真,然后根据轨迹灵敏度筛选出对SVG无功动态曲线影响较大的SVG主要参数,采用这种方法能够减少参与辨识的参数数目,减少参数辨识时间。其次设定SVG参数的范围,用Tensorflow搭建SAC模型,然后通过SVG实测曲线和SAC智能体训练,最终得到辨识出RTDS的SVG参数,解决传统算法中经常出现的稳定性较差和难以收敛的问题,减少参数辨识的复杂度,提高对控制器影响较大的参数的辨识精度,提高辨识效率。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明基于SAC深度强化学习的SVG参数优化辨识方法流程图;

图2为本发明SVG控制器模型图;

图3为本发明接有SVG的单机无穷大系统模型图;

图4为本发明强化学习原理图;

图5为本发明SAC结构图;

图6为本发明粒子群优化算法的辨识结果图;

图7为本发明SAC深度强化学习方法得到的辨识结果图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

实施例

图1为本发明基于SAC深度强化学习的SVG参数优化辨识方法流程图;图2为本发明SVG控制器模型图;图3为本发明接有SVG的单机无穷大系统模型图;图4为本发明强化学习原理图;图5为本发明SAC结构图;图6为本发明粒子群优化算法的辨识结果图;图7为本发明SAC深度强化学习方法得到的辨识结果图。

如图所示,本发明所述的一种基于SAC深度强化学习的SVG参数优化辨识方法,包括以下步骤:

步骤一,建立与SVG实测曲线运行环境相同的SVG接入单机无穷大系统的等值数学模型。其中SVG实测曲线采用RTDS实测曲线,建立等值数学模型使用仿真工具PSD-BPA(简称BPA),是电力系统计算分析的综合电力仿真软件,在国内电力调度运行机构和电力系统规划相关单位及各高校中都得到了广泛应用,具有潮流计算、暂态稳定仿真计算、短路计算、小干扰稳定计算等功能。潮流计算:潮流计算文件格式为DAT,潮流数据文件是为潮流运算提供数据与指令、按照BPA定义的DAT文本文件,可直接编辑、修改参数。暂态计算:暂态计算文件格式为SWI。与潮流数据文件类似,元件动态参数、故障操作、计算和输出控制均以卡片形式输入,并可通过设置相关卡片的参数进行不同干扰方式下的稳定计算。

图1为SVG控制器模型图,图中:V为SVG输出端电压,V

图2为经典的单机无穷大模型,将SVG接入该模型进行后续仿真计算。

步骤二,利用扰动法计算各参数的无功功率轨迹灵敏度、电压轨迹灵敏度以及电流轨迹灵敏度,探究不同观测量下的轨迹灵敏值,设定阈值,筛选出轨迹灵敏度大于设定阈值的参数。

1、根据BPA中的SVG控制器模型,初始待辨识参数有[T

2、将T

3、根据公式分别计算各参数的无功功率轨迹灵敏度、电压轨迹灵敏度以及电流轨迹灵敏度。无功轨迹灵敏度、电流轨迹灵敏度、电压轨迹灵敏度,计算公式如下:

式中:

根据上述步骤,编写程序计算轨迹灵敏度,计算结果如表1所示。

表1参数轨迹灵敏度

由表1可得,各参数电压灵敏度比较接近,较难比较,而且电压灵敏度相对于电流灵敏度和无功灵敏度较小,因此电压灵敏度不作为判断指标。而电流灵敏度与无功灵敏度得出的各参数灵敏度大小结果相同,因此,在后续计算中只选取SVG输出的无功功率作为判断灵敏度大小的指标。

根据轨迹灵敏度计算结果可得,参数V

步骤三,建立基于BPA的SAC的环境。

接下来用SAC深度强化学习来辨识SVG参数。SAC模型包含环境和智能体,首先要进行环境的搭建。SVG参数[T

s

根据BPA中的暂态文件SWI文件格式,将状态s

R=-(Q-Q

其中Q

如果SAC给出的动作a

最终得到当前状态s

步骤四,搭建SAC智能体。

强化学习是一种通过智能体与环境进行交互,通过环境反馈不断地对其策略进行修正的一种学习算法,其最终目的是获得最大平均累积回报。

标准RL(ReinforcementLearning)的目标是学习一个π

H(π(a

其中H(π(a

SAC(soft actor critic)是强化学习中一种基于最大熵的非策略强化学习算法,它将强化学习跟深度学习结合起来,用神经网络来模拟策略、状态价值函数和动作价值函数。SAC模型中智能体和环境的交互如图3所示,SAC模型中包含两个网络,actor网络和critic网络,actor网络仅包含一个策略网络π

SAC深度强化学习的网络结构如图4所示。SAC智能体中的神经网络选取MLP多层感知机,MLP神经网络的结构包括输入层、隐藏层和输出层。目标值网络

表2参数值

SAC智能体中状态价值网络

其中

其中,

得到每个网络的误差函数之后,开始计算各个网络误差函数的梯度

SAC算法的网络参数更新流程如下:

第一步,初始化参数向量ψ,

第二步,得到初始状态s

第三步,k满足设定次数30之后,从D中取得存储的样本数据,根据公式(13)计算策略网络π

第四步,根据公式(12)更新参数

第五步,返回第二步。

步骤五,开始SVG参数辨识训练,得到最终辨识结果。

首先建立基于BPA的暂态计算环境,并初始化SVG参数和参数范围,然后建立SAC模型,并初始化网络参数

实验是在NVIDIA GeForce RTX 3060Laptop GPU上进行的,使用Tensorflow搭建神经网络并进行训练,优化器选择Adam。本专利方法的训练流程图如图5所示,当仿真的无功功率跟RTDS实测无功功率数据误差小于允许值时,输出SVG当前参数值,即为辨识结果。

使用SAC深度强化学习对系统参数进行估计的主要目的是减少参数辨识的计算量,缩短计算时间,但前提是要保证参数预测结果的准确度,必须在验证这种辨识方法的准确可行之后才能进一步讨论其对于效率的提升。因此,实验结果主要关注准确度和时间两个方面。同时,将本方法与粒子群优化方法作对比,以展现基于SAC深度强化学习参数辨识的优势。

图6、7中RTDS曲线为实测曲线。图6中优化曲线为使用粒子群优化方法得到的辨识曲线,图7中BPA曲线为使用本文所提SAC深度强化学习方法得到的辨识结果曲线。由仿真曲线可看出本文方法辨识精度更高,从时间上看本文方法辨识速度也更快,辨识效率更高。辨识结果及精度对比如表3所示:

(a)

(b)

表3辨识结果对比

从时间上看,本文方法的参数辨识过程只用了12.39min,优于粒子群优化方法。从该点上看,使用SAC深度强化学习算法的参数辨识能大大缩短辨识过程的时间,并且能够保证较高的辨识精度。

因此,本发明采用上述基于SAC深度强化学习的SVG参数优化辨识方法,利用电力系统仿真软件BPA对SVG进行建模仿真,然后根据轨迹灵敏度筛选出对SVG无功动态曲线影响较大的SVG主要参数,采用这种方法能够减少参与辨识的参数数目,减少参数辨识时间。其次设定SVG参数的范围,用Tensorflow搭建SAC模型,然后通过SVG实测曲线和SAC智能体训练,最终得到辨识出RTDS的SVG参数,解决传统算法中经常出现的稳定性较差和难以收敛的问题,减少参数辨识的复杂度,提高对控制器影响较大的参数的辨识精度,提高辨识效率。

最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

技术分类

06120115635992