一种智能体与电网环境交互学习系统与方法、存储介质

文献发布时间：2023-06-19 18:37:28

技术领域

本发明涉及电网调控技术领域，具体涉及一种智能体与电网环境交互学习系统与方法、存储介质。

背景技术

随着我国市场经济的持续发展，特高压电网与交直流混联电网的建设，分布式微电网的并网运行，以及可再生能源的高比例持续性接入，使电网的运行与控制面临着越来越多的挑战，而强化学习技术则为解决高非线性、高维度、高实时性的电网控制与决策问题提供了新的解决方案。在电网控制与决策任务中，强化学习智能体在训练时不能与真实的电网环境进行交互，导致智能体操作不灵活、无法应对异常环境等问题，所以通常需要根据真实电网构造一套仿真环境。

由于真实电网环境元件数量多、拓扑关系与约束条件复杂，仿真环境的构建非常耗时耗力。现有方法采用模拟仿真环境的方式来构建智能体交互环境，与真实电网环境存在较大差异，造成控制和决策结果精确度较差，如果将训练好的智能体模型应用至实际电网生产环境中进行在线决策，还需要大量的迁移与适配工作。

发明内容

本发明提供了一种智能体与电网环境交互学习系统与方法，针对电网仿真环境尤其是潮流求解器构建复杂繁琐的问题，利用断面潮流文件作为中间媒介，将强化学习智能体、状态估计模块、潮流计算模块等模块通过接口的形式进行交互联动，以实现智能体的训练。该方法可以有效复用调控系统中的状态估计与调度员潮流计算等高级应用软件，在降低建模复杂度的同时，使智能体训练环境更接近真实电网环境，提高精确度。

本发明解决上述技术问题的方案如下：一种智能体与电网环境交互学习系统，所述系统包括状态估计模块、交互服务模块、强化学习智能体与潮流计算模块；所述交互服务模块通过接口分别与所述状态估计模块、所述强化学习智能体与所述潮流计算模块相连通；

所述状态估计模块用于读取各个历史时间点的电网信息，并根据电网信息生成历史断面潮流文件，根据各个历史时间点的历史断面潮流文件按照期望目标分类得到与期望目标对应类别的历史断面潮流文件集合；

所述交互服务模块用于按照智能体学习的期望目标从与期望目标对应类别的历史断面潮流文件集合中随机选取目标历史断面潮流文件，并对目标历史断面潮流文件进行解析得到目标历史电网状态信息，然后将目标历史电网状态信息发送至强化学习智能体；

所述强化学习智能体用于根据目标历史电网状态信息预测执行动作，并将预测的执行动作发送给交互服务模块，以使交互服务模块根据预测的执行动作修改目标历史断面潮流文件，并将修改后的目标历史断面潮流文件发送给潮流计算模块；

所述潮流计算模块用于根据修改后的目标历史断面潮流文件计算历史电网潮流，并结合历史电网潮流的计算结果生成新的历史断面潮流文件，将新生成的历史断面潮流文件发送给交互服务模块。

优选的，所述交互服务模块还用于对新生成的历史断面潮流文件解析形成新的电网状态信息，基于新的电网状态信息和预测的执行动作生成奖励值，基于新的电网状态信息判断回合是否结束，并发送奖励值和回合是否结束的结果至强化学习智能体，使强化学习智能体根据回合是否结束的结果执行相应的操作及根据奖励值判断训练是否满足预设结束条件。

优选的，所述奖励值的生成方式包括：

在所述交互服务模块判断预测的执行动作属于非法动作时，将奖励值设置为负；在所述交互服务模块判断预测的执行动作不属于非法动作时，则提取新的电网状态信息中的电网效率数值生成奖励值，电网效率数值越高奖励值越大，电网效率数值越低奖励值越小。

电网效率即为所有用电负荷的总需求量与所有发电机机组的总供给量的比例。非法动作包括在输电线路维护期间对其进行重新连接操作，在各元件冷却期间对其进行设置修改等情况。

优选的，所述判断回合是否结束方式包括：

所述交互服务模块根据新的电网状态信息判断强化学习智能体能否正常管控电网，若能，回合结束并将结果发送强化学习智能体，使强化学习智能体进入下一回合；若不能，回合不结束并将结果发送强化学习智能体，使强化学习智能体回到根据目标历史电网状态信息预测执行动作步骤并执行后续动作，直至回合结束。

强化学习智能体无法继续正常管控电网，包括以下两种情况：一是当出现太多断开的输电线路等情况时，输电线路无法将用电负荷所需的功率及时传输，无法满足电量消费，造成被迫限制用电甚至出现大范围停电，或出现1个以上的发电机机组与电网断开连接；二是智能体产生了一个错误动作，造成电网环境出现解列，形成若干个彼此孤立、互不相连的电网拓扑子图。

优选的，所述电网信息包括电网模型参数、结线连接关系和一组有冗余的遥测量测值和遥信开关状态。

优选的，所述状态估计模块用于通过所述电网信息，经过网络拓扑分析与计算生成断面潮流文件。

优选的，所述预设训练结束条件包括达到预设的最大训练步数、训练至最后一个回合和奖励值不再继续提升。

一种智能体与电网环境交互学习方法，包括以下步骤：

所述状态估计模块读取各个历史时间点的电网信息，并根据电网信息生成历史断面潮流文件，根据各个历史时间点的历史断面潮流文件按照智能体学习的期望目标分类得到与期望目标对应类别的历史断面潮流文件集合；

所述交互服务模块按照智能体学习的期望目标从与期望目标对应类别的历史断面潮流文件集合中随机选取目标历史断面潮流文件，并对目标历史断面潮流文件进行解析得到目标历史电网状态信息，然后将目标历史电网状态信息发送至强化学习智能体；

所述强化学习智能体用根据目标历史电网状态信息，预测执行动作，发送给交互服务模块；

所述交互服务模块根据待执行的动作，修改目标历史断面潮流文件，然后将修改后的目标历史断面潮流文件发送给潮流计算模块；

所述潮流计算模块根据修改后的目标历史断面潮流文件计算历史电网潮流，并结合历史电网潮流的计算结果生成新的历史断面潮流文件，将新生成的历史断面潮流文件发送给交互服务模块；

所述交互服务模块接收并解析新生成的历史断面潮流文件，形成新的电网状态信息，基于新的电网状态信息和预测的执行动作生成奖励值，基于新的电网状态信息判断回合是否结束，并发送奖励值和回合是否结束的结果至强化学习智能体；

所述强化学习智能体接受奖励值及回合是否结束结果，执行回合是否结束动作，根据奖励值判断训练是否满足预设结束条件。

本发明还提供一种智能体与电网环境交互方法，包括：

获取实时电网信息；

将实时电网信息输入智能体与电网环境交互系统，输出电网调控操作动作；

其中，所述智能体与电网环境交互系统由如上所述的一种智能体与电网环境交互学习方法训练得来。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的一种智能体与电网环境交互学习方法的步骤。

本发明还提供一种电子设备，包括存储器和处理器：

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，所述计算机可执行指令被处理器执行时实现如上所述的一种智能体与电网环境交互学习方法的步骤。

本发明的有益效果如下：

1.本发明针对电网仿真环境尤其是潮流求解器构建复杂繁琐的问题，利用断面潮流文件作为中间媒介，将强化学习智能体、状态估计模块、调度员潮流计算模块等模块通过接口的形式进行交互联动，以实现强化学习智能体的训练。该方法可以有效复用调控系统中的状态估计与调度员潮流计算等高级应用软件，在降低建模复杂度的同时，实现了电网强化学习仿真环境的快速搭建，节省了构建潮流求解器的大量时间，同时保证智能体训练环境更接近真实电网环境。

2.本发明通过在按照预期目标分类生成潮流断面文件，可对模型进行针对性的训练。

3.本发明通过设置奖励值和回合是否结束的结果，提高模型的准确性。

4.本发明当将训练智能体应用至实际电网生产环境中进行在线决策时，本发明所构建的智能体与电网环境交互方法，能够很平滑的适配实际环境中的调控系统高级应用软件，提升迁移与适配的工作效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中所述方法的系统图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1

一种智能体与电网环境交互学习系统，系统包括状态估计模块、交互服务模块、强化学习智能体与潮流计算模块；

所述状态估计模块用于读取各个历史时间点的电网信息，并根据电网信息经过网络拓扑分析与计算生成历史断面潮流文件，根据各个历史时间点的历史断面潮流文件按照期望目标分类得到与与期望目标对应类别的历史断面潮流文件集合；其中，电网信息包括电网模型参数、结线连接关系和一组有冗余的遥测量测值和遥信开关状态，

所述交互服务模块还用于对新生成的历史断面潮流文件解析形成新的电网状态信息，基于新的电网状态信息和预测的执行动作生成奖励值，基于新的电网状态信息判断回合是否结束，并发送奖励值和回合是否结束的结果至强化学习智能体，使强化学习智能体根据回合是否结束的结果执行相应的操作及根据奖励值判断训练是否满足预设结束条件。

其中，所述奖励值的生成方式包括：

其中，所述判断回合是否结束方式包括：

其中，所述预设训练结束条件包括达到预设的最大训练步数、训练至最后一个回合和奖励值不再继续提升。

实施例2

一种智能体与电网环境交互学习方法，包括以下步骤：

步骤1、状态估计模块通过接口读取电网环境中数据采集与监视控制采集的各个历史时间点的电网信息，并对数据采集与监控系统提供的电网信息进行滤波，以提高数据精度，排除错误信息的干扰，从而生成历史断面潮流文件。汇总各个历史时间点的历史断面潮流文件按照强化学习智能体的期望目标(即对潮流文件增加类别标签，如包含新能源机组、包含电网异常与故障等)进行汇总，形成历史断面潮流文件集合，如S＝{QS

步骤2、交互服务模块按照智能体训练的预期目标(如任务目标是新能源消纳，优先选取与风电、光伏等新能源设备相关的断面潮流文件)，选取与期望目标对应分类(如以5分钟为周期，持续收集一年)的历史断面潮流文件集合S，随机选取某中一个历史断面潮流文件A，解析后形成目标历史电网状态信息，如state＝{"gen_p":[100,200,100,150,100],"gen_v":[220.5,220,220,219.5,220],"line_status":[0,1,1,1,1]……}，其中gen_p为机组有功出力，gen_v为发电机电压幅值，line_status为线路状态，然后将目标历史电网状态信息发送至强化学习智能体。

步骤3、强化学习智能体接收接收目标历史电网状态信息，对其进行计算后，预测出需要执行的动作，如action＝{"adjust_gen_p":[1.17,-0.11,2.01,1.65,0],"adjust_gen_v":[-0.05,-0.05,-0.06,0.06.5,0.12]……},其中adjust_gen_p为机组有功出力调整值，adjust_gen_v为机组电压调整值，发送给交互服务模块。

步骤4、交互服务模块接收待执行动作，修改对应的目标历史断面潮流文件A(如根据输出动作，将1号发电机的有功出力增加1.17兆瓦，则在潮流文件机组中将1号机组的有功功率值加上1.17)，生成新的历史断面潮流文件B，然后将历史断面潮流文件B发送至潮流计算模块。

步骤5、潮流计算模块根据历史断面潮流文件B计算历史电网潮流，并结合历史电网潮流的计算结果(如潮流收敛情况、越限情况、重载情况等)生成新的断面潮流文件C，并将新生成的历史断面潮流文件C发送给交互服务模块。

步骤6、交互服务模块解析断面潮流文件C，最终形成新的电网状态信息、基于新的电网状态信息及预测的执行动作生成奖励值，及判断回合是否结束，并发送奖励值和回合是否结束的结果至强化学习智能体；

其中，所述奖励值的生成方式包括：

其中，所述判断回合是否结束方式包括：

所述交互服务模块根据新的电网状态信息判断强化学习智能体能否正常管控电网，若能，则回合结束；若不能，回合不结束。

步骤7、强化学习智能体接收奖励值及回合是否结束结果，如果当前回合结束，则进入下一个交互回合，交互服务模块重新随机选取一个新的历史断面潮流文件进行初始化，直到满足智能体预设训练结束条件。若当前回合不结束，则进入步骤3-6的循环，直到回合结束。其中，所述预设训练结束条件包括达到预设的最大训练步数、训练至最后一个回合和奖励值不再继续提升。

实施例3

一种智能体与电网环境交互方法，包括以下步骤：

获取实时电网信息；

将实时电网信息输入智能体与电网环境交互系统，输出电网调控操作动作；

其中，所述智能体与电网环境交互系统由实施例2所述的一种智能体与电网环境交互学习方法训练得来。

实施例4

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如实施例2所述的一种智能体与电网环境交互学习方法的步骤。

以上所述，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上所述而顺畅地实施本发明；但是，凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：邱鹏;凌兆伟;张天一;句荣滨;金宜放;王洪泽;乔咏田;单连飞;张越;赵胜奥;
专利申请人：国网辽宁省电力有限公司锦州供电公司;国网辽宁省电力有限公司;国网电力科学研究院有限公司;国家电网有限公司;

上一篇：一种监测鉴定试纸操作的方法及系统
下一篇：用于球形或球扁形发射药成型的工艺方法及成型装置