用电策略优化调度方法及装置

文献发布时间：2024-04-18 19:58:26

技术领域

本发明属于用电数据预测领域，涉及用电策略调度技术领域，尤其涉及一种用电策略优化调度方法及装置。

背景技术

传统的用电策略优化调度技术方案主要基于对电力系统运行情况的分析和预测，以及对用户需求进行综合考虑，从而实现电力供需平衡和电网运行的高效性与稳定性。

公开号为CN113361818A的专利提供了一种水电机组中长期发电优化方法及系统，其公开了获取水电站历史数据；根据历史数据拟合坝上水位-流量系数、坝下水位-流量系数和综合效率系数并得到不含水库水量的水电机组出力模型；采用聚类分段ARIMA方法根据历史入库流量数据预测下一年度入库流量；将历史入库流量与历史发电流量的差值叠加到下一年度入库流量中得到预测发电流量；根据综合效率、净水头和预测发电流量代入不含水库水量的水电机组出力模型中计算得到水电机组中长期的预测出力，根据水电机组中长期预测出力对水电机组中长期发电进行优化。

该技术方案采用聚类分段ARIMA方法，根据历史入库流量数据预测下一年度入库流量，基于聚类分析预测结果精确度不高，从而导致基于聚类分析预测结果对水电机组中长期发电的优化能力有限。另外，该技术方案根据综合效率、净水头和预测发电流量三项计算水电机组中长期的预测出力，考虑的因素较少，导致优化控制算法不够全面，具有一定的局限性，无法更高效的进行用电策略优化调度。

发明内容

本发明实施例提供了一种用电策略优化调度方法及装置，以解决现有技术中无法更高效的进行用电策略优化调度的问题。

第一方面，本发明实施例提供了一种用电策略优化调度方法，包括：

获取水电站的发电数据；

根据所述发电数据以及Transformer模型，获取发电策略；

根据所述发电策略，确定调整动作；其中，所述调整动作用于调整所述水电站内设备的动作；

根据所述调整动作以及预设预测模型，获取预测发电量；

根据所述预测发电量，确定所述水电站的目标发电策略；

其中，所述根据所述发电数据以及Transformer模型，获取发电策略包括：

根据所述发电数据以及时序差分强化学习（Temporal DifferenceReinforcement Learning，T-DRL）算法，获取发电量的最大值、发电量的最小值、供水最大功率以及供水最小功率；

根据所述供水最大功率、所述供水最小功率、当前水位以及Transformer模型，获取供水策略；

根据所述发电量的最大值、所述发电量的最小值以及Transformer模型，获取所述发电策略。

第二方面，本发明实施例提供了一种用电策略优化调度装置，包括：

数据获取模块，用于获取水电站的发电数据；

调度模块，用于根据所述发电数据以及Transformer模型，获取发电策略；

调整模块，用于根据所述发电策略，确定调整动作；其中，所述调整动作用于调整所述水电站内设备的动作；

预测模块，用于根据所述调整动作以及预设预测模型，获取预测发电量；

确定模块，用于根据所述预测发电量，确定所述水电站的目标发电策略；

其中，所述调度模块，具体用于根据所述发电数据以及T-DRL算法，获取发电量的最大值、发电量的最小值、供水最大功率以及供水最小功率；

根据所述供水最大功率、所述供水最小功率、当前水位以及Transformer模型，获取供水策略；

根据所述发电量的最大值、所述发电量的最小值以及Transformer模型，获取所述发电策略。

本发明实施例提供一种用电策略优化调度方法及装置，通过获取水电站的发电数据，根据所述发电数据以及Transformer模型，获取发电策略，具体的，根据所述发电数据以及T-DRL算法，获取发电量的最大值、发电量的最小值、供水最大功率以及供水最小功率，根据所述供水最大功率、所述供水最小功率、当前水位以及Transformer模型，获取供水策略，根据所述发电量的最大值、所述发电量的最小值以及Transformer模型，获取所述发电策略，基于Transformer模型的深度强化学习的T-DRL算法对发电数据进行调度，能够有效地处理水电站优化调度中的多目标问题，适应传统的水电站优化调度问题中，多个目标函数之间的权衡。根据所述发电策略，调整所述水电站内设备的动作，根据所述调整动作以及预设预测模型，获取预测发电量，根据所述预测发电量，确定所述水电站的目标发电策略，使得更高效的进行用电策略优化调度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例提供的用电策略优化调度方法的流程示意图。

图2是本申请另一示例性实施例提供的用电策略优化调度方法的流程示意图。

图3是本申请一示例性实施例提供的用电策略优化调度装置的结构示意图。

图4是本申请另一示例性实施例提供的用电策略优化调度装置的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

除非另有说明，术语“多个”表示两个或两个以上。字符“/”表示前后对象是一种“或”的关系。例如，A/B表示：A或B。术语“和/或”是一种描述对象的关联关系，表示可以存在三种关系。例如，A和/或B，表示：A或B，或，A和B这三种关系。

本发明中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”（a）、“一个”（an）和“所述”（the）旨在同样包括复数形式。类似地，如在本发明中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本发明中时，术语“包括”（comprise）及其变型“包括”（comprises）和/或包括（comprising）等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

本发明中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

图1是本发明一实施例提供的用电策略优化调度方法的实现流程图，如图1所示，该方法包括如下步骤：

步骤110：获取水电站的发电数据。

在本申请实施例中，为了实现智能用电策略技术，选择在水电站进行用电量的数据采集。首先，需要安装合适的传感器和仪表设备来监测水电站的运行情况。这些设备包括但不限于流量计、压力计、温度计等。其次，为了实现数据的实时采集和传输，需要配置一套稳定可靠的通信系统。该系统可以通过有线或无线方式连接传感器和仪表设备，并将所采集到的数据传输到中央服务器。在数据传输到中央服务器后，将使用专门的软件进行数据处理和分析。

步骤120：根据发电数据以及Transformer模型，获取发电策略。

在本申请实施例中，通过基于Transformer深度强化学习的多目标用电量优化调度框架对预处理之后的发电数据进行调度，以得到调度之后的发电数据。基于Transformer深度强化学习的多目标用电量优化调度框架是一种利用深度学习和强化学习相结合的方法，用于解决水电站优化调度问题。该框架通过将变压器网络应用于深度强化学习中，能够有效地处理水电站优化调度中的多目标问题。在传统的水电站优化调度问题中，通常存在多个目标函数，如发电量最大化、效益最大化和环境影响最小化等。而传统方法往往只能针对单个目标进行优化，无法同时考虑到多个目标之间的权衡。因此，基于Transformer深度强化学习的多目标用电量优化调度框架能够更好地解决这一问题。

首先，该框架使用Transformer模型作为其核心组件。Transformer模型是一种基于自注意力机制的序列到序列模型，在自然语言处理领域取得了巨大成功。通过将Transformer模型应用于多目标场合优化调度问题中，可以更好地捕捉时间序列数据之间的关系，并提取有价值的特征信息。其次，在深度强化学习方面，该框架采用了Q-learning算法作为其训练算法。Q-learning是一种基于值函数的强化学习方法，通过学习一个价值函数来指导智能体在环境中做出决策。在多目标场合优化调度问题中，该框架将多个目标函数的权重作为输入信息，并利用Q-learning算法来训练智能体，使其能够根据当前状态和目标函数权重选择最优的行动。此外，该框架还引入了经验回放机制和探索策略，以提高训练效果。经验回放机制可以缓解数据相关性问题，并增加样本的利用率。探索策略则可以保证智能体在环境中进行有效的探索，以找到更好的优化策略。最后，在训练过程中，该框架使用混合目标函数作为奖励信号，以引导智能体学习多目标优化调度策略。混合目标函数可以根据实际需求进行灵活设置，同时考虑到发电量、效益和环境影响等多个因素。

步骤130：根据发电策略，确定调整动作，其中，调整动作用于调整水电站内设备的动作。

在本申请实施例中，通过基于深度强化学习的多智能体通信与系统决策方法中的基于权重调度和注意力机制的多智能体通信模块从调度之后的发电数据中提取得到目标发电数据。基于深度强化学习的多智能体通信与系统决策方法中的基于权重调度和注意力机制的多智能体通信模块是一种用于解决多智能体协作问题的方法。该模块通过引入权重调度和注意力机制，实现了智能体之间的信息交流和决策协同。在传统的多智能体系统中，各个智能体之间需要相互通信并共同决策以达到系统整体优化的目标。然而，由于每个智能体可能拥有不同的观测信息和局部目标，如何进行有效的通信和决策协同成为一个挑战。因此，基于权重调度和注意力机制的多智能体通信模块被提出来解决这一问题。

首先，该模块通过引入权重调度机制，对参与通信的智能体进行优先级排序。每个智能体根据其局部目标、观测信息和历史经验等因素，计算出一个权重值。这个权重值可以反映该智能体对整个系统目标的贡献程度或者说决策权重。通过排序后，可以确定哪些智能体更加重要，并且有更高的优先级参与通信和决策过程。其次，该模块使用注意力机制来实现智能体之间的信息交流。在通信阶段，智能体根据自身的权重以及其他智能体的权重计算出一个注意力分布。这个注意力分布可以指示每个智能体对其他智能体的关注程度或者说信息传递的重要性。通过这种方式，每个智能体可以选择性地接收和发送信息，将有限的通信资源集中在最有价值的智能体之间。最后，基于权重调度和注意力机制的多智能体通信模块还可以与深度强化学习相结合，实现系统整体决策。在决策阶段，每个智能体可以利用自身的观测信息、局部目标和其他智能体传递过来的信息，进行决策并执行动作。通过不断地与其他智能体进行通信和协同，每个智能体都可以获得更全面、准确的信息，并做出更优化的决策。

步骤140：根据调整动作以及预设预测模型，获取预测发电量。

在本申请实施例中，通过基于循环趋势预测神经网络的预测嵌入式调度模型（rTPNN-FES）获取预测发电量。rTPNN-FES是一种用于水电站调度问题的预测模型。该模型利用循环趋势预测神经网络（rTPNN）来对水电站发电量进行预测，并将其嵌入到调度决策中。在传统的水电站调度问题中，准确地预测未来的发电量是十分重要的。然而，由于天气和河流等自然因素的不确定性，传统方法往往难以获得准确的发电量预测结果。因此，rTPNN-FES模型借助循环趋势预测神经网络解决这一问题。rTPNN-FES模型使用循环趋势预测神经网络来学习历史数据之间的时间序列关系，并进行未来发电量的预测。循环趋势预测神经网络是一种递归神经网络，具有记忆能力，可以有效地捕捉时间序列数据中的周期性和趋势信息。通过训练循环趋势预测神经网络并输入当前时刻的观测数据，可以得到未来一段时间内的发电量预测结果。

步骤150：根据预测发电量，确定水电站的目标发电策略。

在本申请实施例中，在调度决策中，rTPNN-FES模型将发电量预测结果嵌入到调度模型中。传统的水电站调度模型通常使用静态的优化算法来确定最优的调度策略，但这些方法往往无法考虑到未来发电量的影响。通过将rTPNN的预测结果输入到调度模型中，可以实现对未来发电量的动态考虑。这样一来，在制定调度策略时，可以根据未来发电量预测结果进行灵活调整，以最大程度地提高水电站的效益。最后，rTPNN-FES模型还可以结合强化学习方法进行进一步优化。通过引入强化学习算法，可以使系统能够根据当前状态和未来发电量预测结果选择最优的调度行为。在训练过程中，可以使用增强奖励信号来指导模型不断学习和优化。通过不断地与环境交互并获得反馈信息，rTPNN-FES模型可以逐步改善其决策能力，并找到更好的调度策略。

本申请提供的用电策略优化调度方法，该方法包括：获取水电站的发电数据，根据发电数据以及Transformer模型，获取发电策略，根据发电策略，确定调整动作，其中，调整动作用于调整水电站内设备的动作，根据调整动作以及预设预测模型，获取预测发电量，根据预测发电量，确定水电站的目标发电策略。通过将发电数据输入到Transformer模型中，从而得到发电策略，根据发电策略确定调整动作，并根据调整动作预测得到预测发电量，根据预测发电量确定最佳调度策略，从而对水电站可以实时调度，以解决了现有技术中无法更高效的进行用电策略优化调度的问题。

在一实施例中，步骤120可具体实施为：根据发电数据以及T-DRL算法，获取发电量的最大值、发电量的最小值、供水最大功率以及供水最小功率；根据供水最大功率、供水最小功率、当前水位以及Transformer模型，获取供水策略；根据发电量的最大值、发电量的最小值以及Transformer模型，获取发电策略。

在本申请实施例中，将预处理过的用电量数据输入到基于Transformer深度强化学习的多目标水电站优化调度模型框架之中，对用电量数据进行初步的协调优化调度，为后续与嵌入式调度模型协同工作做准备。

与此同时，多目标多水电水库调度优化（MMROO）会出现各种问题，鉴于MMROO问题的复杂性，现有的复杂大型场合的运营方法似乎无法有效地解决用电量优化调度的各种问题。因此，在本节中，引入了一种基于Transformer的深度强化学习方法（即T-DRL）来解决所提出的MMROO问题。首先概述T-DRL的一般框架，然后详细解释用于解决MMROO问题的分解策略。

时序Transformer模型是一种基于Transformer架构的深度学习模型，专门用于处理时间序列数据。它结合了Transformer的自注意力机制和多头注意力机制，能够捕捉时间序列中的长期依赖关系和局部关联性。时序Transformer模型的核心思想是将时间序列数据视为一个序列，在每个时间步上进行编码和解码操作。与传统的循环神经网络（Recurrent Netural Network，Rnn）相比，时序Transformer模型具有以下几个显著特点：首先，时序Transformer模型不依赖于顺序处理输入数据，而是同时处理所有时间步。这意味着可以通过并行计算来加速模型训练和推理过程。

其次，时序Transformer模型引入了自注意力机制（self-attention），它能够在编码器层和解码器层之间建立全局的依赖关系。自注意力机制可以在编码器层通过对当前位置与其他所有位置之间的关系进行建模，从而获取全局上下文信息。此外，时序Transformer模型还采用了多头注意力机制（multi-head attention）。通过多个独立的注意力头，模型可以同时学习不同位置和不同特征之间的关联性。这样可以提高模型对复杂时间序列中的各种关系进行建模的能力。另外，时序Transformer模型在编码器和解码器之间引入了残差连接和层归一化操作。这些操作有助于缓解梯度消失问题，并提高模型的训练稳定性和收敛性。

在MMROO问题中，需要考虑某些大型复杂场合相关的广泛信息，例如最大和最小发电量和供水量。因此，需要专门的信息提取技术来有效处理这些高维数据。显然，浅层或简单的神经网络无法处理MMROO所需的详细信息。然而，Transformer架构采用了注意力机制，在自然语言处理（Natural Language Processing，NLP）领域的序列建模和机器翻译等任务中表现出色。此外，最近的研究探索了将Transformer架构与DRL方法相结合来解决优化问题，证明其性能优于传统方法。

所采用的方法分为三个主要部分：编码器过程、深度强化学习过程和解码器过程。在每个训练迭代中，新生成的时期实例被输入到Transformer架构中。编码器过程的主要目标是通过多个场合为发电和为另一些场合提供水源，生成嵌入。水库嵌入过程考虑了每月的最大和最小发电量以及平均流量信息。相反，嵌入过程主要涉及每月的最大和最小供水量。在此基础上，采用深度强化学习过程和解码器过程来生成决策变量序列。在这个阶段，需要为代理、动作、环境和奖励提供了详细定义。多头注意力层用于在解码器过程中生成各种场合的运营决策。最终，从奖励中获得的梯度被反向传播以优化神经网络的参数。这些参数以端到端的方式进行联合训练。

通过单目标T-DRL算法获得目标函数的最大值和最小值的步骤如下：（1）确定状态空间和动作空间：首先，定义问题的状态空间和动作空间。（2）初始化Q函数：为了估计每个状态-动作对的价值，需要初始化一个Q函数。Q函数可以是一个表格、神经网络或其他函数近似方法。（3）选择动作和探索策略：在每个时间步，根据当前状态和Q函数，选择一个动作。（4）执行动作并观察奖励和下一个状态：根据选择的动作，在环境中执行该动作，并观察获得的奖励以及进入的下一个状态。（5）更新Q函数：使用TD误差（Temporal DifferenceError），更新Q函数的估计值。（6）循环执行步骤（3）至步骤（5），直到达到停止条件。停止条件可以是达到最大迭代次数、Q函数收敛或满足一定的准则。（6）获得目标函数的最大值和最小值：在训练过程中，Q函数的估计逐渐收敛。通过对Q函数进行查询，可以获得每个状态下各个动作的值。从这些值中找到目标函数的最大值和最小值。

对于发电决策生成，需要在整个过程中考虑的信息包括最大和最小功率供应以及高程，这是两种不同类型的信息。传统的编码方法通常直接将它们输入神经网络，但这种方法可能会在学习阶段损害稳定性。因此，需要使用一种两阶段学习策略，以更好地学习不同类型的信息。本发明构思了一种发电信息的嵌入框架。其中的部分有两阶段嵌入过程（称为Two-stage T-DRL），其中两个嵌入层负责处理一般水库信息（

对于水库i的初始嵌入Embedding 1，对应于一般水库信息嵌入

其中，

在一实施例中，步骤120中，供水策略的计算公式为：

图2是本申请另一示例性实施例提供的用电策略优化调度方法的流程示意图。如图2所示，步骤110之后，还包括：

步骤160：去除发电数据中的异常值、缺失值和/或错误值，以得到去除之后的发电数据。

在本申请实施例中，需要将对采集到的数据进行清洗并排除掉潜在的异常值、缺失值或错误值。（1）异常值检测：通过使用均值、标准差等，识别数据中的异常值。一种常见的方法是使用离群值检测算法，比如Z分数或箱线图方法。根据设定的阈值，超出该阈值的数值被认为是异常值。（2）缺失值处理：检测数据中是否存在缺失值，并决定如何处理这些缺失值。可以使用一些规则来处理缺失值，例如删除包含缺失值的行或列、用均值或中位数填充缺失值、使用插值方法进行估计等。（3）错误值识别：识别可能存在的错误数据，如超出合理范围、格式错误等。可以结合领域知识和规则来判断数据是否符合预期模式或范围。如果发现错误数据，需要进行纠正或排除。（4）数据一致性验证：确保不同数据源之间的数据是一致的。如果有多个数据源提供相同类型的信息，可以使用规则进行交叉验证，比较不同源之间的数据是否一致。我们可以检测到不符合预期模式或范围的数据，并将其标记为无效或缺失。这样可以确保后续分析所使用的数据是准确、完整和一致的。

步骤170：采用线性插值算法对去除之后的发电数据进行校正，以得到校正之后的发电数据。

在本申请实施例中，为了纠正由于传感器误差、仪表偏差或其他因素引起的测量误差，因此需要应用校正模型或算法来修复数据，并使其更加准确和可靠。校正过程涉及到线性插值、回归分析、滤波等技术手段，其中，线性插值是它通过已知数据点之间的直线来估算缺失或异常数据点的数值。线性插值适用于数据变化较为平缓的情况下，将缺失或异常数据点与相邻已知数据点进行线性关系的近似。回归分析是一种统计学方法，用于建立变量之间的函数关系。在数据校正中，回归分析可以通过拟合一个数学模型来描述变量之间的关系，并利用该模型对异常值进行修正。另外，回归分析方法还可以包括最小二乘法、岭回归等。滤波是一种信号处理技术，在数据校正中被用于去除噪声。滤波器可以根据信号频率特征选择性地减弱或消除不需要的频率成分，从而使得信号更接近实际情况。

步骤180：对校正之后的发电数据进行标准化处理，以得到预处理之后的发电数据。

在本申请实施例中，使用Z-score标准化法对数据进行标准化处理。这意味着可以将数据转换为具有一致尺度和分布的形式，以便于后续的分析和比较。这样做可以消除由于不同测量单元或取值范围造成的数据偏差，使其更易于进行综合分析和建模。Z-score标准化法对数据进行标准化处理的过程包括：

步骤S1，计算每个样本数据点的平均值（mean）和标准差（standard deviation）。平均值表示整体数据的中心位置，标准差表示数据的离散程度。

步骤S2，对每个样本数据点，计算其与平均值之间的偏差，即将样本数据点减去平均值。

步骤S3，将步骤S2中得到的偏差除以标准差，得到Z-score值。Z-score值表示了一个数据点相对于整体数据分布的位置，可以衡量该数据点在整体中的偏离程度。

步骤S4，根据Z-score值判断数据点是否为异常值。如果Z-score大于某个阈值（例如阈值为3），则可认为该数据点是一个异常值。对于需要进行标准化处理的数据集，对每个样本数据点都执行步骤S2和步骤S3，即将每个样本数据点转化为其对应的Z-score值。标准化后的数据具有以下特征：平均值为0，标准差为1。这意味着所有样本数据点都围绕着0附近分布，且数据的离散程度相对一致。

此外，在进行预处理过程中，还需要考虑数据插补、异常检测和去噪等操作。数据插补可以填充缺失的数值，从而保持数据连续性，异常检测可以帮助识别和纠正潜在的离群值或异常情况，去噪操作可以减少由于传感器信号干扰或其他因素引起的噪声。

在一实施例中，步骤130可具体实施为：对发电策略以及供水策略分别进行编码，以得到编码之后的发电策略以及编码之后的供水策略；对编码之后的发电策略以及编码之后的供水策略进行压缩，以得到压缩信息；根据压缩信息以及权重生成器，生成权重集合；根据权重集合以及权重调度器，筛选得到调度权重集合；其中，每个调度权重集合中的每个权重包括调整水电站内设备的关键特征；根据调度权重集合以及动作选择器，获取调整动作。

通过基于Transformer深度强化学习的多目标用电量优化调度框架的初步优化调度的用电量数据通过基于深度强化学习的多智能体通信与系统决策方法，目的是加强多个智能体框架之间的协同与合作，在独立智能体之间引入了通信模块，通过智能体框架之间的信息共享和循环，辅助智能体框架间的协同决策。

通信模块分为两个子模块，其中一个由权重生成器和权重调度器组成。其功能是提高通信的效率。权重生成器根据每个代理的输入信息生成相应代理的权重，并将其存储在权重调度器中，并对代理选择的通信对象进行归一化处理。另一个子模块由注意力模块组成，其功能是过滤通信信息并提取简洁而重要的通信内容。在多智能体系统环境中，由于环境的部分可观测性，单个智能体在执行动作时只能获得部分观测信息。因此，引入智能体之间的通信可以通过注意机制同时共享信息和提取关键信息，以协助目标选择、优化动作选择并提高多智能体之间的协作决策水平。

基于多智能体通信和全局信息优化的近端策略优化算法的总体框架仍然采用类似多智能体近端策略优化算法（Multi-Agent Proximal Policy Optimization，MAPPO）的actor-critic网络框架，由分布式Actor网络、集中式Critic网络和样本池组成。

分布式Actor网络代表每个智能体，并负责与环境进行交互。Actor网络的输入是智能体的局部观察信息，输出是智能体的选择动作。Actor网络由权重生成器、权重调度器、消息编码器、消息池、注意力模块和通信动作选择器组成。

更具体地说，与MAPPO算法相比，Actor网络的改进在于引入了多个智能体之间的通信。通过智能体之间的通信，可以提高智能体之间的信息交流。一方面，可以减少多智能体环境中的非静态性；另一方面，可以利用更丰富的信息来辅助Actor网络。其中，单个Actor网络处理对应单个智能体的执行，并区分智能体的决策。通信部分分为两个子模块，一个是基于权重调度的通信调度模块，另一个是基于注意机制的通信消息处理模块。通信调度模块由消息编码器、消息池、权重生成器和权重调度器组成，负责对通信消息进行压缩编码以及生成和分配相应的调度权重。通信消息处理模块由注意力模块组成，主要负责将智能体的局部观察信息与通信消息一起处理，并将特征信息输出给后续的动作选择器。

集中式Critic网络的目标是优化动作选择和权重，并辅助更新Actor网络的动作选择。其输入是从样本池中获取的样本（包括智能体局部观察、动作选择和奖励的联合集），以及全局信息，输出为Value值函数。这里的集中式Critic网络并不意味着只有一个Critic网络，而是Critic网络的输入包含了全局信息，属于CTDE框架下一种形式的集中式训练。与MAPPO算法不同的是，在处理全局信息时，本文引入了注意力单元进行处理。随后，经过深度和浅层特征处理的全局信息将被输入到Critic网络中计算值函数，并辅助更新Actor网络。

整体训练过程是通过与Actor网络和环境的交互来获取局部观察信息，局部观察信息o经过消息编码器进行压缩编码，得到通信消息m，并将其写入消息池。同时，局部观察信息o也由权重生成器生成权重w，然后输入给权重调度器。当两个Actor网络进行通信时，根据权重调度器选择通信对象。这样，可以读取其他智能体的消息池中的通信信息m，并将局部观察信息o和通信信息m输入到注意力模块中。由注意力模块筛选出的信息是当前智能体在整合通信信息后得到的特征信息c。特征信息c被输入到动作选择器中，输出智能体的动作信息a。然后Actor网络通过输出动作与环境进行交互，并获得相应的奖励。经过多个周期后，收集到的观察信息o、动作信息a和奖励r组成样本，并输入到样本池中，然后加入全局信息s。经过注意力单元和Critic特征处理层后，将它们输入到Critic网络中，并计算输出值函数。

基于权重调度和注意机制的多智能体通信模块，分为两个部分。第一个是基于权重调度的通信调度模块，第二个是基于注意机制的消息处理模块。例如，当每个智能体需要相互通信时，在有限带宽环境中，两个智能体之间的通信会占用大量的通信带宽，这在很多情况下都显得非常冗余。而且，过多冗余信息容易引入噪声信息，从而间接影响智能体后续的决策。因此，引入了基于权重调度的通信调度模块来解决这个问题。

同时，对通信信息的后续处理并不简单地与智能体自身的局部观察相关联。在没有通信的情况下，每个智能体的决策基础是其自身的局部观察信息。在引入通信之后，引入的通信信息本质上是其他智能体经过压缩和编码处理后的局部观察信息的特征。这两部分的内容形式和所代表的信息意义在一定程度上重叠。为了避免引入的通信信息与自身观察信息之间的冗余，本文提出了一种基于注意机制的通信消息处理模块。

消息编码器：由两个MLP层组成。输入是智能体的局部观察信息oi，输出是经过编码和压缩后的通信信息mi，将被写入消息池进行存储；这个过程可以抽象为一个映射。

权重生成器：由三个MLP层组成。输入是智能体的局部观察信息oi，输出是权重wi。其本质是一个值，决定了在后续通信中选择该消息的概率；这个过程可以抽象为一个映射。

权重调度器：本质上是一个SoftMax层。输入是每个智能体的权重信息集合

；

其中，

本申请进行深层和浅层特征处理的原因是：因为整体的特征信息包含了智能体自身的信息、友好的和不友好的局部信息、移动信息和智能体ID信息，这些信息的重要性并不均匀。因此，本文提出了深层和浅层特征处理的方法，希望对不同部分的信息进行差异化处理。对于当前智能体来说，不友好的信息与目标选择密切相关，因此进行深度处理相对较为重要，而朋友和自身的信息则进行浅层处理。

深层和浅层特征处理的输入是先前经过注意机制单元处理的特征信息，首先将其分为两部分。其中一部分是不友好的信息，将被输入到三个全连接（fully connected，FC）层进行进一步处理。另一部分是智能体自身的信息、友好的和不友好的局部信息、与移动相关的信息以及与智能体ID相关的信息，只输入到一个FC层进行浅层处理。最后，将这两部分特征拼接在一起，得到最终的特征信息，并将其输入到评论家网络中。区分友好的和不友好的信息可以通过以下的方式：基于监督学习：使用已有数据集进行监督学习，通过人工标注数据来区分友好和不友好的信息。然后可以训练分类模型或使用其他机器学习方法来自动判断特征的友好性。

在一实施例中，步骤130可具体实施为：对权重集合进行归一化处理，以得归一化处理之后的权重集合；按照归一化处理之后的权重集合中权重的归一化大小进行排序；选取归一化处理之后的权重集合中序号小于预设序号阈值的权重，以得到调度权重集合。

在一实施例中，预设预测模型的构建方法可具体实施为：获取多个历史发电数据；根据多个历史发电数据以及循环趋势预测神经网络模型，获取多个预测发电量；根据多个发电数据以及多个预测发电量，构建预设预测模型。

在本申请实施例中，将用电量数据通过基于深度强化学习的多智能体通信与系统决策方法后，在输入到rTPNN-FES之中，进一步提升智能用电量数据的优化调度的精准度。

rTPNN-FES是一种用于嵌入式系统调度预测的模型。该模型利用了RNN来捕捉任务之间的时间关系和趋势，并通过对历史数据进行分析和学习，以预测未来任务的执行时间。rTPNN-FES模型首先通过一个编码器-解码器结构将任务序列转化为连续的向量表示。编码器部分将任务序列输入到循环神经网络中，逐个任务地计算其特征表示，并将这些特征表示整合为一个上下文向量。解码器部分则利用该上下文向量来生成连续的向量表示，即嵌入式特征。接下来，rTPNN-FES模型通过引入时间自回归机制，在解码器中添加时间自回归层。这使得模型能够通过学习任务之间的时间关系来预测未来任务的执行时间。具体而言，时间自回归层会考虑当前任务和前面几个任务的特征表示，以及它们之间的时间差异，从而生成预测结果。为了训练rTPNN-FES模型，需要使用历史数据集来进行无监督学习。在训练过程中，模型会根据当前任务和前面几个任务的特征表示以及它们之间的时间差异，预测下一个任务的执行时间。然后，模型会将这个预测结果与实际执行时间进行比较，并通过最小化预测误差来优化模型参数。

在rTPNN-FES的架构设计中，旨在同时自动生成考虑窗口的调度并预测该窗口内的发电量。为此，rTPNN-FES由“预测层”和“调度层”两个主要层组成，并使用“2阶段训练过程”进行训练。

在这个模型中将F定义为特征集合，F = {1, . . . , F}。此外，

rTPNN-FES的输入为

预测层是rTPNN-FES架构中负责预测发电量的部分。对于调度窗口中的每个时隙s，rTPNN-FES根据过去两个周期的特征值集合

在rTPNN模型之间分享权重（即使用复制的rTPNN）具有以下优势：预测层中的参数数量减少了S倍，从而降低了时间和空间复杂度。通过避免对rTPNN进行S次重复训练，训练时间也减少了S倍。因为单个rTPNN是基于收集到的S个不同时隙的数据进行训练的，所以rTPNN现在可以捕捉到具有更高泛化能力的周期性趋势和关系。

rTPNN的结构用于所使用的rTPNN-FES神经网络架构。在rTPNN的结构中，对于任意的s，rTPNN的输入是

在rTPNN的架构中，有一个DP单元用于表示能量发电的过去值，记为

在解释DP单元时，需要专注于一个特定的实例

的趋势预测器计算从/>

的水平预测器子单元预测特征值的水平，这是特征f值的平滑版本，只使用

请注意，Trend Predictor和Level Predictor子单元的参数

调度层由N个并行的softmax层组成，每个层负责为单个设备的启动时间生成调度。设备一共有n的单个softmax 层，由于该层级联在预测层之后，因此根据预测层

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以下为本发明的装置实施例，对于其中未详尽描述的细节，可以参考上述对应的方法实施例。

图3是本发明一实施例提供的用电策略优化调度装置的结构示意图，如图3所示，为了便于说明，仅示出了与本发明实施例相关的部分，如图3所示，该用电策略优化调度装置20包括：数据获取模块201、调度模块202、调整模块203、预测模块204和确定模块205。

其中，数据获取模块201，用于获取水电站的发电数据；调度模块202，用于根据发电数据以及Transformer模型，获取发电策略；调整模块203，用于根据发电策略，确定调整动作；其中，调整动作用于调整水电站内设备的动作；预测模块204，用于根据调整动作以及预设预测模型，获取预测发电量；确定模块205，用于根据预测发电量，确定水电站的目标发电策略。

其中，调度模块202可具体配置为：根据发电数据以及T-DRL算法，获取发电量的最大值、发电量的最小值、供水最大功率以及供水最小功率；根据供水最大功率、供水最小功率、当前水位以及Transformer模型，获取供水策略；根据发电量的最大值、发电量的最小值以及Transformer模型，获取发电策略。

图4是本申请另一示例性实施例提供的用电策略优化调度装置的结构示意图。如图4所示，在数据获取模块201之后，用电策略优化调度装置20可以包括：去除模块206，用于去除发电数据中的异常值、缺失值和/或错误值，以得到去除之后的发电数据；校正模块207，用于采用线性插值算法对去除之后的发电数据进行校正，以得到校正之后的发电数据；标准化处理模块208，用于对校正之后的发电数据进行标准化处理，以得到预处理之后的发电数据。

在一实施例中，调度模块202可具体配置为：供水策略的计算公式为：

在一实施例中，调整模块203可具体配置为：对发电策略以及供水策略分别进行编码，以得到编码之后的发电策略以及编码之后的供水策略；对编码之后的发电策略以及编码之后的供水策略进行压缩，以得到压缩信息；根据压缩信息以及权重生成器，生成权重集合；根据权重集合以及权重调度器，筛选得到调度权重集合；其中，每个调度权重集合中的每个权重包括调整水电站内设备的关键特征；根据调度权重集合以及动作选择器，获取调整动作。

在一实施例中，调整模块203可具体配置为：对权重集合进行归一化处理，以得归一化处理之后的权重集合；按照归一化处理之后的权重集合中权重的归一化大小进行排序；选取归一化处理之后的权重集合中序号小于预设序号阈值的权重，以得到调度权重集合。

在一实施例中，预设预测模型的构建装置可具体配置为：获取多个历史发电数据；根据多个历史发电数据以及循环趋势预测神经网络模型，获取多个预测发电量；根据多个历史发电数据以及多个预测发电量，构建预设预测模型。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：邯郸欣和电力建设有限公司;国网河北省电力有限公司邯郸供电分公司;