导航：首页> 燃烧发动机；热气或燃烧生成物的发动机装置>一种波浪发电装置的控制方法、装置和电子设备

一种波浪发电装置的控制方法、装置和电子设备

文献发布时间：2024-04-18 19:58:26

技术领域

本申请涉及新能源技术领域，具体而言，涉及一种波浪发电装置的控制方法、装置和电子设备。

背景技术

为了实现波浪发电功率的最大化，需要设计控制方法对直驱式电机进行有效控制。目前已有的控制方法包括：闭锁控制、阻尼控制、双自由度控制以及模型预测控制(Model Predictive Control，MPC)等，这些控制方法都需要获取实时的波浪信息，例如波浪高度或者波浪周期，而在实际工程中实时的波浪信息难以获取，并且对波浪信息的测量准确度较低，因此若运用现有的控制方法对直驱式电机进行控制，很难实现波浪发电功率的最大化。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种波浪发电装置的控制方法、装置和电子设备。

第一方面，本发明实施例提供了一种波浪发电装置的控制方法，其特征在于，包括：

确定初始电机数据和预设推力变化量，其中所述初始电机数据包括预设推力；

通过深度Q网络对所述初始电机数据和所述预设推力变化量进行优化处理，得到最优推力变化量；

根据所述预设推力和所述最优推力变化量确定所述功率控制器的输出推力。

第二方面，本发明实施例还提供了一种波浪发电装置的控制装置，其特征在于，包括：

初始数据确定模块，用于确定初始电机数据和预设推力变化量，其中所述初始电机数据包括预设推力；

优化处理模块，用于通过深度Q网络对所述初始电机数据和所述预设推力变化量进行优化处理，得到最优推力变化量；

输出推力确定模块，用于根据所述预设推力和所述最优推力变化量确定所述功率控制器的输出推力。

第三方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述第一方面提到的波浪发电装置的控制方法。

第四方面，本发明实施例还提供了一种电子设备，其特征在于，所述电子设备包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行上述第一方面提到的波浪发电装置的控制方法。

本发明实施例上述第一方面提供的方案中，确定初始电机数据和预设推力变化量；通过深度Q网络对所述初始电机数据和所述预设推力变化量进行优化处理，得到最优推力变化量；根据所述预设推力和所述最优推力变化量确定所述功率控制器的输出推力；与相关技术中需要获取实时的波浪信息才能实现对直驱式电机进行控制的方式相比，本发明实施例在对直驱式电机进行控制时，通过采集波浪发电装置中浮子的初始电机数据，并通过深度Q网络对初始电机数据和预设推力变化量进行优化处理，得到可以使折扣回报最大的最优推力变化量，使得在预设推力的基础上加上最优推力变化量得到的输出推力，可以使波浪发电装置的发电功率最大化；而且，本发明实施例不需要采集实时的波浪信息，降低了使波浪发电装置的发电功率最大化的难度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例1所提供的一种波浪发电装置的控制方法的流程图；

图2示出了本发明实施例2所提供的一种波浪发电装置的控制装置的结构示意图；

图3示出了本发明实施例3所提供的一种电子设备的结构示意图。

具体实施方式

波浪发电装置的控制逻辑是：功率控制器在得到输出推力后，将该输出推力转换成推力指令输出到电机控制器，电机控制器根据该推力指令生成电机执行指令，并将该电机执行指令输出到波浪发电装置，波浪发电装置根据该电机执行指令将波浪能转换为机械能。

本申请提供的一种波浪发电装置的控制方法可以实现通过调整输出推力来进行有效地控制波浪发电装置输出的波浪发电功率。

本申请提供的一种波浪发电装置的控制方法中使用了两种神经网络：深度Q网络和目标网络。另外，本申请也使用对决网络对这两种神经网络分别进行结构的改进，也就是说将深度Q网络划分为状态网络和动作网络，将目标网络划分为状态网络和动作网络。为了方便描述，在需要将深度Q网络、目标网络作为一个整体来考虑时，用功率控制神经网络来代表这个整体。根据实际需要，功率控制神经网络可以选择是否包括目标网络。

在本发明实施例中，在使用功率控制神经网络来得到输出推力的过程中，将功率控制神经网络接收到初始电机数据的时刻至得到输出推力的时刻之间的处理过程称为一个回合，将功率控制神经网络接收到初始电机数据的时刻称为回合开始时刻，将功率控制神经网络得到输出推力的时刻称为回合结束时刻。

实施例1

本发明所提供的一种波浪发电装置的控制方法的执行主体是功率控制器。

参见图1所示出的本实施例所提供的一种波浪发电装置的控制方法的流程图，本实施例所提供的一种波浪发电装置的控制方法，包括以下具体步骤：

步骤100：确定初始电机数据和预设推力变化量，其中所述初始电机数据包括预设推力。

在上述步骤100中，所述初始电机数据包括：一个回合的开始时刻浮子的速度、一个回合的开始时刻浮子的位置和预设推力。

所述预设推力指的是预先在功率控制器中设置的推力，该预设推力可以是任意一个值。

所述预设推力变化量指的是预先设置的推力变化量，包括三种情况：在预设推力的基础上增加的推力；在预设推力的基础上减小的推力；在预设推力的基础上增加推力的预设推力变化量以及在预设推力的基础上减小推力的预设推力变化量均不为0；在预设推力的基础上保持不变，则预设推力变化量就是0。

预设推力变化量可以具有一定的随机性，示例地，预设推力变化量可以通过∈-greedy策略来设置，如公式(1)所示：

其中，∈指的是0～1之间的数，例如0.8，A包括三类值：在预设推力的基础上增加的推力、在预设推力的基础上减小的推力以及在预设推力的基础上保持不变，也就是0。s指的是初始电机数据，a_指的是A中的一个值，ω指的是回合开始时刻深度Q网络的参数。

示例地，通过∈-greedy策略得到预设推力变化量的过程是：假设∈是0.8，随机生成一个0～1之间的随机数，若该随机数小于0.8，则在A中随机抽取一个值作为预设推力变化量；若该随机数大于或等于0.8，将

其中，argmaxQ指的是深度Q网络中的最大回报函数，最大回报函数可以通过深度Q网络对输入的不同的推力变化量，计算出对应的从指定时刻至回合结束时刻的折扣回报，将折扣回报中的最大值对应的推力变化量作为输出结果。也就是说，

浮子安装在波浪发电装置中，浮子上安装有与功率控制器连接的速度传感器和位置传感器。通过速度传感器可以采集浮子的速度，通过位置传感器可以采集浮子的位置。波浪状态会影响到浮子的位置和速度，因此本发明实施例可以通过实时采集到的浮子的速度和位置来代替实时的波浪信息。

速度传感器实时采集的浮子速度以及位置传感器实时采集的浮子位置被发送到功率控制器中。

步骤102：通过深度Q网络对所述初始电机数据和所述预设推力变化量进行优化处理，得到最优推力变化量。

在上述步骤102中，所述优化处理指的是深度Q网络(Deep Q-Network)根据输入的初始电机数据和预设推力变化量，能够输出多个推力变化量对应的从回合开始时刻到回合结束时刻的折扣回报。这里的折扣回报指的是在一段时间内由推力转换的所有功率的加权和。

所述最优推力变化量指的是深度Q网络得到的折扣回报中的最大值对应的推力变化量。

可选地，所述深度Q网络包括：动作价值函数和最大回报函数；在所述通过深度Q网络对所述初始电机数据和所述预设推力变化量进行优化处理包括：第一阶段的处理和第二阶段的处理的情况下，步骤102可以包括步骤(1)至步骤(2)：

步骤(1)：通过对所述初始电机数据和所述预设推力变化量进行所述第一阶段的处理，得到执行动作后的第一阶段电机数据；

步骤(2)：通过所述动作价值函数和所述最大回报函数对所述第一阶段电机数据和所述预设推力变化量进行所述第二阶段的处理，得到所述最优推力变化量。

在上述步骤(1)中，所述动作价值函数可以通过深度Q网络中的动作网络对输入的不同的推力变化量，计算出与不同的推力变化量分别对应的从指定时刻至回合结束时刻内的回报，将回报中的最大值对应的推力变化量作为输出结果。这里的回报指的是从指定时刻至回合结束时刻由推力转换的所有功率的和。

所述第一阶段的处理包括：根据预设推力变化量来执行动作。

所述执行动作指的是在确定推力变化量后，将根据该推力变化量确定输出推力，并按照波浪发电装置的控制逻辑作用于浮子，使得浮子的状态发生改变。

所述第一阶段电机数据包括：第一阶段结束时刻浮子的速度、第一阶段结束时刻浮子的位置以及第一阶段结束时刻的输出推力。

所述第一阶段和所述第二阶段是一个回合中时间相邻的两个时间段，上述步骤102中提到的一个回合指的是第一阶段和第二阶段。

动作价值函数和最大回报函数的公式如下：

的是从第一阶段结束时刻至回合结束时刻内的回报中的最大值对应的推力变化量；

步骤104：通过所述深度Q网络根据所述预设推力和所述最优推力变化量确定所述波浪发电装置的输出推力。

在上述步骤104中，可以根据实际需要，将预设推力和最优推力变化量相加得到输出推力，或者将预设推力和最优推力变化量进行加权相加得到输出推力。

可选地，本实施例所提供的一种波浪发电装置的控制方法，还包括步骤(1)至步骤(5)：

步骤(1)：通过所述深度Q网络根据所述初始电机数据和所述预设推力变化量确定第一预测回报；

步骤(2)：根据所述第一阶段电机数据确定第一阶段奖励；

步骤(3)：通过目标网络根据所述第一阶段电机数据和所述最优推力变化量确定第二阶段预测回报；

步骤(4)：根据所述第一阶段奖励和所述第二阶段预测回报确定第二预测回报；

步骤(5)：通过所述第一预测回报与所述第二预测回报之间的差值优化所述深度Q网络和所述目标网络。

在上述步骤(1)中，所述第一预测回报指的是从回合开始时刻至回合结束时刻的折扣回报。

所述确定第一预测回报的过程可以通过公式(3)实现：

其中，

在上述步骤(2)中，所述第一阶段奖励指的是从回合开始时刻至第一阶段的结束时刻的执行动作产生的功率。

所述确定第一阶段奖励可以通过公式(4)来实现：

reward＝-f

其中，reward指的是第一阶段奖励，f

-f

在第一阶段奖励中引入越限惩罚项，当监测到波浪发电装置的位置超过设定值时，通过在第一阶段可以提取到的功率中减去越限惩罚项，可以调整功率控制器的输出推力，从而达到限幅功能。

在上述步骤(3)中，所述第二阶段预测回报指的是从第一阶段的结束时刻至回合结束时刻的折扣回报。

所述确定第二阶段预测回报可以通过公式(5)实现：

其中，

在上述步骤(4)中，所述确定第二预测回报可以通过公式(6)实现：

其中，

可选地，上述步骤(5)包括步骤(51)至步骤(52)：

步骤(51)：对所述深度Q网络进行反向传播，得到梯度，梯度指的是，Q函数在深度Q网络的参数点处的方向导数，即Q函数的值在该点沿着该方向变化率最大。

步骤(52)：根据所述第一预测回报与所述第二预测回报之间的差值以及所述梯度优化所述深度Q网络和所述目标网络。

在上述步骤(51)中，所述梯度包括深度Q网络中状态网络的梯度

在上述步骤(52)中，优化过程是通过优化网络的参数来实现的，具体可以通过公式(7)至公式(8)实现：

其中，

根据实际需要，当神经网络经过多个回合的训练后，可以将优化后的深度Q网络中的状态网络的参数赋值给目标网络中的状态网络的参数，将优化后的深度Q网络中的动作网络的参数赋值给目标网络中的动作网络的参数，从而实现对目标网络的优化。功率控制神经网络中的优化后的各网络的参数可以作为下一个回合的功率控制神经网络的各网络的参数，因此在对功率控制神经网络进多次优化后，功率控制神经网络可以更准确地得到能够使波浪发电装置的发电功率最大化的输出推力。

综上所述，本发明实施例提供的一种波浪发电装置的控制方法，确定初始电机数据和预设推力变化量；通过深度Q网络对所述初始电机数据和所述预设推力变化量进行优化处理，得到最优推力变化量；根据所述预设推力和所述最优推力变化量确定所述功率控制器的输出推力；与相关技术中需要获取实时的波浪信息才能实现对直驱式电机进行控制的方式相比，本发明实施例在对直驱式电机进行控制时，通过采集波浪发电装置中浮子的初始电机数据，并通过深度Q网络对初始电机数据和预设推力变化量进行优化处理，得到可以使折扣回报最大的最优推力变化量，使得在预设推力的基础上加上最优推力变化量得到的输出推力，可以使波浪发电装置的发电功率最大化；而且，本发明实施例不需要采集实时的波浪信息，降低了使波浪发电装置的发电功率最大化的难度。

实施例2

上文详细描述了本发明实施例1提供的一种波浪发电装置的控制方法，该方法也可以通过相应的装置实现，下面详细描述本发明实施例2提供的一种波浪发电装置的控制装置。

实施例2提供的一种波浪发电装置的控制装置，用于执行上述实施例1提出的一种波浪发电装置的控制方法。

参见图2示出了本发明实施例所提供的一种波浪发电装置的控制装置的结构示意图。如图2所示，该波浪发电装置的控制装置包括：

初始数据确定模块200，用于确定初始电机数据和预设推力变化量，其中所述初始电机数据包括预设推力；

优化处理模块202，用于通过深度Q网络对所述初始电机数据和所述预设推力变化量进行优化处理，得到最优推力变化量；

输出推力确定模块204，用于根据所述预设推力和所述最优推力变化量确定所述功率控制器的输出推力。

可选地，所述通过深度Q网络对所述初始电机数据和所述预设推力变化量进行优化处理包括：第一阶段的处理和第二阶段的处理；所述深度Q网络包括：动作价值函数和最大回报函数；

所述优化处理模块202，包括：

第一处理子模块，用于对所述初始电机数据和所述预设推力变化量进行所述第一阶段的处理，得到执行动作后的第一阶段电机数据；

第二处理子模块，用于通过所述动作价值函数和所述最大回报函数对所述第一阶段电机数据和所述预设推力变化量进行所述第二阶段的处理，得到所述最优推力变化量。

可选地，所述装置还包括网络优化模块，所述网络优化模块，包括：

预测回报确定子模块，用于通过所述深度Q网络根据所述初始电机数据和所述预设推力变化量确定第一预测回报；根据所述第一阶段电机数据确定第一阶段奖励；通过目标网络根据所述第一阶段电机数据和所述最优推力变化量确定第二阶段预测回报；根据所述第一阶段奖励和所述第二阶段预测回报确定第二预测回报；

网络优化子模块，用于通过所述第一预测回报与所述第二预测回报之间的差值优化所述深度Q网络和所述目标网络。

可选地，所述网络优化子模块，用于对所述深度Q网络进行反向传播，得到梯度；根据所述第一预测回报与所述第二预测回报之间的差值以及所述梯度优化所述深度Q网络和所述目标网络。

综上所述，本发明实施例提供的一种波浪发电装置的控制装置，确定初始电机数据和预设推力变化量；通过深度Q网络对所述初始电机数据和所述预设推力变化量进行优化处理，得到最优推力变化量；根据所述预设推力和所述最优推力变化量确定所述功率控制器的输出推力；与相关技术中需要获取实时的波浪信息才能实现对直驱式电机进行控制的方式相比，本发明实施例在对直驱式电机进行控制时，通过采集波浪发电装置中浮子的初始电机数据，并通过深度Q网络对初始电机数据和预设推力变化量进行优化处理，得到可以使折扣回报最大的最优推力变化量，使得在预设推力的基础上加上最优推力变化量得到的输出推力，可以使波浪发电装置的发电功率最大化；而且，本发明实施例不需要采集实时的波浪信息，降低了使波浪发电装置的发电功率最大化的难度。

实施例3

本实施例提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例1描述的基于入耳式降噪耳机的心音还原方法的步骤。具体实现可参见方法实施例1，在此不再赘述。

此外，参见图3所示的一种电子设备的结构示意图，本实施例还提出一种电子设备，上述电子设备包括总线51、处理器52、收发机53、总线接口54、存储器55和用户接口56。上述电子设备包括有存储器55。

本实施例中，上述电子设备还包括：存储在存储器55上并可在处理器52上运行的一个或者一个以上的程序，经配置以由上述处理器执行上述一个或者一个以上程序用于进行上述步骤100至步骤104。

收发机53，用于在处理器52的控制下接收和发送数据。

其中，总线架构(用总线51来代表)，总线51可以包括任意数量的互联的总线和桥，总线51将包括由处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本实施例不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发机53从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质，还可以提供用户接口56，例如小键盘、显示器、扬声器、麦克风、操纵杆。

处理器52负责管理总线51和通常的处理，如前述上述运行通用操作系统551。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。

可选的，处理器52可以是但不限于：中央处理器、单片机、微处理器或者可编程逻辑器件。

可以理解，本发明实施例中的存储器55可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器55存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集：操作系统551和应用程序552。

其中，操作系统551，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序552，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：清华大学;

上一篇：一种煤油/液态甲烷外并联式涡轮基旋转爆震发动机
下一篇：蚀刻设备和使用该蚀刻设备的蚀刻方法