导航：首页> 控制；调节>基于深度Q网络的直驱式波浪发电系统模型预测控制方法、系统与可读介质

基于深度Q网络的直驱式波浪发电系统模型预测控制方法、系统与可读介质

文献发布时间：2024-04-18 19:58:30

技术领域

本发明属于可再生能源发电的技术领域，特别涉及了波浪能发电技术，具体而言涉及一种基于深度Q网络的直驱式波浪发电系统模型预测控制方法、系统与可读介质。

背景技术

科学的开发和利用波浪能对缓解能源危机和环境污染问题，具有重要的意义。在众多类型的波浪发电装置中，直驱式波浪发电系统具有系统结构简单、效率高的优点，已经成为波浪能开发利用的研究热点。为了提高直驱式波浪发电系统的发电效率，必须采取有效的控制策略，以在满足发电系统状态量实际约束的前提下，实现波浪能最大功率捕获。

传统波浪发电系统控制策略包括实部控制和复共轭控制，其中实部控制捕获的功率较小，复共轭控制捕获的功率很大，但系统状态量易超出实际允许范围，影响系统的正常工作。模型预测控制能够实现多约束、多目标下的滚动优化控制，在波浪发电系统的功率控制领域也有一些研究和应用。此外，为避免模型预测控制算法寻优失败，往往在目标函数中引入正则项将其转化为凸二次规划模型。

发明内容

针对现有技术存在的缺陷与不足，本发明目的在于提供一种基于深度Q网络的直驱式波浪发电系统模型预测控制方法，使得直驱式波浪发电系统能够在满足物理约束的情况下，提取的功率达到最大；另外，利用深度Q网络获取目标函数中的正则系数最优取值，进一步优化控制性能，提高功率捕获效率。

根据本发明目的的第一方面，提出一种基于深度Q网络的直驱式波浪发电系统模型预测控制方法，包括以下步骤：

步骤S1：建立直驱式波浪发电系统的机械运动模型和直线永磁电机模型；

步骤S2：根据直驱式波浪发电系统的机械运动模型和直线永磁电机模型，建立基于模型预测控制的直驱式波浪发电系统的状态空间模型；

步骤S3：基于直驱式波浪发电系统的控制目标，建立功率优化目标函数，再根据功率优化目标函数对所述状态空间模型进行增广并转换到离散域，得到直驱式波浪发电系统的离散状态空间模型；

步骤S4：设置系统约束条件，对离散状态空间模型进行状态量的滚动优化，直至完成滚动预测控制，实现系统的在线优化求解；

步骤S5：利用深度Q网络学习正则系数最优取值与捕获功率之间的映射关系，确定出目标函数中正则项系数的取值。

本发明的进一步方案是，在步骤S1所建立的直驱式波浪发电系统的机械运动模型表达式为：

式中，M为浮子质量，m

z(t)为浮子的升沉位移，

本发明的更进一步方案是，采用状态空间模型近似替代机械运动模型表达式中的辐射力f

在步骤S1所建立的直驱式波浪发电系统的直线永磁电机模型表达式为：

式中，u

本发明的进一步方案是，在步骤S2建立的状态空间模型表达式为：

式中，v(t)为缩放后的波浪激励力；u

本发明的进一步方案是，在步骤S3建立的功率优化目标函数包含PTO力f

式中，

本发明的进一步方案是，在步骤S4中，约束条件包括线性约束和非线性约束，其中线性约束包括浮子的升沉位移z(t)、运动速度

非线性约束包括直线永磁电机的定子电压、定子电流和弱磁率τ，表达式如下：

式中，I

本发明的更进一步方案是，在步骤S5中，采用的深度Q网络，由当前时刻波浪主峰频率、波高及当前正则系数构成评估系统环境的状态空间，表达式如下：

S(t)＝[f

将正则系数的增量设置为动作值，以此进行调节，增量间隔取0.2，动作空间表达式如下：

A(t)＝[-Δr,0,+Δr]

考虑到深度Q网络的学习目标为算法在满足系统约束后有可行解的情况下最大化波浪捕获功率，定义奖励函数为：

根据本发明目的的第二方面，提出一种基于深度Q网络的直驱式波浪发电系统模型预测控制系统，包括：

一个或多个处理器，以及

用于存储可被操作的指令的存储器；

其中，所述指令在被所述一个或多个处理器执行时实现前述的基于深度Q网络的直驱式波浪发电系统模型预测控制方法的过程。

根据本发明目的的第三方面，提出一种存储软件的计算机可读介质，所述软件包括能通过一个或多个计算机执行的指令，所述指令通过这样的执行使得所述一个或多个计算机执行操作，所述操作包括前述基于深度Q网络的直驱式波浪发电系统模型预测控制的过程。

与现有技术相比，本发明具有以下有益效果：

本发明提出的基于深度Q网络的直驱式波浪发电系统模型预测控制方法，对于不同波浪激励力输入，策略能够基于深度Q网络自适应调节正则系数，提高算法灵活性，在满足系统约束的情况下，提高直驱式波浪发电系统的功率捕获性能。

附图说明

图1为基于深度Q网络的直驱式波浪发电系统模型预测控制框图。

图2为直驱式波浪发电系统受力图。

图3为深度Q网络算法原理框图。

具体实施方式

下面配合所附图式对发明的技术方案进行详细说明：

结合附图1所示的基于深度Q网络的直驱式波浪发电系统模型预测控制框图，在外环模型预测控制结构中，为获得较高的调节速度和控制精度，将直线电机的定子q轴电流参考值增量Δi

在本发明的实施例中，采用深度Q网络算法对目标函数中正则系数的最优取值进行调整，提高系统对于不同波浪输入的适应能力；经滚动优化输出的最优控制量通过零阶保持后得到q轴电流参考值i

作为示例，基于深度Q网络的直驱式波浪发电系统模型预测控制方法的过程包括：步骤S1：建立直驱式波浪发电系统的机械运动模型和直线永磁电机模型；步骤S2：根据直驱式波浪发电系统的机械运动模型和直线永磁电机模型，建立基于模型预测控制的直驱式波浪发电系统的状态空间模型；步骤S3：基于直驱式波浪发电系统的控制目标，建立功率优化目标函数，再根据功率优化目标函数对所述状态空间模型进行增广并转换到离散域，得到直驱式波浪发电系统的离散状态空间模型；步骤S4：设置系统约束条件，对离散状态空间模型进行状态量的滚动优化，直至完成滚动预测控制，实现系统的在线优化求解；步骤S5：利用深度Q网络学习正则系数最优取值与捕获功率之间的映射关系，确定出目标函数中正则项系数的取值。

下面我们结合附图所示，更加具体地阐述本发明的实施例的具体步骤和过程。

S1：建立直驱式波浪发电系统的机械运动模型和直线永磁电机模型

(一)建立直驱式波浪发电系统的机械运动模型

对于直驱式波浪发电系统的机械运动方程，根据直驱式波浪发电系统中浮子的受力情况(如图2所示)和牛顿第二定律，建立直驱式波浪发电系统的简化运动方程，表达式如下：

式中，M为浮子质量，m

其中，z(t)为浮子的升沉位移，

利用WAMIT软件计算得方程所涉及的水动力参数(包括浮子质量M、浮子附加质量m

为了提高控制过程的计算效率，本发明的实施例中，采用状态空间模型近似替代机械运动模型表达式中的辐射力f

先使用prony算法拟合k(t)曲线，得到其复指数加权和的形式，再经过拉氏变换得到辐射系数的S域表达式，然后采用平衡截断法对上式进行降阶，求得参数A

式中，x

(二)建立直驱式波浪发电系统的直线永磁电机模型

建立直线永磁电机在a-b-c坐标系下的定子端电压方程，表达式如下：

式中，u

将静止a-b-c坐标系转化为d-q旋转坐标系，获得dq轴电压平衡方程如下：

式中，ω为直线永磁电机的电角速度，ω＝2πv/λ，λ为电机的极距；i

根据直线永磁电机各参量之间的关系，推导得到q轴电流i

S2：建立基于模型预测控制的直驱式波浪发电系统状态空间模型

建立波浪发电系统装置运动方程等价模型，具体表达如下：

式中，

作为系统的控制量；

获得控制量u

以浮子的升沉位移z(t)、运动速度

其中，系数矩阵为：

S3：建立模型预测控制的目标函数，搭建离散状态空间模型

基于直驱式波浪发电系统控制目标，建立包含PTO力f

基于目标函数，结合考虑弱磁控制的直驱式波浪发电系统的工作原理，将控制量u

式中变量及系数矩阵为：

式中，

S4：状态量的滚动优化

迭代k时刻起始的未来N步时域内的输出序列

式中，

x(k)表示k时刻处的系统状态变量，

仅取第一个增量作用于系统，得到下一时刻的控制量：

U(k)＝ΔU(k)+U(k-1)

重复上述过程直至完成滚动预测控制，实现系统的在线优化求解。

S5：约束条件

在控制过程中将直驱式波浪发电系统的物理限制纳入算法的约束中，其中线性约束包括浮子的升沉位移z(t)、运动速度

非线性约束包括定子电压幅值、定子电流幅值和弱磁率τ。

其中，定子电压幅值极限值U

应当理解，在永磁电机实际弱磁运行过程中，若直轴去磁电流过大，会导致永磁体面临永久退磁的危险，故应控制弱磁率τ始终小于等于1，其中弱磁率τ的定义式如下：

由此，可得到非线性约束的表达式如下：

当发电机处于低速区，采用i

S6：利用深度Q网络对目标函数中的正则系数最优值进行学习:

表征系统状态的因素包括波浪主峰频率f

S＝[s|f

将正则系数的增量设置为动作值，增量大小取0.2，定义动作空间表达式如下：

A＝[a|-Δr,0,+Δr]

考虑到深度Q网络的学习目标为算法在系统约束下有可行解的情况下最大化捕获波浪功率，定义奖励函数为：

采用深度Q网络来拟合理论最优状态-动作值函数Q*(s,a)，即：

Q(s,a,ω)≈Q*(s,a)

式中，ω为神经网络参数。

应当理解，深度Q网络算法包括两个Q网络：估计Q网络和目标Q网络。两者结构层次相同但参数不同，估计Q网络的参数每一步都会迭代更新，而目标Q网络在间隔一定步长后复制估计Q网络的参数进行延时更新，因此在一段时间内保持固定，以此提高学习过程的稳定性。

估计Q网络通过最小化损失函数来进行梯度迭代更新，损失函数定义为目标Q值与最优估计Q值之差的平方，表达式如下：

式中，

深度Q网络算法原理框图如图3所示，深度Q网络基于ε贪心算法选择动作，并引入经验回放机制——将一定步长后训练所得样本对(s(t),a(t),reward(t),s(t+1))储存于经验池中，每次学习时随机抽取部分样本进行训练并基于梯度下降法更新估计Q网络参数。该机制提高数据利用率的同时，能够消除样本之间的时序相关性，避免陷入局部最优。

在达到最大训练次数后停止训练，此时的目标网络参数将被保存，应用于不同波浪激励力输入下控制策略对于正则系数的自适应调节。

综上所述，本发明提出的基于深度Q网络的直驱式波浪发电系统模型预测控制方法能够在不同波浪激励力输入条件下，基于深度Q网络自适应调节正则系数，提高算法灵活性，在满足系统约束的情况下，提高直驱式波浪发电系统的功率捕获性能。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

完整全部详细技术资料下载