掌桥专利:专业的专利平台
掌桥专利
首页

基于强化学习的阀控液压缸分数阶控制方法及控制系统

文献发布时间:2024-01-17 01:26:37


基于强化学习的阀控液压缸分数阶控制方法及控制系统

技术领域

本发明涉及阀控液压缸控制,具体是涉及一种基于强化学习的阀控液压缸分数阶控制方法及控制系统。

背景技术

阀控液压缸是一种常见的液压执行元件,在工业和机械控制领域具有广泛的应用。它具有以下优点:高力密度、平稳运动、可靠性高和负载适应性强。阀控液压缸能够提供高力输出,适用于需要大功率输出的应用。通过精确的液压控制,它能够实现平稳、精确的运动,具有较高的运动控制精度。阀控液压缸的结构简单、操作可靠,具有较长的使用寿命和稳定的性能。此外,它可以适应不同负载和工况条件下的工作,能够实现力、速度的调节和控制。

阀控液压缸的应用领域广泛。它常用于工业自动化设备,如机床、搬运设备、装配线等,用于实现工件夹持、运输、定位和加工等操作。在建筑工程中,阀控液压缸可用于挖掘机、推土机、起重机等设备,用于实现重物的举升、转动和定位等功能。在农业机械领域,它可以应用于拖拉机、收割机、灌溉设备等,用于实现农田作业、种植和灌溉等操作。此外,阀控液压缸在航空航天和机器人技术领域也有重要应用,用于实现飞机和航天器的控制和机器人的运动、抓取、定位和力控制等功能。

综上所述,阀控液压缸凭借其优越的性能特点,在多个领域都发挥着重要作用,并具有广阔的应用前景。

分数阶PID控制器是一种新型的PID控制器,它可以更好地描述分数阶动力学系统。与传统的PID控制器不同,分数阶PID控制器的控制器输出与误差的分数阶次之间存在比例关系。因此,优化分数阶PID控制器的参数是一项非常具有挑战性的任务。

发明内容

发明目的:针对以上缺点,本发明提供一种更好地控制阀控液压缸系统的基于强化学习的阀控液压缸分数阶控制方法及控制系统。

技术方案:为解决上述问题,本发明采用一种基于强化学习的阀控液压缸分数阶控制方法,包括以下步骤:

(1)根据阀控液压缸控制原理,建立阀控液压缸的数学模型;

(2)设计分数阶PID控制器对阀控液压缸系统进行控制;

(3)通过强化学习对分数阶PID控制器的参数进行优化调整;

(4)通过强化学习优化后的分数阶PID控制器对阀控液压缸进行控制。

进一步的,所述步骤(1)中阀控液压缸数学模型的动态特性方程式为:

其中,

进一步的,定义状态变量

其中,

进一步的,所述系统复合扰动

其中,

进一步的,所述分数阶PID控制器的表达式为:

其中,

进一步的,所述步骤(3)中采用Critic网络和Actor网络对分数阶PID控制器的参数进行优化调整,其中,Actor网络的输入为系统状态信号,输出为动作信号

奖励信号

其中,

进一步的,所述Actor网络包括输入层、隐含层和输出层;所述输入层将系统状态直接输入到隐藏层进行计算,系统状态

其中,

进一步的,所述Critic网络包括输入层、隐含层和输出层;Critic网络输入层的输入是一个七维向量,即

其中,

进一步的,Critic网络参数更新算法为:

其中,

Actor网络参数更新采用梯度上升法,具体算法如下所示:

其中,

本发明还采用一种基于强化学习的阀控液压缸分数阶控制系统,包括模型建立模块,用于根据阀控液压缸控制原理,建立阀控液压缸的数学模型,设计分数阶PID控制器对阀控液压缸系统进行控制;

优化模块,用于通过强化学习对分数阶PID控制器的参数进行优化调整;

控制模块,通过强化学习优化后的分数阶PID控制器对阀控液压缸进行控制。

有益效果:本发明相对于现有技术,其显著优点是通过构建一个分数阶PID控制器来对系统进行优化控制,充分发挥了分数阶PID更强的适应性和更好的性能。利用强化学习算法来补充传统控制器调参技术的设计方案。使分数阶PID参数的调节无需过多的人工干预,能基于目前系统状态自动优化参数。

附图说明

图1为本发明阀控液压缸分数阶控制方法的流程示意图。

实施方式

如图1所示,本实施例中的一种基于强化学习的阀控液压缸分数阶控制方法,包括以下步骤:

步骤1:根据阀控液压缸控制原理,建立阀控液压缸的数学模型。

阀控液压缸系统中的单向阀、定量泵、电机和油箱为对整个系统供油的元件,溢流阀起到定压溢流作用;双出杆对称液压缸为作动器,位移信号通过位移传感器进行反馈;控制器基于位移误差对伺服阀进行控制,最终实现作动器的位移跟踪控制。

由牛顿第二定律可得惯性负载的动力学方程为:

其中,

液压缸的压力-流量方程为:

其中,

定义符号函数:

负载流量-伺服阀阀芯位移方程为:

其中,

由于伺服阀的响应频率远大于液压缸动作的频宽,阀芯输入位移与控制输入可以近似等同于线性关系,即:

其中,

模型的动态特性方程式为:

其中,

活塞位移

其中,

定义状态变量

其中,

定义系统复合扰动:

其中,

式(13)可以看出

步骤2、设计分数阶PID控制器对阀控液压缸系统进行控制。

采用Riemann-Liouville定义的分数阶PID控制器对系统进行控制,与传统的整数阶PID控制器相比,它能够更好地适应非线性和时变系统。它的基本概念如下:

FOPID控制器的结构包括一个比例环节、一个积分环节和一个微分环节,其中比例环节、积分环节和微分环节分别对应着分数阶微积分的比例、积分和微分。在式(14)中,

相比于传统的整数阶PID控制器,分数阶PID控制器具有更好的适应性,其对于系统的参数变化反应没有特别敏感,故可以更好地应对非线性和时变系统,提高控制系统的稳定性和鲁棒性。

步骤3、通过强化学习对分数阶PID控制器的参数进行优化调整。

将强化学习用于分数阶PID五个参数的优化调整。由Critic网络与Actor网络组成的Agent将从系统中获取输入其网络的状态信号

而对于所构造的两个网络的作用可以简述为,在系统的任意时刻

系统的输出目的是尽可能的减小偏差,而在强化学习中集合了Actor网络与Critic网络的智能体Agent总是会追求奖励的最大化,故奖励信号

其中,

在强化学习的算法中,对于折扣回报可以有以下定义:

其中,

对式(16)进行整理可得:

对式(17)进行首相分离并整理可得:

由式(18),式(19)可知,在数学运算中我们用当前时刻的动作信号

将式(18)和式(19)联立,并根据时序逻辑进行调整进行整理可得:

对式(20)两侧基于此刻的状态与动作求取期望,可得下式:

对于式(21)结果则有:

其中,

当Actor-Critic处于最佳控制策略与最佳评价策略时式(22)等号成立,但这仅出现在理想情况下,因此,基于Bellman方程,时序误差(TD error)可以定义为式(22)两边的差值,即如下式:

这里需要注意的是,由于时序误差取决于下一个状态和下一个动作,因此

因此代价函数可以定义为:

设计的Actor网络与Critic网络均由三层结构组成,首先是输入层,它是由可测量的系统状态量以及控制器的具体参数组成;其次是隐含层,其由一个激活函数作为其核函数,在本设计中采用高斯函数作为其核函数;最后是输出层,其输出值由隐含层与输出层之间的权值和叠加组成,下面分别对每个网络的每一层进行具体阐述。

对于Actor网络,其输入由系统状态组成,在这里其输入是一个二维向量,即

其中,

第三层是输出层,直接输出的动作

其中,

对于Critic网络,其输入由系统状态以及Actor网络的输出动作组成,因此,输入是一个七维向量,即

输入层将其直接输入到隐藏层进行计算;在隐藏层中,

其中,

第三层是输出层,直接输出Critic网络对动作

对于Critic来说,其追求的目标即是完美的评价轨迹,因此其总是期望

其中,

将式(34)代入式(33)中可得:

式(35)即为Critic网络参数更新算法。

对于Actor网络来说,它的控制目标是找出空间中一条最佳的控制器参数轨迹,在此过程中,Actor总是追求奖励的最大化,因为代价函数

其中,对于式(36)来说,

以此类推,则对于积分系数与微分系数依次有:

而对于积分阶次与微分阶次则有:

其中,

其中,

步骤4、证明在该强化学习算法下网络输出最终收敛到最优解。

设计并证明在该强化学习算法下网络输出最终收敛到最优解,首先定义

基于最优策略所做出的最优评价可表示为下式:

其中,

定义收缩算子

其中,

在强化学习的过程中,可认为价值函数每经过一次学习更新,都会对当前的Q函数进行一次算子运算,即如下式所示:

其中,

因此,最优价值函数可以视为在算子运算中的一个不动点,即当函数达到最优价值函数

可知,在任意两个时刻,都分别存在一个

其中,

若假定其中某一个为算子运算中的不动点,则所有的运算过程最终将收敛于这一点。因此根据上式,我们可以推断,算法具有收敛性。

Actor网络接收状态输入并产生对于各个动作的概率预测,因此我们可将这一过程定义为策略函数

根据式(18),式(19)可知

故上式可以写作:

其中,

结合式(18),式(19)定义收缩算子

其中,

在强化学习的过程中,可认为策略函数每经过一次学习更新,都会对当前的策略函数进行一次算子运算,即如下式所示:

其中,

因此,最优策略函数亦可以视为在算子运算中的一个不动点,即当函数达到最优价值函数

任取学习过程中的两次迭代,则有如下运算:

其中,

因此可知,算法具有收敛性,若取后一个时刻为最优策略则可知前一时刻与后一时刻策略值的最远距离趋近于零,因此可知该学习过程最终会收敛到该最优策略。

步骤5、通过强化学习优化后的分数阶PID控制器对阀控液压缸进行控制。

相关技术
  • 一种基于预测分数阶强化学习智能电网电压控制方法
  • 基于分数阶PID与分数阶终端滑模的四旋翼无人机控制方法
技术分类

06120116211022