掌桥专利:专业的专利平台
掌桥专利
首页

基于强化学习的电机系统H无穷降阶输出跟踪控制方法

文献发布时间:2024-04-18 19:52:40


基于强化学习的电机系统H无穷降阶输出跟踪控制方法

技术领域

本发明属于电机系统驱动控制领域,具体涉及基于强化学习的电机系统H无穷降阶输出跟踪控制方法。

背景技术

广泛存在于电力系统、流程工业等领域的非线性双时间尺度电机系统,是一类具有高阶次、快慢耦合等复杂特性的系统。实际中常常要求系统按照预先设定的参考轨迹运行的同时,具有一定的抗干扰能力。鲁棒跟踪控制的目标就是设计控制器使得系统满足上述要求,因而受到广泛研究。

现有的非线性双时间尺度电机系统跟踪控制方法主要基于滑模控制、自抗扰控制等。但此类方法都没有对扰动抑制的定量分析,因此H无穷控制应运而生,成为处理抗扰问题的有效手段。但一般系统的跟踪控制方法若直接应用在奇异摄动系统中,会造成病态数值问题及维数灾难。为此,基于系统分解的可行解决思路被应用在控制此类系统中。虽已有结果引入时间尺度分解来设计非线性双时间尺度的组合鲁棒控制器,但要求系统模型完全已知,虚拟子系统状态要求完全可测。目前,尚未有动力学未知的非线性双时间尺度电机系统的H无穷降阶输出跟踪控制。

实际工业生产过程中,建立系统的精确模型往往比较困难,得益于智能体与环境交互式错的特性,强化学习在处理无模型控制问题方面具有得天独厚的优势,其利用系统输入输出数据获得理想控制律,可解决最优跟踪控制问题。如今,已经出现了很多方法可在强化学习框架下克服干扰带来的不利影响。作为一种主流的抗扰方法,基于强化学习的H无穷控制引起了广泛关注。将H无穷控制问题转化为零和博弈问题并利用最优控制思想求解已被证明是一种有效的方法。然而,由于双时间尺度系统具有高维数和快慢动态耦合特性,已有强化学习方法不适用于上述电机系统,甚至会导致迭代学习过程中发生病态数值问题。因此,迫切需要开发一种具有自学习能力的电机系统H无穷降阶输出跟踪控制方法,在含有未知动态和数据不完美情况下,仍可实现非上述系统的H无穷降阶输出跟踪控制。

发明内容

发明内容

针对上述存在的技术不足,本发明的目的是提供一种基于强化学习的电机系统H无穷降阶输出跟踪控制方法,可解决含有未建模动态和不完美数据的电机系统干扰抑制跟踪控制问题,避免了在强化学习框架下设计双时间尺度电机系统跟踪控制器时潜在的高维和病态数值问题。

为解决上述技术问题,本发明采用如下技术方案:

一种基于强化学习的电机系统H无穷降阶输出跟踪控制方法,用于伺服电机、流程工业等系统,包括以下步骤:

步骤一:利用奇异摄动理论,将原始电机系统H无穷输出跟踪控制问题进行分解得到降阶问题;

步骤二:基于原系统的输出状态数据,提出虚拟子系统的状态重构机制解决虚拟子系统数据不可测的问题,进一步推导基于重构数据的H无穷输出跟踪强化学习迭代算法;

步骤三:引入执行-评价-扰动神经网络近似控制器、性能指标和扰动,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的降阶跟踪控制器。

优选地,步骤一中,电机系统用以下状态空间模型描述:

其中x

为使系统慢状态x

定义跟踪误差为

ρ=Cx

跟踪误差动态为

原始H无穷输出跟踪控制问题为:设计状态反馈控制器u=χ(ρ,r),存在扰动的情况下满足下式定义的L2增益条件,不存在扰动的情况下跟踪误差收敛到0;

其中||z||

原系统简化为如下降阶系统:

y=Cx

其中C为系统输出矩阵,x

F

G

K

H无穷降阶输出跟踪控制问题简化为如下降阶输出跟踪问题:

设计控制器u

定义降阶系统输出跟踪误差为

ρ

跟踪误差动态为

定义了虚拟的控制输出如下:

||z||

H无穷降阶输出跟踪控制问题的目标是根据跟踪误差ρ

1)存在扰动的情况下,系统满足以下L

2)不存在扰动的情况下,输出跟踪误差趋近于0。

优选地,步骤二中,虚拟子系统的状态重构机制为:利用原系统慢动态状态x

其中,

优选地,步骤三中,基于强化学习的慢控制器设计方法具体为:

a:选取评价神经网络、执行神经网络以及扰动神经网络的线性独立激活函数向量分别为

其中,

b:初始化神经网络权值向量

c:利用

其中,

优选地,基于强化学习的电机系统H无穷降阶输出跟踪控制器为:

本发明的有益效果是:

1)利用奇异摄动理论,将原始电机系统H无穷输出跟踪控制问题进行分解得到降阶慢子系统问题,避免了病态数值问题的发生;

2)基于原系统的输出状态数据,提出虚拟子系统的状态重构机制解决虚拟子系统数据不可测的问题,进一步推导基于重构数据的H无穷输出跟踪强化学习迭代算法;

3)将强化学习算法引入电机控制系统中,利用执行-评价-扰动神经网络近似控制器、性能指标和扰动,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的降阶H无穷输出跟踪控制器。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于强化学习的电机系统H无穷降阶输出跟踪控制框架图;

图2是本发明实施例提供的评价神经网络权值收敛过程示意图;

图3是本发明实施例提供的第一个执行神经网络权值收敛过程示意图;

图4是本发明实施例提供的第二个执行神经网络权值收敛过程示意图;

图5是本发明实施例提供的扰动神经网络权值收敛过程示意图;

图6是本发明实施例提供的最优控制律作用下闭环电机系统状态轨迹跟踪曲线。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1;参见图1,基于强化学习的电机系统H无穷降阶输出跟踪控制方法,包括以下步骤:

步骤101:利用奇异摄动理论,将原始电机系统H无穷输出跟踪控制问题进行分解得到降阶子问题,避免了病态数值问题的发生;

具体方法为:

(1-1)针对的非线性双时间尺度电机系统,不失一般性,系统的状态空间模型描述为:

其中x

为使系统慢状态x

定义跟踪误差为

ρ=Cx

跟踪误差动态为

(1-2)所述原始H无穷输出跟踪控制问题为:设计状态反馈控制器u=χ(ρ,r),存在扰动的情况下满足下式定义的L2增益条件,不存在扰动的情况下跟踪误差收敛到0。

其中||z||

(1-3)所述分解后的慢子问题为:设计控制器u

定义降阶系统输出跟踪误差为

ρ

跟踪误差动态为

定义了虚拟的控制输出如下:

||z||

H无穷降阶输出跟踪控制问题的目标是根据跟踪误差ρ

1)存在扰动的情况下,系统满足以下L

2)不存在扰动的情况下,输出跟踪误差趋近于0。

步骤102:基于原系统的输出状态数据,提出虚拟子系统的状态重构机制解决虚拟子系统数据不可测的问题,进一步推导基于重构数据的H无穷输出跟踪强化学习迭代算法;包括下述步骤:

(2-1)利用原系统慢动态状态x

其中,

步骤103:将强化学习算法引入电机控制系统中,利用执行-评价-扰动神经网络近似控制器、性能指标和扰动,基于最小二乘法迭代更新神经网络的权重,得到基于强化学习的降阶H无穷输出跟踪控制器,包括下述步骤:

(3-1)设计基于强化学习的慢控制器,具体为:

a:选取慢评价神经网络、执行神经网络以及扰动神经网络的线性独立激活函数向量分别为

其中,

b:初始化神经网络权值向量

c:利用

其中,

设计基于强化学习的电机系统H无穷降阶输出跟踪控制器为

u=u

实施例2

为使本领域技术人员更好的理解本发明,下面结合具体实施例,对一种基于强化学习的电机系统H无穷降阶输出跟踪控制方法进行详细说明;

考虑如下永磁同步电机模型:

其中,极对数n

x

该实施例的控制目标是设计一个状态反馈控制器使电机系统在w≡0时按照给定的参考轨迹运行,且满足L

在设计H无穷输出跟踪控制器时,引入四个神经网络,包括一个评价神经网络,两个执行神经网络和一个扰动神经网络。选择参考轨迹为r=0.2cos(0.2t),初值为0,x

施加探测噪声,采集样本数据,经过迭代,各神经网络权值收敛。慢子系统评价神经网络权值迭代过程如图2所示,执行神经网络权值迭代过程如图2-图4所示,扰动神经网络权值迭代过程如图5所示。基于执行神经网络权值并结合式(12),可得H无穷降阶跟踪控制器(15)。

降阶跟踪控制器作用下闭环电机系统状态轨迹曲线如图6所示,可见,系统在没有扰动的情况下按照给定的参考轨迹运行。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

技术分类

06120116335616