掌桥专利:专业的专利平台
掌桥专利
首页

高超声速飞行器分数阶RBF网络控制器优化方法及系统

文献发布时间:2024-01-17 01:27:33


高超声速飞行器分数阶RBF网络控制器优化方法及系统

技术领域

本发明涉及高超声速飞行器控制技术领域,特别是涉及一种基于深度强化学习的高超声速飞行器分数阶RBF网络控制器优化方法及系统。

背景技术

高超声速飞行器飞行过程中马赫数和攻角变化范围大,且易受到外界干扰,传统的控制方法往往难以获得令人满意的控制性能。同时,高超声速飞行器一般采用固定参数的控制器作为控制策略,在外界干扰较大,飞行环境快速变化的情况下,控制器的性能表现往往不尽人意,甚至会影响系统失稳,造成灾难。然而,高超声速飞行器的控制器往往较为复杂,控制器参数众多,参数整定十分棘手,特别是最优参数值的确定则更为困难。

因此,亟需提供一种能够适应复杂环境变化的高超声速飞行器的控制器优化方法,以提升控制器的控制精度,进而提升高超声速飞行器飞行过程的稳态性和可靠性。

发明内容

本发明的目的是提供一种高超声速飞行器分数阶RBF网络控制器优化方法,通过采用深度强化学习优化技术对基于分数阶微积分理论设计的分数阶RBF神经网络控制器进行控制参数整定优化,实现对高超声速飞行器的最优控制,有效解决现有高超声速飞行器控制器的应用缺陷,有效提高控制器的控制精度的同时,还能有效降低控制器参数整定优化的难度,实现高超声速飞行器的快速稳定控制。

为了实现上述目的,有必要针对上述技术问题,提供一种高超声速飞行器分数阶RBF网络控制器优化方法及系统。

第一方面,本发明实施例提供了一种高超声速飞行器分数阶RBF网络控制器优化方法,所述方法包括以下步骤:

根据高超声速飞行器的建模信息,构建所述高超声速飞行器的纵向通道动力学模型;所述建模信息包括飞行器构型;所述纵向通道动力学模型包括速度子系统和高度子系统;

根据所述纵向通道动力学模型,构建分数阶RBF网络控制器,并根据所述分数阶RBF网络控制器和所述纵向通道动力学模型,构建高超声速飞行器飞行仿真环境;

将预先构建的智能体与所述高超声速飞行器飞行仿真环境进行交互训练,得到控制器参数整定智能体;

获取所述高超声速飞行器的实时飞行状态,并将所述实时飞行状态输入所述控制器参数整定智能体进行参数整定优化,得到最优控制器参数;

将所述最优控制器参数输入所述分数阶RBF网络控制器,生成对应的飞行控制指令,并根据所述飞行控制指令,对所述高超声速飞行器进行飞行控制。

进一步地,所述飞行器构型为对称型;所述纵向通道动力学模型表示为:

其中,V和

进一步地,所述分数阶RBF网络控制器包括速度子系统控制器和高度子系统控制器;

所述根据所述纵向通道动力学模型,构建分数阶RBF网络控制器的步骤包括:

根据分数阶微积分理论,预先构建分数阶RBF神经网络;所述分数阶RBF神经网络的权重采用分数阶梯度下降方法进行更新;

通过所述分数阶RBF神经网络分别对速度跟踪非线性函数、倾角跟踪非线性函数、攻角跟踪非线性函数和俯仰角速度跟踪非线性函数进行近似逼近,得到对应的速度跟踪近似非线性函数、倾角跟踪近似非线性函数、攻角跟踪近似非线性函数和俯仰角速度跟踪近似非线性函数;

根据所述速度跟踪近似非线性函数,得到速度子系统控制器的控制模型;所述速度子系统控制器的控制模型表示为:

式中,

z

x

其中,φ

根据所述倾角跟踪近似非线性函数、所述攻角跟踪近似非线性函数和所述俯仰角速度跟踪近似非线性函数,得到高度子系统控制器的控制模型;所述高度子系统控制器的控制模型表示为:

式中,

z

χ

其中,γ

进一步地,所述分数阶RBF神经网络的权重更新表示为:

其中,E表示网络逼近误差指标;

进一步地,所述根据所述分数阶RBF网络控制器和所述纵向通道动力学模型,构建高超声速飞行器飞行仿真环境的步骤包括:

获取所述高超声速飞行器的飞行数据;所述飞行数据包括初始状态信息和初始控制参数信息;

根据所述初始状态信息,初始化所述纵向通道动力学模型的状态信息集,并根据所述初始控制参数信息,初始化所述分数阶RBF网络控制器的控制参数集;

根据所述纵向通道动力学模型和所述分数阶RBF网络控制器,构建所述高超声速飞行器飞行仿真环境。

进一步地,所述智能体包括基于值函数神经网络和基于策略神经网络;

所述将预先构建的智能体与所述高超声速飞行器飞行仿真环境进行交互训练,得到控制器参数整定智能体的步骤包括:

根据所述状态信息集和所述控制参数集,选择待仿真初始状态和待仿真控制参数;

根据所述待仿真初始状态和所述待仿真控制参数,执行所述智能体与所述高超声速飞行器飞行仿真环境的交互仿真,并在达到预设仿真终止条件时,终止当前轮的仿真飞行,并根据预设奖励函数评估得到当前仿真飞行轨迹中各个状态点的累积回报值,以及根据所述累积回报值更新所述基于值函数神经网络的参数;

根据更新后的所述基于值函数神经网络,预测当前仿真飞行轨迹中各个状态点的期望累积回报值,并根据所述累积回报值和所述期望累积回报值,更新所述基于策略神经网络的参数;

判断所述基于策略神经网络是否达到预设收敛条件,若达到,则停止仿真训练,得到所述控制器参数整定智能体,反之,则,根据所述状态信息集和所述控制参数集重新选择所述待仿真初始状态和所述待仿真控制参数,并开始下一轮交互仿真训练。

进一步地,所述预设奖励函数表示为:

r

式中,

其中,r

第二方面,本发明实施例提供了一种高超声速飞行器分数阶RBF网络控制器优化系统,所述系统包括:

模型构建模块,用于根据高超声速飞行器的建模信息,构建所述高超声速飞行器的纵向通道动力学模型;所述建模信息包括飞行器构型;所述纵向通道动力学模型包括速度子系统和高度子系统;

仿真搭建模块,用于根据所述纵向通道动力学模型,构建分数阶RBF网络控制器,并根据所述分数阶RBF网络控制器和所述纵向通道动力学模型,构建高超声速飞行器飞行仿真环境;

策略训练模块,用于将预先构建的智能体与所述高超声速飞行器飞行仿真环境进行交互训练,得到控制器参数整定智能体;

参数整定模块,用于获取所述高超声速飞行器的实时飞行状态,并将所述实时飞行状态输入所述控制器参数整定智能体进行参数整定优化,得到最优控制器参数;

控制优化模块,用于将所述最优控制器参数输入所述分数阶RBF网络控制器,生成对应的飞行控制指令,并根据所述飞行控制指令,对所述高超声速飞行器进行飞行控制。

第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

上述本申请提供了一种高超声速飞行器分数阶RBF网络控制器优化方法及系统,通过所述方法,实现了通过根据高超声速飞行器的建模信息构建纵向通道动力学模型,并根据纵向通道动力学模型构建分数阶RBF网络控制器,以及将依此构建的高超声速飞行器飞行仿真环境与预先构建的智能体进行交互训练,得到控制器参数整定智能体后,将获取的高超声速飞行器的实时飞行状态输入控制器参数整定智能体进行参数整定优化,得到最优控制器参数,并将最优控制器参数输入分数阶RBF网络控制器生成飞行控制指令,以及根据飞行控制指令对高超声速飞行器进行飞行控制的技术方案。与现有技术相比,该高超声速飞行器分数阶RBF网络控制器优化方法,通过结合深度强化学习优化技术和分数阶RBF神经网络控制器实现对高超声速飞行器的最优控制,有效提高控制器的控制精度的同时,还能有效降低控制器参数整定优化的难度,实现高超声速飞行器的快速稳定控制,具有较高的应用价值。

附图说明

图1是本发明实施例中高超声速飞行器分数阶RBF网络控制器优化方法的流程示意图;

图2是本发明实施例中分数阶RBF神经网络控制器的示意图;

图3是本发明实施例中智能体和高超声速飞行器飞行仿真环境的交互示意图;

图4是本发明实施例中智能体的结构示意图;

图5是本发明实施例中智能体与高超声速飞行器飞行仿真环境进行交互训练的流程示意图;

图6是本发明实施例中高超声速飞行器分数阶RBF网络控制器优化系统的结构示意图;

图7是本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供的高超声速飞行器分数阶RBF网络控制器优化方法,可以应用于对称构型的高超声速飞行器的优化控制,使得高超声速飞行器能够适应复杂环境变化的同时,有效提升控制器的控制精度,进而提升高超声速飞行器飞行过程的稳态性和可靠性,具有较高的应用价值。下述实施例将对本发明的高超声速飞行器分数阶RBF网络控制器优化方法进行详细说明。

在一个实施例中,如图1所示,提供了一种高超声速飞行器分数阶RBF网络控制器优化方法,包括以下步骤:

S11、根据高超声速飞行器的建模信息,构建所述高超声速飞行器的纵向通道动力学模型;其中,建模信息可理解为模型构建的相关假设条件,包括飞行器构型等,对应的高超声速飞行器的纵向通道动力学模型的具体构建过程如下:

假设飞行器构型为对称的,则I

基于上述假设条件,可得到高超声速飞行器的纵向通道动力学模型为:

其中,V和

上述式(1)中的T、D、L和M

其中,

定义状态变量为x=[V,γ,α,β,h]

(1)速度子系统:

(2)高度子系统:

式中,

其中,F

S12、根据所述纵向通道动力学模型,构建分数阶RBF网络控制器,并根据所述分数阶RBF网络控制器和所述纵向通道动力学模型,构建高超声速飞行器飞行仿真环境;其中,分数阶RBF网络控制器可理解为是基于式(1)所示的纵向通道动力学模型,在考虑执行机构物理约束的情况下,引入分数阶微积分理论设计得到用于对高超声速飞行器的速度和高度进行跟踪控制的控制器,其与纵向通道动力学模型对应,包括速度子系统控制器和高度子系统控制器;

具体地,所述根据所述纵向通道动力学模型,构建分数阶RBF网络控制器的步骤包括:

根据分数阶微积分理论,预先构建分数阶RBF神经网络;其中,分数阶RBF神经网络如图2所示包括三个神经网络层,分别是输入层、隐含层和输出层;其中,隐含层的神经元激活函数如式(5)所示:

其中,b

分数阶RBF神经网络输出层的输出如式(6)所示:

y=W

其中,W=[W

通过所述分数阶RBF神经网络分别对速度跟踪非线性函数、倾角跟踪非线性函数、攻角跟踪非线性函数和俯仰角速度跟踪非线性函数进行近似逼近,得到对应的速度跟踪近似非线性函数、倾角跟踪近似非线性函数、攻角跟踪近似非线性函数和俯仰角速度跟踪近似非线性函数;

需要说明的是,上述分数阶RBF神经网络在实际应用中通过式(6)对非线性函数f进行近似逼近,得到式(7)所示的非线性近似函数:

f=W

其中,

当选取的隐藏层节点足够多时,式(7)必然成立,但是隐藏节点增多会增加神经网络结构的复杂度,不利于实时控制,对于实时性要求很高的高超声速飞行器控制系统,现有的整数阶RBF神经网络自然是不能直接应用,需要进行改进才能满足实时性要求;同时,为进一步解决因训练样本和隐藏节点增加使神经网络复杂度增加,实时性降低的问题,本实施例采用的基于分数阶微积分理论设计得到的分数阶控制器不仅能满足非线性函数逼近需求,而且具有更大的自由度和灵活性、更快的响应速度、更强的鲁棒性和稳定性等特点,可以提高系统的响应速度、控制精度和鲁棒性。

在本实施例中控制器对速度跟踪非线性函数、倾角跟踪非线性函数、攻角跟踪非线性函数和俯仰角速度跟踪非线性函数进行近似逼近,得到式(8)所示的逼近结果:

式中,

其中,

上述各个逼近得到的最优权重均是通过分数阶梯度下降方法进行更新得到的,对应分数阶RBF神经网络采用分数阶微积分理论对W

其中,E表示网络逼近误差指标;

本实施例中采用利用式(9)的分数阶梯度下降方法对RBF网络的权重进行更新,可有效提高响应速度和系统鲁棒性,进而提高控制器的响应速度和控制精度;

根据所述速度跟踪近似非线性函数,得到速度子系统控制器的控制模型;其中,速度子系统控制器的控制模型可理解为是速度子系统控制器的控制模型,可表示为:

式中,

z

x

其中,φ

速度子系统控制器的控制模型的具体构建过程如下:

(1)定义参考指令速度为V

其中,

(2)引入式(12)所示的补偿系统:

(3)定义跟踪误差z

z

(4)设计式(10)所示的控制律,对油门开度或进气量进行控制:

其中,

(5)近似函数

其中,E

根据所述倾角跟踪近似非线性函数、所述攻角跟踪近似非线性函数和所述俯仰角速度跟踪近似非线性函数,得到高度子系统控制器的控制模型;其中,高度子系统控制器的控制模型可理解为是高度子系统控制器的控制模型,如式(14)所示:

式中,

z

χ

其中,γ

高度子系统控制器的控制模型的具体构建过程如下:

(1)定义参考飞行高度h

(2)定义二阶跟踪微分器,求解γ

其中,l

(3)定义参考航迹倾角γ

其中,

(4)近似函数

其中,E

(5)定义参考攻角α

其中,

(6)采用如下微分器进行实现对α

其中,l

(7)近似函数

其中,E

(8)定义俯仰角速度指令Q

其中,

(9)引入式(18)所示的补偿系统:

其中,δ

(10)定义跟踪误差z

z

(11)通过以下二阶跟踪微分器,获得

其中,l

(12)设计实际控制律如下:

其中,

(13)近似函数

其中,E

高超声速飞行器飞行仿真环境可理解为是用于深度强化学习中对DDPG(Deterministic Policy Gradient)智能体进行训练的高超声速飞行器的飞行控制模拟仿真环境;具体的,所述根据所述分数阶RBF网络控制器和所述纵向通道动力学模型,构建高超声速飞行器飞行仿真环境的步骤包括:

获取所述高超声速飞行器的飞行数据;其中,飞行数据可理解为是预先采集的真实高超声速飞行器的飞行控制数据,用于仿真环境的数据初始化,包括初始状态信息和初始控制参数信息;

根据所述初始状态信息,初始化所述纵向通道动力学模型的状态信息集,并根据所述初始控制参数信息,初始化所述分数阶RBF网络控制器的控制参数集;其中,状态信息集可定义为S={s

根据所述纵向通道动力学模型和所述分数阶RBF网络控制器,构建所述高超声速飞行器飞行仿真环境;

S13、将预先构建的智能体与所述高超声速飞行器飞行仿真环境进行交互训练,得到控制器参数整定智能体;其中,智能体看理解为是用于对分数阶RBF网络控制器的参数进行优化整定的DDPG智能体,如图3所示,其输出动作为控制器参数向量,输入的是高超声速飞行器飞行仿真环境输出的高超声速飞行器的飞行状态S

上述智能体采用深度神经网络构建得到,如图4所示,包括基于值函数神经网络(Critic网络)和基于策略神经网络(Actor网络),对应的网络结构包括输入层、隐藏层和输出层,对应的网络结构参数包括学习率,奖励衰减因子和探索概率,其中,输入层包含m个神经元,用于输入高超声速飞行器在t时刻的状态,隐藏层包含m个神经元,并利用激活函数计算来自输入层的状态信息并传输给输出层,输出层包含n个神经元,用于输出动作值函数;

具体的,如图5所示,所述将预先构建的智能体与所述高超声速飞行器飞行仿真环境进行交互训练,得到控制器参数整定智能体的步骤包括:

根据所述状态信息集和所述控制参数集,选择待仿真初始状态和待仿真控制参数;

根据所述待仿真初始状态和所述待仿真控制参数,执行所述智能体与所述高超声速飞行器飞行仿真环境的交互仿真,并在达到预设仿真终止条件时,终止当前轮的仿真飞行,并根据预设奖励函数评估得到当前仿真飞行轨迹中各个状态点的累积回报值,以及根据所述累积回报值更新所述基于值函数神经网络的参数;其中,预设奖励函数可理解为是用于对高超声速飞行器各个飞行状态进行有效性评估的奖励值生成函数;本实施例的预设奖励函数的设计遵循以下原则:

1)确保奖励函数是收敛的,并具有较快的收敛速度;

2)确保智能体训练在一定约束范围内进行,符合物理约束;

3)确保系统的跟踪性能和安全性。

基于以上原则,本实施例优选地从同时考虑飞行状态误差、航迹倾角和俯仰角速度三个方面对各个飞行状态进行惩罚设计,以确保智能体训练在一定约束范围内进行,更加符合物理世界,奖励函数的设计考虑跟踪性能和安全性,对应设计的奖励函数如式(20)所示:

r

式中,

其中,r

基于(20)式可得高超声速飞行器当前飞行轨迹的累积回报值R

其中,λ∈[0,1]表示折扣因子,用于表示飞行轨迹中各个时刻回报的折扣,则对于一个强化学习算法而言,其目标就会寻找到一组策略可以使得轨迹的累积折扣回报期望值尽可能最大;r

根据更新后的所述基于值函数神经网络,预测当前仿真飞行轨迹中各个状态点的期望累积回报值,并根据所述累积回报值和所述期望累积回报值,更新所述基于策略神经网络的参数;其中,期望累积回报值可理解为是某个状态s

具体的,更新基于策略神经网络的参数的过程为:考虑考虑策略π,定义式(23)所示的性能目标函数:

其中,

基于(23)式对目标Actor网络和Critic网络进行更新,依据马尔可夫性质,在两个连续时间内Q更新为:

其中,Q

则,最优策略更新为:

其中,Q

以及,在最优策略π

其中,Q

判断所述基于策略神经网络是否达到预设收敛条件,若达到,则停止仿真训练,得到所述控制器参数整定智能体,反之,则,根据所述状态信息集和所述控制参数集重新选择所述待仿真初始状态和所述待仿真控制参数,并开始下一轮交互仿真训练;其中,预设收敛条件可以基于)所示的性能目标函数确定:其中,控制器参数整定智能体可理解为是达到训练终止条件,且保存的值函数Q

S14、获取所述高超声速飞行器的实时飞行状态,并将所述实时飞行状态输入所述控制器参数整定智能体进行参数整定优化,得到最优控制器参数;其中,控制器参数整定智能体根据高超声速飞行器的实时飞行状态进行参数整定优化的过程可参考上述控制器参数整定智能体训练构建的过程,此处不再赘述;

S15、将所述最优控制器参数输入所述分数阶RBF网络控制器,生成对应的飞行控制指令,并根据所述飞行控制指令,对所述高超声速飞行器进行飞行控制。

本申请实施例通过根据高超声速飞行器的包括飞行器构型的建模信息,构建高超声速飞行器的包括速度子系统和高度子系统的纵向通道动力学模型,并根据纵向通道动力学模型构建分数阶RBF网络控制器,以及根据分数阶RBF网络控制器和纵向通道动力学模型,构建高超声速飞行器飞行仿真环境后,将预先构建的智能体与高超声速飞行器飞行仿真环境进行交互训练,得到控制器参数整定智能体,再将获取的高超声速飞行器的实时飞行状态输入控制器参数整定智能体进行参数整定优化,得到最优控制器参数,并将最优控制器参数输入分数阶RBF网络控制器生成对应的飞行控制指令,以及根据飞行控制指令,对高超声速飞行器进行飞行控制的方法,将分数阶RBF神经网络控制方法与基于深度强化学习的优化技术相结合,解决了高超声速飞行器在复杂多变环境下的稳定可靠、精准控制的问题,有效提高控制器的控制精度,同时利用深度强化学习技术解决控制器参数整定困难的问题,实现高超声速飞行器的快速稳定控制,具有较高的应用价值。

需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。

在一个实施例中,如图6所示,提供了一种高超声速飞行器分数阶RBF网络控制器优化系统,所述系统包括:

模型构建模块1,用于根据高超声速飞行器的建模信息,构建所述高超声速飞行器的纵向通道动力学模型;所述建模信息包括飞行器构型;所述纵向通道动力学模型包括速度子系统和高度子系统;

仿真搭建模块2,用于根据所述纵向通道动力学模型,构建分数阶RBF网络控制器,并根据所述分数阶RBF网络控制器和所述纵向通道动力学模型,构建高超声速飞行器飞行仿真环境;

策略训练模块3,用于将预先构建的智能体与所述高超声速飞行器飞行仿真环境进行交互训练,得到控制器参数整定智能体;

参数整定模块4,用于获取所述高超声速飞行器的实时飞行状态,并将所述实时飞行状态输入所述控制器参数整定智能体进行参数整定优化,得到最优控制器参数;

控制优化模块5,用于将所述最优控制器参数输入所述分数阶RBF网络控制器,生成对应的飞行控制指令,并根据所述飞行控制指令,对所述高超声速飞行器进行飞行控制。

关于一种高超声速飞行器分数阶RBF网络控制器优化系统的具体限定可以参见上文中对于一种高超声速飞行器分数阶RBF网络控制器优化方法的限定,对应的技术效果也可等同得到,在此不再赘述。上述一种高超声速飞行器分数阶RBF网络控制器优化系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

图7示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图7所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器、摄像头和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种高超声速飞行器分数阶RBF网络控制器优化方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域普通技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。

综上,本发明实施例提供的高超声速飞行器分数阶RBF网络控制器优化方法及系统,其高超声速飞行器分数阶RBF网络控制器优化方法实现了根据高超声速飞行器的包括飞行器构型的建模信息,构建高超声速飞行器的包括速度子系统和高度子系统的纵向通道动力学模型,并根据纵向通道动力学模型构建分数阶RBF网络控制器,以及根据分数阶RBF网络控制器和纵向通道动力学模型,构建高超声速飞行器飞行仿真环境后,将预先构建的智能体与高超声速飞行器飞行仿真环境进行交互训练,得到控制器参数整定智能体,再将获取的高超声速飞行器的实时飞行状态输入控制器参数整定智能体进行参数整定优化,得到最优控制器参数,并将最优控制器参数输入分数阶RBF网络控制器生成对应的飞行控制指令,以及根据飞行控制指令,对高超声速飞行器进行飞行控制的技术方案,通过结合深度强化学习优化技术和分数阶RBF神经网络控制器实现对高超声速飞行器的最优控制,有效提高控制器的控制精度的同时,还能有效降低控制器参数整定优化的难度,实现高超声速飞行器的快速稳定控制,具有较高的应用价值。

本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 一种基于RBF神经网络的分数阶PID控制器的参数整定方法
  • 基于智能自适应优化算法的高超声速飞行器再入段轨迹优化控制器
技术分类

06120116220322