掌桥专利:专业的专利平台
掌桥专利
首页

一种空天往返飞行器闭环跟踪智能组合制导方法

文献发布时间:2024-04-18 19:52:40


一种空天往返飞行器闭环跟踪智能组合制导方法

技术领域

本发明属于空天往返飞行器闭环跟踪智能组合制导技术领域,具体涉及一种空天往返飞行器闭环跟踪智能组合制导方法。

背景技术

可重复使用运载器(RLV)是指能够自由往返于地球表面与空间轨道之间、具备多用途且可重复使用的飞行器,未来实现快速、可靠及廉价进出空间的必然趋势,也是当前航空航天领域的研究热点,由于RLV的再入段具有变速快,耦合性强,模型不确定性以及外部环境等因素,使得再入段控制系统设计面临更大挑战,为了保证所控飞行器安全稳定地进行再入飞行,对于RLV再入段轨迹的优化与制导律的设计尤为关键,RLV再入轨迹优化的目标是在满足状态约束和控制量约束等条件的情况下,实现到达某个最优目标的飞行轨迹控制,与标准轨迹制导不同,预测校正制导方法不依赖于参考轨迹,而是在飞行过程中首先对飞行终点进行预测,并根据预测落点与期望终点的偏差来设计控制器,具有更高的灵活性和落点精度,且不依赖于再入初始状态,对初始再入扰动的抗干扰能力更强,日益成为各国研究的发展方向;

飞行器轨迹预测是智能飞行系统中不可或缺的功能部件之一,在复杂的博弈环境中,提前预测飞行器的轨迹将为后续机动决策提供参考方向,轨迹预测是指在已有信息的基础上,按照一定的规律或方法对未来时刻的轨迹进行估计;

从目前的研究来看,可以将现有的技术分为两类:运动学模型方法和基于数据的方法,其中前者的应用较为广泛,例如,2017年,哈尔滨工业大学的魏喜庆等针对高超声速飞行器的周期跳跃运动问题,提出了一种与Singer模型相结合的扩展卡尔曼滤波器进行状态估计,进一步递推目标运动轨迹,2018年,空军预警学院的张凯等学者通过对目标运动和飞行意图特征的构建,利用贝叶斯理论进行迭代推导飞行模型,随后,他们利用蒙特卡洛采样方法实现了轨迹预测,虽然,上述方法具有良好的可解释性,然而,有限的预测精度和较长的预测时间使得他们只能应用于某些特定场景。

综上,现有技术中的制导方不能够在有限时域内确保选定的性能指标函数达到最优,无法有效的得到最优反馈制导律,导致控制器的自主性较低。

发明内容

本发明的目的是提供一种空天往返飞行器闭环跟踪智能组合制导方法,采用预测矫正框架,基于LSTM方法进行预测和自适应动态规划结合设计控制器,能够在有限时域内确保选定的性能指标函数达到最优,得到最优反馈制导律,提高了控制器的自主性。

本发明采取的技术方案具体如下:

一种空天往返飞行器闭环跟踪智能组合制导方法,包括以下步骤:

S1:设计一个LSTM的飞行器轨迹预测算法;

S2:建立RLV再入段误差模型并转化约束控制问题;

S3:设计基于自适应动态规划的飞行器跟踪控制器。

进一步地,所述S1包括以下步骤:

S101:通过每一时间步系统状态数据和距离终点的误差数据组合进行数据预处理操作搭建RLV轨迹预测问题的信息数据集和数据库;

S102:通过输入数据获得环境和系统间的耦合信息,搭建LSTM网络进行状态预测,使用反向传播算法更新预测网络权值,得到系统的预测状态模型,实现每一时间步的系统状态轨迹的实时预测;

S103:在飞行过程中,利用得到的预测模型不断对飞行终点进行预测,并根据预测落点与期望终点的偏差作为控制误差,输入给控制器来调整控制量。

进一步地,所述S101中的数据预处理包括信息融合和特征提取。

进一步地,所述S101中信息数据集的建立方法包括以下步骤:

S10101:获取信息,依靠传感器,雷达等,获取随时间变化的飞行器的各个状态信息;

S10102:数据预处理,采用零均值标准化的预处理方法对数据进行预处理;

S10103:构建训练样本,将轨迹数据分解为训练样本和标签。

进一步地,所述构建训练样本包括以下步骤:

从数据集中第一个轨迹点开始,按时间顺序向下,选择前20个轨迹点的时间对应的飞行器状态信息来预测下一个轨迹点的状态信息,其中每一时间步的状态信息作为神经网络对应细胞的输入,选择分离间隔为1,从第二个轨迹点开始,用同样的方法选择训练样本。

进一步地,所述S102包括以下步骤:

S10201:将飞行器的状态误差信息作为输入,通过嵌入函数将输入数据映射到新的空间;

S10202:将飞行器的历史状态信息作为输入,将误差信息与飞行器历史的状态信息融合;

S10203:利用LSTM网络根据观测的历史状态信息和融合信息预测飞行器的未来轨迹;

S10204:通过样本数据构造预测模型,对训练样本和预测样本进行归一化处理,训练样本输入到网络模型中训练网络,根据损失大小调整网络结构,利用测试样本测试网络性能,得出预测结果。

进一步地,所述信息数据集为14维,包括飞行器当前状态和终点状态的状态差信息包括地心距信息差、经度信息差、纬度信息差、速度信息差、航迹角信息差、航向角信息差和倾侧角信。

进一步地,所述S2包括以下步骤:

建立RLV再入段误差模型,设计出一种同时反应编队误差,控制量和避碰作用的性能指标函数,通过安全障碍函数将场景下的避碰问题转换为约束问题,将避碰控制问题转换为误差系统的稳定控制问题。

进一步地,所述S3包括以下步骤:

设计基于自适应动态规划的控制算法,构建评判网络去近似最优性能指标函数并求解最优控制策略,采用策略梯度法,对神经网络所有权值的范数进行更新,利用网络输出迭代,最终获得最优控制策略

进一步地,所述RLV的状态需要严格满足以下约束条件:

1).定义控制算法中飞行器状态量x,满足起点状态条件x

2).受飞行器性能影响,在再入过程中,定义控制量u满足约束u

本发明取得的技术效果为:

本发明的一种空天往返飞行器闭环跟踪智能组合制导方法采用预测矫正框架,基于LSTM方法进行预测和自适应动态规划结合设计控制器,解决了传统动态规划控制算法的“维数灾”问题,通过学习对制导律不断迭代更新,最终在有限时域内确保选定的性能指标函数达到最优,得到最优反馈制导律,提高了控制器的自主性。

附图说明

图1是本发明的基于LSTM和自适应动态规划的空天往返飞行器闭环跟踪智能组合制导框图;

图2是本发明的LSTM的飞行器预测模型图;

图3是本发明的LSTM原理图;

图4是本发明的飞行器状态预测结果图;

图5是本发明的飞行器状态预测绝对百分比误差变化曲线图;

图6是本发明基于自适应动态规划的跟踪控制的状态变化曲线图;

图7是本发明基于自适应动态规划的跟踪控制的误差变化曲线图;

图8是本发明的飞行器评判神经网络权值变换曲线图;

图9是本发明的LSTM模型参数图;

图10是本发明的飞行器初始条件和终点约束图。

具体实施方式

为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行具体说明。应当理解,以下文字仅仅用以描述本发明的一种或几种具体的实施方式,并不对本发明具体请求的保护范围进行严格限定。

实施例1:

如图1所示,一种空天往返飞行器闭环跟踪智能组合制导方法,包括以下步骤:

S1:设计一个LSTM的飞行器轨迹预测算法;

如图2和图3所示,S1包括以下步骤:

S101:通过每一时间步系统状态数据和距离终点的误差数据组合进行信息融合、特征提取等数据预处理操作搭建RLV轨迹预测问题的信息数据集和数据库;

为了给飞行器的控制器提供控制方向,首先需要预测在未来时间步的飞行器的状态,在开展飞行器的状态预测时,未来状态和飞行器历史状态信息以及飞行器当前状态和终点状态的状态差有关,所以预测要根据大量经验数据分析这些特征与未来行为的相关性来建立预测模型。

定义观测的时间步长为T

Y=f

轨迹预测的目标是找到从集合O,O

由于基于深度学习的预测方法需依据大量数据训练网络,首先,需要建立一个飞行器状态特征的信息数据集,可以分为以下3步:

S10101:获取信息部分:依靠传感器,雷达等,获取随时间变化的飞行器的各个状态信息,由上述方法仿真获得的数据集为14维,其中包含飞行器的状态特征信息(地心距信息、经度信息、纬度信息、速度信息、航迹角信息、航向角信息、倾侧角信息),以及飞行器当前状态和终点状态的状态差信息(地心距信息差、经度信息差、纬度信息差、速度信息差、航迹角信息差、航向角信息差、倾侧角信息差)。

S10102:数据预处理:由于飞行器不同状态特征信息的数据样本之间存在数量级差异,在训练网络时会导致量级较大的数据样本占据主导地位,导致收敛速度较慢和准确度较低,所以需要数据预处理。本发明采用零均值标准化的预处理方法,其计算公式如下:

式中,d

S10103:构建训练样本构建方法:轨迹预测是一个有监督的学习问题,需要将轨迹数据分解为训练样本和标签。从数据集中第一个轨迹点开始,按时间顺序向下,选择前20个轨迹点的时间对应的飞行器状态信息来预测下一个轨迹点的状态信息,其中每一时间步的状态信息作为神经网络对应细胞的输入。然后,为了保证样本在时间上的连续性,选择分离间隔为1,即从第二个轨迹点开始,用同样的方法选择训练样本。

S102:通过输入数据获得环境和系统间的耦合信息,搭建LSTM网络进行状态预测,使用反向传播算法更新预测网络权值,得到系统的预测状态模型,实现每一时间步的系统状态轨迹的实时预测。

在得到数据集之后,本发明依据LSTM算法利用深度学习的机理学习映射关系,考虑飞行器状态信息的时序性,设计基于时间的反向传播算法,根据经验及离线实验确定网络训练过程中样本迭代次数、学习率等超参数,更新网络权值;最后,在实际在线预测过程中,采用训练好的飞行器状态预测网络,实现飞行器状态的实时在线预测,预测过程如图2-3所示。

首先,将包含飞行器状态和误差信息的数据输入到嵌入层提取误差信息,得到

在此,S102包括以下步骤:

S10201:嵌入层:将飞行器的状态误差信息

式中,

S10202:数据处理层:飞行器的历史状态信息p

式中,⊙表示矩阵的哈德曼积,W

S10203:LSTM层:利用LSTM网络根据观测的历史状态信息和融合信息q

式中,dp

可以看出,LSTM网络在t时刻的输入不仅包含输入数据x

S10204:训练网络:预测模型首先在样本数据构造完成后,对训练样本和预测样本进行归一化处理。再把训练样本输入到网络模型中训练网络,根据损失大小调整网络结构。最后利用测试样本测试网络性能,得出预测结果。

网络训练过程采用均方差函数作为损失函数,即:

式中,n表示每一次训练过程批量样本的个数,

最终各个状态的预测结果信息表示为(1)地心距信息r

S103:在飞行过程中,利用得到的预测模型不断对飞行终点进行预测,并根据预测落点与期望终点的偏差作为控制误差,输入给控制器来调整控制量。

S2:建立RLV再入段误差模型并转化约束控制问题;

S2中建立RLV再入段误差模型并转化约束控制问题包括以下步骤:

建立RLV再入段误差模型,设计出一种同时反应编队误差,控制量和避碰作用的性能指标函数,通过安全障碍函数将场景下的避碰问题转换为约束问题,从而实现将避碰控制问题转换为误差系统的最优稳定控制问题,保证系统的安全性。

在RLV再入段,假设飞行器为无动力飞行的质点,考虑地球为旋转椭球时,忽略再入过程中侧力以及地球自转的影响,并取侧滑角为零。则RLV再入段动力学系统为:

式中,r,θ,

若仅针对现有控制量进行处理,会引入高频抖振并对问题的收敛性产生影响,因此需要引入新的控制变量。引入新的辅助控制变量从而实现控制量从状态量中解耦,令新的控制量为:

则RLV再入段动力学模型可改写为:

式中,

B=[0,0,0,0,0,0,1]

定义S1最后LSTM预测模型给出的下一步轨迹预测状态量为

式中,e代表飞行器当前状态和目标的误差。

综合式,式和式,可得RLV再入段误差系统:

为了保证飞行器的安全稳定飞行,需要保证飞行器的状态和控制量满足约束条件,保证系统的安全性。基于此,本步将设计一个基于安全障碍函数的约束项,为后续性能指标函数中的约束需求提供基础。

为了保证飞行器的安全稳定飞行,RLV的状态需要严格满足一些约束条件:

1).定义控制算法中飞行器状态量x,满足起点状态条件x

2).受飞行器性能影响,在再入过程中,定义控制量u满足约束u

针对飞行器的状态约束条件,飞行器状态安全域和状态障碍函数可以设计为:

安全域D

D

障碍函数μ

式中,当某一时刻飞行器的状态量在安全域D

可以看出,μ

同理,针对飞行器的控制量约束条件,也开可以设计飞行器控制量的安全域和控制量障碍函数可以设计为:

安全域D

D

障碍函数μ

接下来,定义系统的性能指标函数J为:

J=∫

式中,瞬时性能指标U(e,u)定义为:

U(e,u)=e

式中,Q,R是正定的斜对称矩阵。

可以看出,性能指标函数由四部分组成:第一项e

则最优性能指标函数J

为了实现RLV再入段误差系统的平稳飞行和约束条件,控制的目标是找到一组能够最小化性能指标函数并且使系统状态限制在安全域D

S3:设计基于自适应动态规划的飞行器跟踪控制器;

S3中设计基于自适应动态规划的飞行器跟踪控制器包括以下步骤:

设计基于自适应动态规划的控制算法,构建评判网络去近似最优性能指标函数并求解最优控制策略,采用策略梯度法,对神经网络所有权值的范数进行更新,利用网络输出迭代,最终获得最优控制策略。

因为设计的性能指标函数连续可微时,可以得到如下的Lyapunov方程为:

式中

当性能指标函数为最优时,哈密顿方程将变成哈密顿-雅可比-贝尔曼方程,即

最优的性能指标函数J

为了处理哈密顿-雅可比-贝尔曼方程在实际应用过程中难以求解的问题,本发明利用单层评判神经网络逼近的原理来近似最优性能指标函数J

J

式中,W

式中,

式中,e

因此,近似哈密顿量可以如下所示:

定义

为了调整临界评判神经网络权重向量

式中,α

其近似值表示为:

基于以上三步,就完成了整个基于LSTM和自适应动态规划的空天往返飞行器闭环跟踪智能组合制导的过程。

本技术方案采用预测矫正框架,基于LSTM方法进行预测和自适应动态规划结合设计控制器,解决了传统动态规划控制算法的“维数灾”问题,通过学习对制导律不断迭代更新,最终在有限时域内确保选定的性能指标函数达到最优,得到最优反馈制导律,提高了控制器的自主性。

实施例2:

本实施例中为了验证本发明提出的算法有效性,将算法在MATLAB/Simulink中进行集成设计,并进行了仿真实验,主要仿真过程如下:

LSTM预测模型和网络训练参数设置:

轨迹预测模型的配置如图9所示。其中,嵌入层网络的输入是飞行器的地心距信息r,经度信息θ,纬度信息

实验先离线用大量轨迹数据对预测网络进行训练,再在实际在线预测过程中,用训练好的模型预测轨迹,这样,所提出的预测模型需要更短的预测时间,保障了预测的实时性。实验使用历史的20个时间步长信息来预测未来信息,即T

自适应动态规划跟踪控制器参数设置:

RLV基础参数设置如下所示:飞行器质量m=104.305kg;引力参数μ

神经网络激活函数为

其中,图4展示,飞行器各个状态的预测结果随时间步变化曲线,从图4可以看出,预测模型针对飞行器的高度,速度,维度,经度,航迹角,航向角和倾侧角均实现了精确的状态预测,因此所设计的基于LSTM状态预测模型可以实现飞行器状态的准确观测。

其中,图5显示了飞行器状态预测和真实状态之间的绝对百分比误差变化曲线,从图5可以看出,在不同状态下预测的模型误差均在6%以下,验证了预测模型的准确性。

其中,如图6所示,显示的是飞行器在高度,速度,维度,经度,航迹角,航向角和倾侧角的状态变化曲线,由图可知,状态跟踪基本在500s左右形成,然后保持稳定的给跟踪飞行,验证了设计的基于自适应动态规划的跟踪控制算法的有效性和稳定性。

其中,图7显示了飞行器在高度,速度,维度,经度,航迹角,航向角和倾侧角的状态误差的变化曲线,由图可知,在500s左右之后,飞行器的状态误差逐渐收敛到0,进一步验证了设计的基于自适应动态规划的跟踪控制算法的有效性。

其中,图8表示飞行器评判神经网络权值参数的变化过程,由图8可知,随着时间变化,在有限时间内,评价神经网络权值参数是稳定收敛的,逼近于相应的最优值。

以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。

相关技术
  • 熔化电极气体保护焊系统及其控制方法、控制器、介质
  • 熔化电极气体保护焊系统及其控制方法、控制器、介质
技术分类

06120116332677