掌桥专利:专业的专利平台
掌桥专利
首页

一种基于强化学习的失效航天器姿态调整方法

文献发布时间:2023-06-19 19:30:30


一种基于强化学习的失效航天器姿态调整方法

技术领域

本发明涉及控制系统的强化学习控制技术领域,特别涉及一种基于强化学习的失效航天器姿态快速调整方法。

背景技术

自1957年第1颗人造航天器升空以来,航天器应用与人类社会的发展愈加紧密,但随着进入外层空间物体数量的不断增加,空间碎片环境问题也越发突出。而失效航天器是近地轨道空间碎片的重要产生来源,航天器失效后将长期滞留太空占用轨道资源,并极有可能引发大量碎片产生,造成严重事故,甚至导致链式反应,给空间高价值航天器和正常的航天器活动带来极为不利的影响。因此,迫切需要发展能够实现失效航天器全自主高可靠快速机动控制技术。

而目前在研的离轨帆、电动力绳、太阳帆、电推进等形式,其推力级别均在毫牛级别,机动性能差,轨道脱离时间长,当航天器质量较大或轨道较高时,其离轨时间较长,无法满足失效航天器快速处理要求。而固体推进系统可以在短时间内产生极大的总冲量,实现快速点火机动,且易于进行自主性功能模块扩展,在姿态失稳条件下通过全自主系统的高可靠自主机动决策,摆脱对航天器平台姿控能力的依赖,可实现机动过程的全自主性,是航天器全自主高可靠快速机动系统的理想选择。

发明内容

本发明针对失效航天器在姿态运动演化前的快速姿态机动控制,提供一种基于强化学习的失效航天器姿态快速调整方法,克服了系统中存在的转动惯量等不确定性和外部扰动影响,确保系统高可靠快速进入末端姿态控制区域。

为了实现以上目的,本发明通过以下技术方案实现:

一种基于强化学习的失效航天器姿态快速调整方法,包括:步骤S1、基于航天器姿态末端约束,建立失效航天器姿态数学模型与约束模型。步骤S2、基于强化学习算法中的Long-term性能指标函数,建立评判标准和Critic网络。步骤S3、基于Backstepping控制框架结合Action网络和所述Critic网络,建立自适应控制方法,以控制失效航天器进入末端约束域。

可选地,所述步骤S1包括:所述失效航天器姿态数学模型为失效航天器姿态动力学与运动学模型,其计算公式如下:

其中,q=col(q

可选地,所述失效航天器的约束模型包括:

所述失效航天器末端约束根据所述失效航天器的推力器的安装布局和推力矢量,选择如下:

-q

其中,q

通过椭球约束域使得上述约束因素同时满足,所述椭球约束域s

可选地,所述步骤S2包括:基于Long-term性能指标函数如下:

其中,T>0为小的强化学习积分步长;γ∈(0,1)为折扣因子;如果控制系统状态进入吸引域中,则控制目标实现,Long-term性能指标函数J(t)不会增加;如果控制系统状态背离吸引域,则控制器应调节控制输出,使得控制系统状态朝着末端约束域、或者保持在约束域中;

因此,期望的性能指标J

其中,s

可选地,所述步骤S2还包括:构建Bellman误差方程,建立J(t-T)与J(t)之间的关系:

J(t-T)=γ

其中,

采用时间差分法,完成Critic网络的解算:

采用RBF神经网络进行估计,求解非线性的性能指标:

其中,H

根据Backstepping控制框架,定义z

其中,

则RBF神经网络自适应律为:

其中,

可选地,所述步骤S3包括:Action神经网络自适应律为:

其中,Λ

基于强化学习的预置末端状态约束条件下的高可靠调姿控制律为:

其中,

本发明至少具有以下优点之一:

本发明考虑航天器姿态末端约束,建立失效航天器姿态数学模型与约束模型,并基于强化学习算法中的Long-term性能指标函数,提出评判标准,设计Critic网络,可解决含非线性末端约束的航天器姿态机动控制问题。

本发明根据Backstepping控制框架,简化了控制器设计过程,并克服了系统中存在的转动惯量等不确定性和外部扰动影响,确保系统高可靠快速进入末端姿态控制区域,确保系统稳定,增强了控制的鲁棒性,具有潜在的应用前景。

附图说明

图1为本发明提供的一种基于强化学习的失效航天器姿态调整方法的流程图。

具体实施方式

以下结合附图和具体实施方式对本发明提出的一种一种基于强化学习的失效航天器姿态调整方法作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂,请参阅附图。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。

本实施例考虑在失效航天器自演化阶段三轴角速度均较大的情况下,进行有限次大控制力矩快速姿态调整,通过预置姿态末端状态,并考虑失效航天器转动惯量等建模不确定性和外界干扰,设计一种基于强化学习的机动控制策略,旨在提出一种基于学习迭代智能算法。进一步可基于整型线性规划等控制分配寻优算法,实现失效航天器高可靠快速进入末端姿态控制区域,之后可通过推力器点火离轨。即本实施例提供一种基于强化学习的失效航天器姿态快速调整方法,克服了系统中存在的转动惯量等不确定性和外部扰动影响,确保系统高可靠快速进入末端姿态控制区域。

如图1所示,本实施例提供一种基于强化学习的失效航天器姿态快速调整方法,包含以下步骤:

步骤S1、考虑航天器姿态末端约束,建立失效航天器姿态数学模型与约束模型;

根据假设条件及动力学原理,建立失效航天器姿态动力学与运动学模型为式(1):

其中,q=col(q

对于任意向量χ=[χ

预置末端约束根据推力器的安装布局和推力矢量,选择如下:

-q

其中,q

为了便于后文描述,定义

步骤S2、基于强化学习算法中的Long-term性能指标函数,提出评判标准,设计Critic网络;

基于Long-term性能指标函数,设计如下的目标函数:

其中,T>0为小的强化学习积分步长。γ∈(0,1)为折扣因子。如果系统状态进入吸引域中,则控制目标实现,Long-term性能指标函数J(t)不会增加。如果系统状态背离吸引域,则控制器应调节控制输出,使得系统状态朝着末端约束域、或者保持在约束域中。

因此,期望的性能指标J

p(s(ξ))设计如下:

其中,s

构建Bellman误差方程,建立J(t-T)与J(t)之间的关系:

J(t-T)=γ

其中,

为了方便求解非线性的性能指标J(t),采用RBF神经网络进行估计

经推导,神经网络自适应律设计为

其中,

S3、基于Backstepping控制框架结合Action网络,设计自适应控制方法,最终实现失效航天器进入末端约束域。

首先,根据Backstepping控制框架,引入如下的坐标变换z

其中,

进一步考虑:

目标使z

定义线性乘子L(a):R

航天器的转动惯量矩阵J为:

令α=[J

Ja=L(a)α(14)

定义

进一步设计Action神经网络自适应律估计干扰与建模误差等不确定性T

其中,H

经推导,Action神经网络自适应律设计为

其中,Λ

最后,基于强化学习的基于强化学习的预置末端状态约束条件下的高可靠调姿控制律可设计为

其中,

本实施例主要解决在存在姿态末端约束、转动惯量不确定性和外部扰动影响下的失效航天器姿态快速姿态机动控制问题,可用于航天器姿态机动控制系统。

本实施例针对失效航天器在姿态运动演化前的快速姿态机动控制,设计基于强化学习的预置末端状态约束条件下的高可靠调姿策略,通过预置姿态末端状态,并考虑失效航天器转动惯量等建模不确定性和外界干扰,设计一种基于强化学习的航天器姿态机动控制方法,从而实现失效航天器在姿态运动演化前的快速姿态调整,进入预定点火机动指向。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应当注意的是,在本文的实施方式中所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施方式仅仅是示意性的,例如,附图中的流程图和框图显示了根据本文的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用于执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本文各个实施方式中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

技术分类

06120115930683