掌桥专利:专业的专利平台
掌桥专利
首页

一种回合制轨道追逃博弈的智能控制方法

文献发布时间:2024-04-18 19:57:11


一种回合制轨道追逃博弈的智能控制方法

技术领域

本发明属于航空航天领域,涉及一种回合制轨道追逃博弈的智能控制方法。

背景技术

空间轨道追逃博弈问题的研究起源于非合作目标交会问题的延伸,当非合作目标具备决策、机动能力时,非合作目标交会问题就发展成为了轨道追逃博弈问题。逃方作为非合作目标同样具备典型的非合作性:信息层面不沟通、机动行为不配合、先验知识不完备等特性。在实际航天工程中,对非合作目标进行测定轨是需要一段时间的,而在航天器轨道追逃博弈这种对抗场景中更是如此,当一方航天器机动后,另一方需要花费一段时间才能重新完成对对手的测定轨,获得对方的状态信息。因此双方航天器的行动会有先后顺序,且后者可以观察到先者的行动并据此做出相应决策,呈现回合制特点,即行动有先后、信息有差异、测控有延时,该博弈属于动态追逃博弈类型。

而现有的研究多集中在基于传统微分博弈理论的连续同时轨道博弈模型,近些年随着人工智能技术的发展,有一些研究者开始尝试利用深度强化学习解决脉冲式轨道同时博弈问题。但是目前针对回合制轨道追逃博弈问题的研究仍为空白,缺少针对性的建模和博弈策略设计方法。

发明内容

本发明的目的在于解决现有技术中的问题,提供一种回合制轨道追逃博弈的智能控制方法,解决回合制轨道追逃博弈问题。

为达到上述目的,本发明采用以下技术方案予以实现:

一种回合制轨道追逃博弈的智能控制方法,包括:

对回合制轨道追逃博弈过程进行分析,建立回合制轨道追逃博弈问题模型;

基于回合制轨道追逃博弈问题模型,针对回合制轨道追逃博弈建立对应的回合制马尔科夫决策过程,设计回合制轨道追逃博弈中双方的奖励函数;

根据双方的奖励函数,利用MADDPG对回合制轨道追逃博弈智能控制的策略网络进行训练;

追逃双方航天器利用训练好的策略网络,根据自身对环境的观测信息输出控制指令,实现回合制轨道追逃博弈的智能控制。

进一步的,所述回合制轨道追逃博弈过程的分析包括:

博弈参与者包括追逃双方航天器,定义为{P,E},其中P表示追击航天器,E表示逃跑航天器;

在回合制轨道追逃博弈中,双方均采用脉冲式轨道机动模型,航天器的控制模型如下:

其中,φ(t,t

φ(t,t

在追逃博弈的开始阶段,追击航天器首先进行决策控制,该决策时刻为

进一步的,所述回合制轨道追逃博弈问题模型的建立过程为:

航天器机动能力的约束

其中,

航天器的燃料储备约束表示为:

其中,

任务时间t满足

t≤t

max

其中,任务时间上限t

在回合制轨道追逃博弈中双方航天器能够得到的信息是非完备的,只有经过反应时间后才能够得到对方的状态信息,则非完备信息的约束表征如下:

其中,

航天器追逃博弈中双方的目标用以下公式描述:

其中,T

Para表示与博弈结果相关的约束条件参数:

其中,

因此,回合制轨道追逃博弈问题模型为:

进一步的,所述回合制马尔科夫决策过程的建立方法为:

回合制马尔可夫决策过程用下式的高纬度元组表示:

其中,S是MDP中博弈状态的集合,称为状态空间,

进一步的,所述奖励函数为:

其中,

进一步的,所述追逃双方航天器在t时刻的距离引导项为:

其中,ΔL(t)表示任意t时刻追击航天器与逃跑航天器间的相对距离,ΔL=||r

进一步的,所述追逃双方航天器在t时刻的时间奖励项为:

其中,ρ为一个正常数,代表时间奖励值,对于追击航天器而言,只要追击任务没有结束都会获得一个固定的负奖励回报-ρ,而对于逃方则相反会获得一个正奖励回报。

进一步的,所述追逃双方航天器在t时刻的结果奖励项为:

其中,

进一步的,所述策略网络的训练过程为:

初始化追逃双方航天器的策略网络Actor和评价网络Critic网络的参数与航天器的初始状态空间;

基于追逃双方航天器的策略网络Actor和评价网络Critic网络的参数与航天器的初始状态空间,双方航天器按照所设计的回合制马尔科夫决策过程,根据自身的观测信息采取动作,与环境模型交互,获得奖励、动作及下一时刻状态空间的训练数据,存入回放经验池;

利用回放经验池中的训练数据,按照MADDPG的方法更新策略网络Actor和评价网络Critic的参数,当回报奖励长期维持在一定范围内不再上升时,停止更新,训练完成。

进一步的,所述回合制轨道追逃博弈的智能控制方法为:

通过训练得到追逃双方航天器各自的策略网络Actor,航天器以自身对环境的观测信息作为策略网络Actor的输入,输出为航天器当前回合所要采取的控制指令,从而实现航天器回合制轨道追逃博弈的智能控制。

与现有技术相比,本发明具有以下有益效果:

本发明提供一种回合制轨道追逃博弈的智能控制方法,结合博弈论和航天器轨道动力学提出一种回合制轨道追逃博弈建模方法,并结合多智能体深度强化学习理论提出一种回合制轨道追逃博弈智能策略训练方法,弥补该部分研究空白的同时,使得轨道追逃博弈模型更加符合工程实际,并提升策略的智能性。本发明充分考虑了轨道动力学约束、非完备信息约束以及航天器轨道机动特点,更加符合实际空间场景,在回合制轨道追逃博弈建模及策略设计方面具有重要价值。

附图说明

为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明的回合制轨道追逃博弈的智能控制方法流程图。

图2为本发明的空间回合制轨道追逃博弈过程示意图。

图3为本发明的回合制轨道追逃博弈的MDP过程图。

图4为本发明的追击航天器的奖励随训练次数变化图。

图5为本发明的逃跑航天器的奖励随训练次数变化图。

图6为本发明的追击成功率随初始距离和机动能力的变化图。

图7为本发明的追击与逃跑航天器在LVLH坐标系中的轨迹图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

下面结合附图对本发明做进一步详细描述:

参见图1,本发明提供一种回合制轨道追逃博弈的智能控制方法,包括以下步骤:

S1,对回合制轨道追逃博弈过程进行分析,建立回合制轨道追逃博弈问题模型。

S1.1,航天器回合制轨道追逃博弈过程分析:

在实际航天工程中,对非合作目标进行测定轨是需要一段时间的,因此在航天器轨道追逃博弈中也一样,当对方航天器进行机动后,己方是需要花费一段时间才能重新完成对对手的测定轨,获得对方的状态信息,因此定义这段重新测定轨所需的时间为反应时间。在回合制轨道追逃博弈场景中,博弈参与者包含了追逃双方航天器,定义为{P,E},P代表追击航天器,E代表逃跑航天器。

在回合制轨道追逃博弈中,双方均采用脉冲式轨道机动模型,航天器的控制模型如下:

其中,φ(t,t

φ(t,t

如图2所示,在追逃博弈的开始阶段,追击航天器首先进行决策控制,定义该决策时刻为

S1.2,回合制轨道追逃博弈问题建模:

除了多阶段机动方式约束之外,实际工程任务还需要考虑航天器机动能力的约束,即航天器单次脉冲控制获得的速度增量存在上限约束,定义追逃双方的单次速度增量上限分别为

此外在实际航天任务中,航天器的燃料储备也是有限制的,因此在本发明中以航天器可以获得的总速度增量对航天器的燃料储备进行表征,则用

此外轨道追逃博弈的任务时间也是有限的,即存在任务时间上限t

t≤t

max

由于回合制轨道追逃博弈中双方航天器均需要反应时间,因此不同于传统的同时决策博弈问题,在回合制轨道追逃博弈中双方航天器能够得到的信息是非完备的,只有经过反应时间后才能够得到对方的状态信息,则非完备信息的约束表征如下:

式中

在回合制轨道追逃博弈中,追击航天器的目标是以最短时间追上目标,而逃逸航天器的目标是尽可能的远离追击航天器,避免被捕获或者最大化自身的生存时间,因此航天器追逃博弈中双方的目标可以用以下公式描述:

式中T

综上所述

S2,基于回合制轨道追逃博弈问题模型,针对回合制轨道追逃博弈建立对应的回合制马尔科夫决策过程。

如图3所示,在

回合制马尔可夫决策过程(Turn Based Markov Decision Process,TBMDP)是针对回合制轨道追逃博弈问题建立的数学模型,可以用下式的高纬度元组表示:

其中S是MDP中博弈状态的集合,称为状态空间,

S3,根据回合制马尔科夫决策过程,设计回合制轨道追逃博弈中双方的奖励函数。

基于双方航天器的可观测信息,结合引导奖励与结果奖励两种奖励类型设计回合制轨道追逃博弈中双方航天器的奖励回报函数。首先设计引导奖励函数,主要包含以下几个部分:

距离引导项r

式中α

时间奖励项r

式中ρ为一个正常数,代表时间奖励值。对于追击航天器而言,只要追击任务没有结束都会获得一个固定的负奖励回报-ρ,而对于逃方则相反会获得一个正奖励回报。

结果奖励项r

式中

综合上述的回报奖励类型,航天器在t时刻的即时奖励就是这三项奖励之和,公式如下:

S4,根据双方的奖励函数,利用MADDPG对回合制轨道追逃博弈智能控制的策略网络进行训练。

S4.1,初始化追逃双方航天器的策略网络Actor与评价网咯Critic网络的参数与航天器的初始状态空间;

S4.2,基于追逃双方航天器的策略网络Actor和评价网络Critic网络的参数与航天器的初始状态空间,双方航天器按照所设计的回合制马尔科夫决策过程,根据自身的观测信息采取动作,与环境模型交互,获得奖励、动作、下一时刻状态空间的训练数据,存入回放经验池;

S4.3,利用回放经验池中的训练数据,按照MADDPG的方法更新策略网络Actor和评价网络Critic的参数;

S4.4,当回报奖励长期维持在一定范围内不再上升时,停止更新,训练完成。

S5,追逃双方航天器利用训练好的策略网络,根据自身对环境的观测信息输出控制指令,实现回合制轨道追逃博弈的智能控制。

通过上述训练得到追逃双方航天器各自的策略网络Actor,航天器以自身对环境的观测信息作为策略网络Actor的输入,输出为航天器当前回合所要采取的控制指令,从而实现航天器脉冲式轨道追逃博弈的智能控制。

实施例1:

为了说明本发明的有效性,以发生在GEO轨道面内的回合制轨道追逃博弈场景为例进行验证。脉冲式追逃博弈场景参数设置如下表所示:

表1脉冲式2v1追拦逃博弈场景参数表

/>

追击航天器和逃跑方航天器的奖励函数设计如下:

表2脉冲式2v1追拦逃博弈场景参数表

实验采用的仿真环境全部基于Python语言编写,利用Spyder5.05和Anaconda3平台,深度学习环境采用Tensorflow1.8.0和gym0.10.5。航天器通过观察环境状态,根据设定的控制策略得到控制量,再利用环境的反馈调整控制策略,形成一个闭环训练过程。

通过训练每个航天器可以得到一组Actor网络参数,可以根据自身对环境的观测进行控制,接下来针对回合制轨道追逃博弈任务训练结果进行展示。首先是训练过程,如图4和图5所示,随着TB-MADDPG算法训练次数的增加,追击航天器得奖励值上升至360左右并保持稳定,而逃跑航天器的奖励降低至-70左右并趋于稳定,结合图6中追击成功率随训练次数变化图可以看出,TB-MADDPG算法经过训练后可以将追击成功率稳定在95%左右,说明了所提算法的有效性和稳定性。

在TB-MADDPG算法训练完成后可以得到一组博弈策略网络,各航天器通过自身的策略网络执行控制,为了验证策略网络的有效性,选取追击方初始位置坐标为[-2100,-9800]m,逃跑方初始位置为[-15600,12000],双方采用训练得到的策略网络开展回合制轨道追逃博弈,追方作为主动方首先进行决策机动,追逃博弈效果如图7所示,追逃双方航天器能够根据自身所处的位置以及对方航天器所处位置进行决策,双方航天器进行交替决策,即单数为追击航天器的决策点,双数为逃跑航天器的决策点,最终由于追击航天器的机动能力更强,能够顺利完成追击任务,验证了训练得到的策略网络的有效性。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种轨道交通车辆客室通风智能控制系统及方法
  • 一种脉冲式轨道追逃拦协同博弈智能决策控制方法
  • 一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法
技术分类

06120116454568