一种脉冲式轨道追逃拦协同博弈智能决策控制方法
文献发布时间:2024-04-18 19:57:31
技术领域
本发明属于航空航天技术领域,涉及一种脉冲式轨道追逃拦协同博弈智能决策控制方法。
背景技术
2017年,OpenAI提出的多智能体深度确定性策略梯度(MADDPG,Multi-agent deepdeterministic policy gradient)算法,该算法可以解决多智能体间的竞争、协同以及协同博弈场景,近几年MADDPG算法已经在多无人机的协同任务决策、路径规划、协同围捕等任务中有所应用。但是目前在航天器轨道追逃拦协同博弈问题中的应用仍为空白。现有的研究多集中在基于传统微分博弈理论的问题构建和最优博弈控制策略求解方法上,具有以下局限性:①博弈场景的单一化;②博弈约束的简单化;③博弈决策的低智化;④博弈策略的低适化。因而,如何解决多个体、多类型、多约束复杂轨道追逃博弈的建模与求解问题仍然是一个重大的技术挑战。
发明内容
本发明的目的在于解决现有技术中的问题,提供一种脉冲式轨道追逃拦协同博弈智能决策控制方法,解决多个体、多类型、多约束复杂轨道追逃博弈的建模与求解问题。
为达到上述目的,本发明采用以下技术方案予以实现:
一种脉冲式轨道追逃拦协同博弈智能决策控制方法,包括:
建立空间轨道追逃拦博弈策略智能学习系统框架;
基于空间轨道追逃拦博弈策略智能学习系统框架,构造空间脉冲式轨道追逃拦协同博弈训练环境,设计空间脉冲式轨道追逃拦协同博弈的奖励函数;
根据空间脉冲式轨道追逃拦协同博弈的奖励函数,设计基于预测-奖励-检测的训练机制对脉冲式轨道追逃拦协同博弈的控制网络进行训练;
基于训练得到的脉冲式轨道追逃拦协同博弈的控制网络,进行博弈制胜决策。
进一步的,所述空间轨道追逃拦博弈策略智能学习系统框架包括环境层、策略层、算法层和计算层;
所述环境层用于构造空间轨道追逃拦博弈策略训练所需的虚拟环境;
所述策略层用于完成对双方航天器博弈任务目标及博弈策略的数学表征,通过对双方航天器博弈目标的分析,结合引导奖励和结果奖励分别针对逃跑方航天器和追击方航天器设计对应的奖惩函数;
所述算法层用于结合空间轨道博弈的任务场景,基于多智能体确定性策略梯度算法和预测-奖励检测训练构造适用于空间轨道追逃拦博弈的智能博弈策略训练算法,在奖惩函数的引导下,通过不断与虚拟环境交互完成对博弈策略的训练优化,最终将训练收敛的网络参数固定、保存和输出;
所述计算层用于提供强大的算力为多智能体深度强化学习训练优化轨道博弈策略提供硬件基础,同时也是虚拟环境计算运行的基础,共同组成空间轨道的虚拟环境引擎。
进一步的,所述环境层包括航天器建模、运动学建模和代码实现;
所述航天器建模包括航天器动作空间分析建模和状态空间分析建模;
所述运动学建模包括空间轨道追逃拦博弈的相对运动模型和脉冲机动模型;
所述代码实现的工具包括Python、Gym和Tensorflow。
进一步的,所述空间脉冲式轨道追逃拦协同博弈训练环境构造过程包括空间脉冲式轨道追逃拦博弈参与航天器建模、空间脉冲式轨道追逃拦博弈运动学建模和脉冲式轨道追逃拦博弈场景建模。
进一步的,所述空间脉冲式轨道追逃拦博弈参与航天器建模过程为:
首先建立参与航天器的状态空间建模,记博弈参与者集合为N={P
然后对参与航天器的动作空间进行建模,记追、拦、逃航天器在t时刻施加脉冲控制获得的速度增量分别为
逃跑方航天器在x和y方向上的单个脉冲速度增量满足以下方程:
其中,
追、拦、逃航天器燃料储备的约束条件表示如下:
其中,
进一步的,所述空间脉冲式轨道追逃拦博弈运动学建模为在C-W方程下建立航天器脉冲式机动的控制模型如下所示:
其中,φ(t,t
φ(t,t
进一步的,所述脉冲式轨道追逃拦博弈场景建模过程为:
航天器2V1追逃博弈中双方的目标可以用以下公式描述:
其中,T
当任意一个追击方航天器与逃跑方航天器的距离首次满足下式关系则认定追方任务成功:
其中,
t≤t
进一步的,所述空间脉冲式轨道追逃拦协同博弈的奖励函数为:
其中,r
所述距离引导项r
其中,
所述时间奖励项r
其中,ρ为一个正常数,表示时间奖励值;
所述结果奖励项r
其中,
进一步的,所述预测-奖励-检测的训练机制为:
首先在t
双方进入轨道转移状态,每隔ΔT
根据预测状态
根据以下公式计算追、拦、逃航天器的累计预测奖励
根据预测状态
进一步的,所述脉冲式轨道追逃拦协同博弈的控制网络训练过程为:
初始化追逃拦三个航天器的策略网络Actor和评价网络Critic网络的参数与航天器的状态空间;
基于追逃拦三个航天器的策略网络Actor和评价网络Critic网络的参数与航天器的状态空间,三个航天器按照所设计的预测-奖励-检测训练框架,根据自身的观测信息采取动作,与环境模型交互,获得奖励、动作、下一时刻状态空间的训练数据,存入回放经验池;
利用回放经验池中的训练数据,按照MADDPG的方法更新策略网络Actor和评价网络Critic的参数,当回报奖励长期维持在一定范围内不再上升时,停止更新,训练完成。
与现有技术相比,本发明具有以下有益效果:
本发明提供一种脉冲式轨道追逃拦协同博弈智能决策控制方法,充分结合轨道动力学约束及航天器固有运动特点,利用多智能体深度强化学习技术和轨道动力学理论,对训练所得策略进行测试实验分析了博弈制胜机理。本发明提高了轨道追逃拦博弈决策控制方法的智能性、适用性,实现轨道博弈的智能化,更加符合实际空间场景,此外分析出初始距离和机动能力对博弈结果的影响关系,在航天器空间轨道追逃拦协同博弈方面具有重要价值。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的脉冲式轨道追逃拦协同博弈智能决策控制方法流程图。
图2为本发明的空间轨道追逃拦博弈策略智能学习系统框架示意图。
图3为本发明的预测-奖励-检测训练机制示意图。
图4为本发明的两个追击航天器的奖励随训练次数变化图。
图5为本发明的逃跑航天器的奖励随训练次数变化图。
图6为本发明的追击与逃跑航天器在LVLH坐标系中的轨迹图。
图7为本发明的追击成功率随初始距离和机动能力的变化图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明提供一种脉冲式轨道追逃拦协同博弈智能决策控制方法,包括以下步骤:
S1,建立空间轨道追逃拦博弈策略智能学习系统框架。
如图2所示,空间轨道博弈智能学习系统框架包括环境层、策略层、算法层和计算层:
环境层主要负责构造空间轨道追逃拦博弈策略训练所需的虚拟环境,该部分主要包括航天器建模、运动学建模以及代码实现。其中航天器建模由航天器动作空间分析建模和状态空间分析建模组成;而运动学建模主要由空间轨道追逃拦博弈的相对运动模型和脉冲机动模型组成,为构造虚拟环境引擎提供动力学模型;接着通过借助Python、Gym、Tensorflow等工具构造成空间脉冲式轨道追逃拦博弈的虚拟环境,为算法训练奠定基础。
策略层是负责完成对双方航天器博弈任务目标及博弈策略的数学表征,通过对双方航天器博弈目标的分析,然后结合引导奖励和结果奖励分别针对逃跑方航天器和追击方航天器设计对应的奖惩函数。
算法层主要负责结合空间轨道博弈的任务场景,基于多智能体确定性策略梯度算法(MADDPG)和预测-奖励检测训练构造适用于空间轨道追逃拦博弈的智能博弈策略训练算法,在之前设计的奖惩函数的引导下,通过不断与虚拟环境交互完成对博弈策略的训练优化,最终将训练收敛的网络参数固定、保存、输出。
计算层主要为搭载的高性能CPU、GPU服务器的高性能计算机,通过提供强大的算力为多智能体深度强化学习训练优化轨道博弈策略提供硬件基础,同时也是虚拟环境计算运行的基础,共同组成的空间轨道的虚拟环境引擎。
S2,基于空间轨道追逃拦博弈策略智能学习系统框架,构造空间脉冲式轨道追逃拦协同博弈训练环境。
S2.1,空间脉冲式轨道追逃拦博弈参与航天器建模:
针对轨道平面内的空间脉冲式轨道追逃拦博弈,首先建立参与航天器的状态空间建模,记博弈参与者集合为N={P
然后对参与航天器的动作空间进行建模,记追、拦、逃航天器在t时刻施加脉冲控制获得的速度增量分别为
类似地,逃跑方航天器在x和y方向上的单个脉冲速度增量满足以下方程:
其中,t
此外考虑到实际任务中的燃料储备约束,以每个航天器可以获得的总速度增量进行对航天器的燃料储备进行表征即
S2.2,空间脉冲式轨道追逃拦博弈运动学建模:
在空间脉冲式轨道追逃拦博弈任务场景中,航天器间的相对距离相对于轨道半径而言通常比较近,因此满足相对运动学C-W方程的适用条件,可以选择参与博弈的航天器附近的圆轨道作为参考轨道,在C-W方程下建立航天器脉冲式轨道追逃拦博弈的机动模型。由于与轨道转移时间相比脉冲式机动施加控制的时间很短,因此假设脉冲控制是在机动点瞬时获得一个速度增量,在脉冲机动点之间的运动过程为航天器的自然轨道漂移,可以建立航天器脉冲式机动的控制模型如下:
其中,φ(t,t
φ(t,t
S2.3,脉冲式轨道追逃拦博弈场景建模:
在航天器追拦逃博弈中,两个追击方航天器的目标是以最短时间追上目标,而逃跑方航天器的目标是尽可能的远离两个追击方航天器,避免被捕获或者最大化自身的生存时间,因此航天器2V1追逃博弈中双方的目标可以用以下公式描述:
其中,T
当任意一个追击方航天器与逃跑方航天器的距离首次满足下式关系则认定追击方任务成功:
其中,
t≤t
S3,设计空间脉冲式轨道追逃拦协同博弈的奖励函数。
结合引导奖励与结果奖励两种奖励类型设计空间脉冲式轨道追逃拦博弈中各航天器的奖励回报函数。首先设计引导奖励函数,主要包含以下几个部分:
距离引导项r
两个追击方航天器的目标是缩短相对距离,而逃跑方航天器与之相反,因此设计追逃双方的距离引导奖励如下:
其中,
时间奖励项r
其中,ρ为一个正常数,代表时间奖励值。对于追击方的两个航天器而言,只要任务没有结束,每个航天器都会获得一个固定的负奖励-ρ作为惩罚,而对于逃跑方则相反,会获得一个正奖励。
而结果奖励属于稀疏奖励类型,即只有在特定条件下才会触发得到对应的奖励值,脉冲式轨道追逃拦博弈的结果奖励项设计为:
结果奖励项r
其中,
综合上述的回报奖励类型,航天器在t时刻的即时奖励就是这三项奖励之和,公式如下:
S4,根据空间脉冲式轨道追逃拦协同博弈的奖励函数,设计基于预测-奖励-检测的训练机制对脉冲式轨道追逃拦协同博弈的控制网络进行训练。
S4.1,预测-奖励-检测训练机制设计:
通过利用轨道动力学分析可知脉冲式轨道机动具有可预测的运动特性,因此为了将脉冲机动间隔中的博弈信息引入到马尔科夫决策过程中,设计预测-奖励-检测训练框架。定义脉冲控制施加的时刻t
如图3所示,第i次脉冲控制到第i+1次脉冲该训练框架的流程:
第一步:首先在t
第二步:接下来双方进入轨道转移状态,每隔ΔT
第三步:根据预测状态
第四步:根据以下公式计算追、拦、逃航天器的累计预测奖励
第五步:根据预测状态
S4.2,脉冲式轨道追逃拦博弈智能控制策略网络训练:
初始化追逃拦三个航天器的策略网络Actor和评价网络Critic网络的参数与航天器的状态空间;
基于追逃拦三个航天器的策略网络Actor和评价网络Critic网络的参数与航天器的状态空间,三个航天器按照所设计的预测-奖励-检测训练框架,根据自身的观测信息采取动作,与环境模型交互,获得奖励、动作、下一时刻状态空间的训练数据,存入回放经验池;
利用回放经验池中的训练数据,按照MADDPG的方法更新策略网络Actor和评价网络Critic的参数,当回报奖励长期维持在一定范围内不再上升时,停止更新,训练完成。
S5,基于训练得到的脉冲式轨道追逃拦协同博弈的控制网络,进行博弈制胜决策。
在训练得到控制网络后,针对不同初始距离和机动能力的条件进行测试实验,并进一步分析成功率随初始距离和机动能力的变换情况。为了分析初始距离和机动能力对追击成功率的影响,对分析测试仿真实验设置作以下说明:
(1)分析测试实验过程中假设逃跑目标的机动能力为1.0m/s,并且保持不变,进而方便分析追击方机动能力对追击成功率的影响,假设追击方两航天器的机动能力相同,分别选择为1.0、1.5、2.0、2.5、3.0进行实验。
(2)分析测试实验过程并不会重新针对不同博弈条件重新训练网络,而是对已经训练好的网络进行不同条件的测试。
(3)为了分析不同初始距离对追击成功率的影响,在分析测试实验中假设逃跑航天器初始位置为坐标系原点,追方两航天器位于距原点半径为r
(4)每一组初始距离和机动能力下的成功率都是经过1000次蒙特卡洛打靶试验后统计得到的成功率,然后分析追击成功率随初始距离和机动能力变化情况。
实施例1:
本发明实施例1为发生在GEO轨道面内的2V1脉冲式追逃拦协同博弈场景,训练中用到的算法参数及其物理意义如表1所示:
表1脉冲式2V1协同智能博弈控制算法仿真实验超参数表
实验采用的仿真环境全部基于Python语言编写,利用Spyder5.05和Anaconda3平台,深度学习环境采用Tensorflow1.8.0和gym0.10.5,计算机配置为CPU Inter i7-9700F@3.00GHz,内存32GB。航天器通过观察环境状态,根据设定的控制策略得到控制量,再利用环境的反馈调整控制策略,形成一个闭环训练过程。
脉冲式2v1追拦逃博弈场景参数设置如表2所示:
表2脉冲式2v1追拦逃博弈场景参数表
参与博弈的三个航天器的奖励函数设计如表3所示:
表3脉冲式2v1追拦逃博弈场景参数表
通过训练每个航天器可以得到一组Actor网络参数,可以根据自身对环境的观测进行控制,接下来针对脉冲式2V1协同追逃博弈任务训练完成后的结果进行展示。
首先是训练过程,如图4和图5所示,随着算法训练次数的增加,追击航天器所获得的奖励值持续上升,最终趋于稳定,而逃跑航天器的奖励不断下降直至趋于稳定。
如图6所示,在设计奖励函数时并没有针对协同行为设计特有的策略,但是经过训练,通过对结果分析可以发现追击方的两个航天器涌现出“分工合作,一追一拦”的协同追击策略,两个追击方航天器会对逃跑方航天器进行“包夹”,且两个追击方航天器中一个会负责拦截封锁逃跑方航天器,另一个会从另一个方向逐渐靠近逃跑方航天器。
在训练得到控制网络后,针对不同初始距离和机动能力的条件进行测试实验,并进一步绘制出成功率随初始距离和机动能力的变换情况。如表4所示,给出的是经过1000×60次测试实验后得到的不同初始距离和机动能力下的追击成功率数据,图7是追击成功率随初始距离和机动能力的变化图,从图中可以看出,随着追击航天器机动能力的增强,追击任务成功率也不断增加,而随着初始距离的增大,追击航天器完成追击任务的成功率也会下降,仿真结果符合理论推理,证明了训练所得策略网络的有效性和适用性,也说明了任务成功率与机动能力和初始距离的关系。
表4不同初始距离和追击方机动能力下的追击成功率
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
- 一种新型分布式智能化电子脉冲拦鱼装置
- 一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法
- 一种多对一的智能协同追逃博弈方法及系统