掌桥专利:专业的专利平台
掌桥专利
首页

一种基于DQN与微分博弈的轨道追逃博弈策略方法

文献发布时间:2024-04-18 20:02:18


一种基于DQN与微分博弈的轨道追逃博弈策略方法

技术领域

本发明涉及航空航天技术领域,具体涉及一种基于DQN与微分博弈的轨道追逃博弈策略方法。

背景技术

随着航天技术的不断发展,航天器数量持续增加,任务能力迅速提升,空间环境也日趋复杂。由于航天技术提升飞速,空间作战体系初步构建,我国空间安全面临巨大威胁。因此,我方航天器需要具备相应的空间博弈对抗能力,以确保更好地完成任务。

在空间轨道博弈问题中,追逃问题是一个经典且应用广泛的问题,涉及的博弈模型也颇具代表性。对于这一问题的解决,目前主要有两类方法,一是以微分博弈理论为代表的传统方法,二是以深度强化学习为代表的人工智能方法。这两类方法各有其优缺点。传统方法,如微分博弈等,具有解决过程清晰、理论性强的优势,但其解决结果的适用范围有限,导致追击者的运行范围有限。而基于深度强化学习(DQN)等算法的方法,则具有较好的泛化能力,但在训练过程中奖励函数难以收敛,导致追击者的无法快速、准确的逮捕逃逸者。

发明内容

针对现有技术中存在的追击者的运行范围有限及导致追击者的无法快速、准确的逮捕逃逸者的问题,本发明提供了一种基于DQN与微分博弈的轨道追逃博弈策略方法,在增大追击者运行范围的同时,还能够使追击者的快速、准确的拦截追击者。

为达到上述目的,本发明采用了以下技术方案:

一种基于DQN与微分博弈的轨道追逃博弈策略方法,包括:

根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;

追击者通过DQN模型在博弈对抗动作集挑选得到,逃逸者在博弈对抗动作集随机选择;

通过航天器轨道动力学模型对所获取的追击者及逃逸者进行轨道推演;

根据轨道推演结果对DQN模型进行调整,直至DQN模型训练损失收敛至平稳,生成轨道追逃博弈策略。

作为本发明的进一步改进,所述根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,具体方式如下:

确定控制律样式库中控制律的数量为N,取微分博弈代价函数为

其中,j=1,2,3…N;Qj,Rjp,Rje为权值矩阵;x(t)为t时刻的状态差值向量;

构建黎卡提微分方程组:

求解该方程组得P

得到控制输出为u

取j=1,2,3…N,可得追击者控制律样式库KS

逃逸者控制律样式库KS

作为本发明的进一步改进,所述博弈对抗动作集包括追击者控制律样式库及逃逸者控制律样式库。

作为本发明的进一步改进,所述航天器轨道动力学模型的具体方式如下:

其中,i取p或者e,当i取p时代表博弈中的追击者,当i取e时代表逃逸者;u

作为本发明的进一步改进,所述通过航天器轨道动力学模型对所获取的追击者及逃逸者进行轨道推演,轨道推演结束通过博弈结束条件控制,其中,博弈结束条件具体方式如下:

其中,d为逃逸者与追击者之间的相对距离;博弈结束结束标志位done,当done=True时,表明博弈结束,输出轨道演练结果;当done=False时,表明博弈进行中,继续进行轨道演练。

作为本发明的进一步改进,所述逃逸者与追击者之间的相对距离的具体方式如下:

其中,逃逸者的相对位置为x

作为本发明的进一步改进,所述根据轨道推演结果对DQN模型进行调整,需要根据轨道推演结果计算出逃逸者与追击者之间的奖励数据,对励数据进行整合生成样本数据,根据样本数据对DQN模型进行调整。

作为本发明的进一步改进,所述逃逸者与追击者之间的奖励数据包括距离奖励及距离数据奖励;

距离奖励具体如下表示:

距离速率奖励具体如下表示:

其中,reward_of_dis为距离奖励;reward_of_rate为距离速率奖励;d为追击者与博弈者之间的相对距离,d&为相对距离变化速率。

作为本发明的进一步改进,所述逃逸者与追击者之间的奖励数据包括距离奖励及距离数据奖励根据博弈结束标志位进行追击者与博弈者之间的相对距离的选择。

作为本发明的进一步改进,所述根据轨道推演结果对DQN模型进行调整,直至DQN模型训练损失收敛至平稳,生成轨道追逃博弈策略,之后对生成轨道逃逸策略进行遍历测试,检测轨道追逃博弈策略是否有效。

与现有技术相比,本发明具有以下有益效果:

本发明一种基于DQN与微分博弈的轨道追逃博弈策略方法,将微分博弈与典型的人工智能算法DQN进行结合,根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,获取博弈参与者动作集,通过DQN模型在博弈参与者动作集选取追击者,根据DQN模型的收敛速度及乏化能力,提高追击者的运行范围,可以让多个追击者去追击逃逸者,使得追击者可以长距离、不间断的捕捉逃逸者,还解决的当前普遍存在的一个追击者只能捕捉一个逃逸者的情况;由于是根据微分博弈生成的参与者动作集,提高了追击者在长距离、不间断的捕捉逃逸者精确性,因此本发明在增大追击者运行范围的同时,还能够使追击者的快速、准确的拦截追击者。

附图说明

图1为本发明一种基于DQN与微分博弈的轨道追逃博弈策略方法的流程示意图;

图2为本发明一种基于DQN与微分博弈的轨道追逃博弈策略方法的执行流程示意图;

图3为DQN模型训练奖励收敛曲线,随着训练次数的增加,奖励收敛至最高点,说明了算法的有效性;

图4为DQN模型损失函数收敛曲线,随着训练次数的增加,奖励收敛至一个较小值,说明了算法的稳定性;

图5为逃逸者选择K

图6为逃逸者选择K

图7为逃逸者选择K

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。

针对现有技术中存在的追击者的运行范围有限及导致追击者的无法快速、准确的逮捕逃逸者的问题,本发明提供了一种基于DQN与微分博弈的轨道追逃博弈策略方法,如图1所示,该方法为:

根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;

追击者通过DQN模型在博弈对抗动作集挑选得到,逃逸者在博弈对抗动作集随机选择;

通过航天器轨道动力学模型对所获取的追击者及逃逸者进行轨道推演;

根据轨道推演结果对DQN模型进行调整,直至DQN模型训练损失收敛至平稳,生成轨道追逃博弈策略。

以下结合附图对本发明作进一步解释。

一种基于DQN与微分博弈的轨道追逃博弈策略方法,主要用于航天器非完备信息轨道追逃博弈中追击航天器的博弈策略求解,所针对的逃逸航天器的控制律是基于微分博弈策略设计的。其特征在于包括以下步骤:

S1:建立航天器轨道动力学模型,

在近圆轨道下,将控制量引入C-W方程,得到相对运动控制方程为

其中,i取p或者e,分别代表博弈中的追击者(p)与逃逸者(e),u

S2,利用微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集:

确定控制律样式库中控制律的数量为N,取微分博弈代价函数为

其中,j=1,2,3…N。Qj,Rjp,Rje为权值矩阵,x(t)为t时刻的状态差值向量,即

其中,

构建黎卡提微分方程组:

求解该方程组得P

K

得到控制输出为

u

取j=1,2,3…N,可得追击者控制律样式库:KS

逃逸者控制律样式库:KS

追击者与逃逸者的动作集分别为KS

S3,设计轨道追逃博弈奖励函数:

奖励函数的设计与博弈结束结束条件、相对距离以及相对距离的变化率相关,可将奖励reward分为距离奖励reward_of_dis与距离速率奖励reward_of_rate。取相对距离

定义博弈结束结束标志位done,当done=True时,表明博弈结束;当done=False时,表明博弈进行中。设计博弈结束条件

设置距离奖励

设置距离速率奖励

S4,采用DQN构架训练轨道追逃博策略,并验证策略的有效性:

每次次追逃博弈开始进行之前,逃逸者在其动作集KS

以下结合具体的实施例对本发明作进一步结束:

实施例

一种基于DQN与微分博弈的轨道追逃博弈策略方法,主要用于航天器非完备信息轨道追逃博弈中追击航天器的博弈策略求解,所针对的逃逸航天器的控制律是基于微分博弈策略设计的。具体包括以下步骤:

S1,建立航天器轨道动力学模型;

在近圆轨道下,将控制量引入C-W方程,得到相对运动控制方程为

其中,i取p或者e,分别代表博弈中的追击者(p)与逃逸者(e),u

S2,利用微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;

确定控制律样式库中控制律的数量为N=3,取微分博弈代价函数为

其中,j=1,2,3…N。Q

其中,

取权值矩阵R

构建黎卡提微分方程组:

求解该方程组得P

K

得到控制输出为

u

取j=1,2,3…N,可得追击者控制律样式库

KS

逃逸者控制律样式库

KS

追击者与逃逸者的动作集分别为KS

S3,设计轨道追逃博弈奖励函数;

奖励函数的设计与博弈结束结束条件、相对距离以及相对距离的变化率相关,可将奖励reward分为距离奖励reward_of_dis与距离速率奖励reward_of_rate。取相对距离

定义博弈结束结束标志位done,当done=True时,表明博弈结束;当done=False时,表明博弈进行中。设计博弈结束条件

设置距离奖励

设置距离速率奖励

S4,采用DQN构架训练轨道追逃博策略,并验证策略的有效性。

每次次追逃博弈开始进行之前,逃逸者在其动作集KS

追击者的控制律由DQN模型进行挑选,并计算追击者的控制输出u

本发明的第二个目的在于提出一种基于DQN与微分博弈的轨道追逃博弈策略系统,包括:

构建动作集模块:用于根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;

博弈者选取模块:用于追击者通过DQN模型在博弈对抗动作集挑选得到,逃逸者在博弈对抗动作集随机选择;

轨道推演模块:通过航天器轨道动力学模型对所获取的追击者及逃逸者进行轨道推演;

生成策略模块:用于根据轨道推演结果对DQN模型进行调整,直至DQN模型训练损失收敛至平稳,生成轨道追逃博弈策略。

如图5所示,本发明第三个目的是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种基于DQN与微分博弈的轨道追逃博弈策略方法的步骤。

所述一种基于DQN与微分博弈的轨道追逃博弈策略方法包括以下步骤:

根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;

追击者通过DQN模型在博弈对抗动作集挑选得到,逃逸者在博弈对抗动作集随机选择;

通过航天器轨道动力学模型对所获取的追击者及逃逸者进行轨道推演;

根据轨道推演结果对DQN模型进行调整,直至DQN模型训练损失收敛至平稳,生成轨道追逃博弈策略。

本发明第四个目的是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述一种基于DQN与微分博弈的轨道追逃博弈策略方法的步骤。

所述一种基于DQN与微分博弈的轨道追逃博弈策略方法包括以下步骤:

根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;

追击者通过DQN模型在博弈对抗动作集挑选得到,逃逸者在博弈对抗动作集随机选择;

通过航天器轨道动力学模型对所获取的追击者及逃逸者进行轨道推演;

根据轨道推演结果对DQN模型进行调整,直至DQN模型训练损失收敛至平稳,生成轨道追逃博弈策略。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

技术分类

06120116581717