掌桥专利:专业的专利平台
掌桥专利
首页

一种基于强化学习的多航天器追逃博弈下的最优捕获方法

文献发布时间:2024-04-18 20:02:18


一种基于强化学习的多航天器追逃博弈下的最优捕获方法

技术领域

本发明涉及对抗博弈领域,尤其是涉及一种基于强化学习的多航天器追逃博弈下的最优捕获方法。

背景技术

对抗博弈作为无人装备的重要应用场景,在导弹拦截,无人舰船编队攻防以及车辆自动驾驶中发挥着重要的作用。在军事科学研究领域中,鱼雷与船舶、导弹与战斗机的对抗,无人机集群的对抗等,已经被抽象为一类特定的问题---追逃博弈。

在博弈过程中,博弈的策略用来寻找最大/小化的支付函数,在全局信息已知的情形下可以通过求解Hamilton-Jacobi-Isaacs(HJI)方程获得显式解。随着无人装备的智能化发展,基于微分博弈的固定式控制策略难以适应现代智能装备的对抗,针对智能装备的博弈策略问题亟待解决。并且在实际博弈情形中,可能会遇见未知动力学系统的博弈方,此时利用可以观测的信息设计最优控制器成为难题。

发明内容

本发明的目的是为了提供一种基于强化学习的多航天器追逃博弈下的最优捕获方法,针对追击航天器受外部扰动的影响,建立动态补偿器进行坐标变换,提出基于增广系统的博弈问题,消除外部扰动的影响;同时,针对具有一种不对称信息的博弈情形:逃逸者知道全部系统矩阵,而对于追逐者来说这部分信息未知,提出一种基于强化学习的在线求解方案,克服系统模型获取的困难,根据博弈过程中采集的数据,利用最小二乘法得到最优策略的近似解,并证明其可以成功捕获,并且实现纳什均衡。

本发明的目的可以通过以下技术方案来实现:

一种基于强化学习的多航天器追逃博弈下的最优捕获方法,包括以下步骤:

步骤1)根据博弈航天器动力学特性建立多航天器动态方程;

步骤2)获取追逃博弈双方的初始位置,对多航天器进行任务分配;

步骤3)针对外部扰动设计补偿器;

步骤4)根据补偿器对多航天器动态方程进行坐标变换;

步骤5)根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;

步骤6)设计基于强化学习的无模型迭代策略;

步骤7)初始化控制器,并采集博弈双方的动态信息;

步骤8)根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;

步骤9)根据最优控制器控制追击航天器,捕获逃逸航天器,实现追逃博弈的纳什均衡。

所述步骤1)中,多航天器动态方程为:

其中,

定义系统状态

其中,N,M分别表示逃逸者与追击者的数量,X

所述步骤2)中,对多航天器进行任务分配具体为:建立二分图,分别表示双方航天器

所述步骤3)中,外部扰动为:d=C

所述步骤3)中,针对外部扰动,存在正整数s

定义:

其中,

则定义动态补偿器为:

其中,U

所述步骤4)中,坐标变换的方法为:

经过坐标变换后,追击航天器动态方程表示为:

相对状态量为:

定义新的增广系统变量

所述步骤5)包括以下步骤:

步骤5-1)考虑无限时域下的博弈场景,引入以下博弈的性能指标函数:

其中Q为半正定矩阵,R

步骤5-2)根据性能指标函数定义航天器追逃博弈问题:

定义追逃双方的值函数为:

定义零和微分对策如下:

即追击者的目标是最小化值函数,而逃避者则试图最大化值函数,这相当于定义两个性能指标J

所述步骤6)具体为:定义追逃双方的控制增益分别为:

航天器相对距离的动态方程为:

对值函数进行偏导得到:

则:

其中,

所述步骤7)中,采集博弈双方的动态信息为:

所述步骤8)具体为:将航天器追逃博弈问题的求解转化为黎卡提方程的等价方程

与现有技术相比,本发明具有以下有益效果:

(1)本发明设计的动态补偿器,在坐标变换后基于增广系统的博弈问题抑制了外部扰动的影响;

(2)本发明设计的基于强化学习的追击控制器,解决了追击过程中对精准模型的需求;该控制器使用二分图框架设计的追击指标,采用最大匹配算法进行最小化指标来进行任务分配,可以在总最小路径-最小能耗下完成追击,可以在预先给定性能指标后,以确保完成追击。

(3)本发明针对具有一种不对称信息的博弈情形:逃逸者知道全部系统矩阵,而对于追逐者来说这部分信息未知,提出一种基于强化学习的在线求解方案,克服系统模型获取的困难,根据博弈过程中采集的数据,利用最小二乘法得到最优策略的近似解,并证明其可以成功捕获,并且实现纳什均衡。

附图说明

图1为本发明的方法流程图;

图2为一种实施例中求解航天器追逃博弈问题时

图3为一种实施例中求解航天器追逃博弈问题时

图4为一种实施例中航天器相对距离变化曲线;

图5为一种实施例中航天器的追逃轨迹。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

本发明公开了一种基于强化学习的多航天器追逃博弈下的最优捕获方法,针对多航天器运动状态,基于内模原理设计补偿器,消除外部扰动的影响,根据坐标变化后的系统建立无限时域下的追逃博弈模型;根据航天器初始状态设计任务分配的策略,最小化成本;对于给定的博弈性能指标函数,提出一种基于强化学习的在线求解方案,采用最小二乘法得到最优策略的近似解,克服真实场景中系统的精确模型难以获取的困难。本发明可以在线求取多航天器追逃博弈鞍点,克服外部系统带来的扰动,并且在未知模型的情况下可以完成追击任务并实现博弈的纳什均衡,为多航天器追逃博弈提供了重要的技术支撑。

具体的,本实施例提供一种基于强化学习的多航天器追逃博弈下的最优捕获方法,如图1所示,包括以下步骤:

步骤1)根据博弈航天器动力学特性建立多航天器动态方程;

设定LVLH(Local Vertical Local Horzontal)坐标系,则可以通过下式中的多航天器动态方程表达航天器的运动状态:

其中,

定义系统状态

其中,N,M分别表示逃逸者与追击者的数量,X

系统的相对状态为X

系统扰动由外部系统产生:

步骤2)获取追逃博弈双方的初始位置,对多航天器进行任务分配;

本实例中,考虑博弈双方数量一致,每个追求者只需要成功抓住一个逃避者来完成任务。因为操纵性是一样的,没有必要指派更多的追兵给一个逃避者。在这种情况下,取初始相对以距离为目标的任务分配与算法设计以最小化该距离总和。具体的,建立二分图,分别表示双方航天器

步骤3)针对外部扰动设计基于内模原理的补偿器,消除外部系统的扰动;

针对外部扰动,存在正整数s

定义:

其中,

令θ=col(θ

则定义动态补偿器为:

其中,U

步骤4)根据补偿器对多航天器动态方程进行坐标变换;

基于上一步设计的动态补偿器进行坐标变换:

其中,θ

经过坐标变换后,追击航天器动态方程表示为:

相对状态量为:

定义新的增广系统变量

步骤5)根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;

步骤5-1)考虑无限时域下的博弈场景,引入以下博弈的性能指标函数:

其中Q为半正定矩阵,R

步骤5-2)根据性能指标函数定义航天器追逃博弈问题:

定义追逃双方的值函数为:

定义零和微分对策如下:

即追击者的目标是最小化值函数,而逃避者则试图最大化值函数,这相当于定义两个性能指标J

步骤6)设计基于强化学习的无模型迭代策略;

为求解最优逃逸控制器,设定零和博弈的哈密尔顿函数为:

通过对哈密尔顿函数求偏导,可以得到最优追击、逃逸控制器:

其中

将最优控制器带入哈密尔顿函数,可以得到HJI(Hamilton-Jacobi-Isaacs)方程为:

假定最优值函数表示为

以下给出求解黎卡提方程的等价计算方式:

为追击者设计未知模型的控制器。定义控制器

以下提出不依赖模型的迭代方法。

定义追逃双方的控制增益分别为:

航天器相对距离的动态方程为:

为了获取不依赖模型的迭代策略,对值函数进行偏导得到:

则:

其中,

步骤7)初始化控制器,并采集博弈双方的动态信息;

给定一个初始的可以使得系统镇定的控制器,采集系统状态信息:

其中,q为系统采集的数据次数,需要满足

步骤8)根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;

利用在线采集的数据,根据最小二乘法,可以求解出最优追击控制器增益:

随着迭代次数的增加,逐步迭代求解,直到算法收敛,满足

步骤9)根据最优控制器控制追击航天器,捕获逃逸航天器,实现追逃博弈的纳什均衡。

追击条件:对于给定的相同动力学的航天器,针对给定的性能指标,在

首先,本实施例对控制器功能进行证明。

针对步骤2)中的航天器的状态方向,步骤5)设定的博弈双方的性能指标,步骤9)给出的条件成立,应用基于强化学习的最优追击控制器,可以解决步骤5)提出的航天器追击问题。证明流程如下:

(1)构造Lyapunov能量函数为定义的值函数:V

(2)计算能量函数沿着步骤一中的闭环系统的导数:

其次,本实施例航天器博弈的纳什均衡进行证明。

纳什均衡要求:

证明流程如下:

(1)根据上述证明的控制器功能可以得到V

(2)根据相对距离的动态方程以及最优控制器,性能指标可以表示为:

(3)根据HJI方程,

(4)考虑给出的迭代策略,当给出初始可镇定控制策略时,则可以通过步骤6)提出的等价黎卡提方程唯一求解出

最后,本实施例进行航天器追逃博弈的仿真验证。

将双方航天器的数量定义相同N=M=3,将步骤二给定的性能指标中参数选择为Q=I

追击者的初始状态为:

由图2,3给出的迭代过程仿真结果可以看出在迭代十二次后,可以或者最优追击控制器的增益;由图4给出的仿真结果所有追击航天器都可以成功捕获逃逸航天器;航天器追逃过程的轨迹如图5所示。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。

技术分类

06120116576581