掌桥专利:专业的专利平台
掌桥专利
首页

一种基于PER-IDQN的多无人机围捕战术方法

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及多智能体系统和无人机智能决策领域,尤其是一种多无人机围捕战术方法。

背景技术

无人机以其隐蔽性强、安全性高等特点,为满足现代信息化防御战术所需要的多机协同以及低伤亡率等要求,提供了一种新的模式思路。在敌方入侵我方领空进行非法情报侦察的场景中,采用多架防御无人机构成多无人机编队,让多无人机编队能够根据态势环境而自动进行对目标的包围驱逐或伴飞监视,具有重要意义。

现有对多无人机围捕战术的研究不多,主要采用人工智能方法对目标的位置进行实时解算,然后规划出相应的追踪路径实现对目标的接近和捕获。公开专利CN112241173A提出了一种基于人工势场的多智能体集结点的智能规划方法,通过将目标转换虚拟集结点,然后采用人工势场模型计算智能体间的排斥力和智能体与障碍物间的排斥力,对智能体虚拟集结点的位置和路径信息进行解算。然而,该方法没有考虑到动态环境下的模型解算所带来的较大计算量问题,无法对多智能体决策的实时性进行保障。近年来,深度强化学习技术的发展,为无人系统实时在线智能决策提供了新思路。公开专利CN113625775A提出了一种状态预测和DDPG相结合的多无人机围捕方法,基于最小二乘法对无人机状态进行预测,然后采用深度强化学习DDPG算法对无人机模型进行训练,最终部署至多无人机系统中,实现多无人机围捕决策。然而,该方法对无人机决策模型进行训练时,训练样本数据量大且各变量类型复杂,训练效率低下,最终得到的多无人机围捕模型的稳定性较差,具有一定的局限性。

优先经验回放策略是一种深度强化学习优化方法,通过对各个经验样本的重要性进行计算和优先级排序,提升对优先级高的经验样本其使用率,最终提升智能体的训练速度。因此,如何将优先经验回放策略引入到多智能体深度强化学习方法之中,并与复杂的多无人机围捕战术模型相结合以改善各无人机的自主行为,最终通过协同决策实现对目标的包围捕获,成为了深度强化学习在多无人机智能决策领域运用的难题。

发明内容

为了克服现有技术的不足,本发明提供一种基于PER-IDQN的多无人机围捕战术方法。本发明为一种基于优先经验回放策略独立深度Q学习网络(Prioritized ExperienceReplay Independent Deep Q-learning Network,PER-IDQN)的多无人机围捕战术方法。具体地,对栅格数字地图和无人机运动模型等进行建模,通过各无人机与环境的交互,采用深度Q网络(Deep Q Network,DQN)算法对多无人机神经网络模型进行部署,并利用优先经验回放策略(Prioritized Experience Replay,PER)对算法模型进行优化,然后构建状态空间、动作空间、奖励函数对多无人机围捕战术模型进行针对性设计,最后构建的多无人机围捕战术模型能够在复杂障碍物环境下制定的有效的围捕战术,实现对机动目标的包围捕获。

本发明解决其技术问题所采用的技术方案包括以下步骤:

步骤1:构建栅格数字地图模型、无人机模型;

步骤2:基于PER-IDQN算法构建多无人机围捕决策模型;

步骤3:基于PER-IDQN算法,构建多无人机围捕决策模型并进行训练;每个无人机分别将状态信息输入至神经网络中,通过训练得到的PER-IDQN神经网络进行拟合,输出无人机飞行动作,各个围捕无人机通过协同决策,实现对目标的围捕。

所述构建栅格数字地图模型、无人机模型的步骤为:

步骤1-1:为方便量化无人机的具体位置,将整体空域范围均匀划分为若干数量的栅格,设定每个栅格为正方形长度为l千米,任务场景为a*l千米×b*l千米,则任务场景的总宽度l

步骤1-2:设定围捕无人机的速度为l千米/时间步长,目标无人机的速度为n*l千米/时间步长;

步骤1-3:设定无人机动作空间大小为4,即无人机每一步只能往上、下、左、右四个方向进行运动;

步骤1-4:设定每架无人机可探测范围为以l千米为半径的圆形区域,即近似为栅格场景中以无人机为中心的周边九宫格区域。

所述步骤2中基于PER-IDQN算法构建多无人机围捕决策模型的步骤为:

步骤2-1:设定围捕无人机动作空间A为:

A=[(0,-l),(0,l),(-l,0),(0,l)]

(0,-l),(0,l),(-l,0),(0,l)表示无人机向下、上、左、右移动的4个动作,l表示每个栅格的长度;

步骤2-2:设定围捕无人机状态空间S为:

S=[S

其中S

具体地,对于多围捕无人机系统中的第i个无人机,设定其自身状态信息为:

x

对于第i个无人机,设定可获取的友方无人机状态信息

其中,x

设定围捕无人机i的观测信息为

o

此外,结合目标相对我方无人机i的相对距离和方位信息,对于第i个围捕无人机,设定可获取的目标信息

其中,d

此外,为了帮助围捕无人机有效完成对目标的围捕,对于第i个围捕无人机,设定子状态量

表示是否完成对目标的围捕;

步骤2-3:考虑到多无人机围捕战术中对目标的机动接近、协作围捕、自主避障三个决策过程,对于每个围捕无人机个体,设立其奖励函数R为:

R=σ

其中,r

具体的,设定位置子奖励为:

r

其中,(|x

设定围捕无人机安全飞行子奖励为:

设定围捕无人机高效飞行子奖励为:

r

n

设定围捕无人机任务完成子奖励项为:

步骤2-4:设定多无人机围捕判定条件为:当目标与各围捕无人机距离一个单位栅格距离时,视作目标无法逃逸,围捕任务完成。

所述步骤3:基于PER-IDQN算法,构建多无人机围捕决策模型并进行训练;

步骤3-1:对于每个围捕无人机,分别构建PER-IDQN算法中的主BP神经网络隐藏层θ

步骤3-2:设定经验回放队列大小为M,折扣因子为γ,最大回合数E,每回合最大步长数T,经验提取大小N

步骤3-3:初始化n个围捕无人机的状态s

步骤3-4:生成随机数z,对于每一个无人机i,执行动作:

其中,ε

步骤3-5:执行动作集合a

步骤3-6:基于

计算重要性采样的权重系数w

w

β为超参数,用于调节重要性采样对PER算法和模型收敛速率的影响计算;

计算当前时刻的时间差分误差:

其中,

计算目标值,得到目标值

其中,γ为奖励折扣因子,j为样本序号,θ

结合重要性权重w

步骤3-7:分别更新各无人机智能体的目标网络参数:

θ

τ表示更新比例系数;

步骤3-8:更新步长t加1,执行判定:当t

步骤3-9:更新回合数e加1,执行判定:若e

步骤3-10:终止PER-IDQN网络训练过程,保存当前网络参数;将保存好的参数加载至多无人机围捕系统中,每一时刻,每个无人机分别将状态信息输入至神经网络中,通过训练得到的PER-IDQN神经网络进行拟合,输出无人机飞行动作,各个围捕无人机通过协同决策,实现对目标的围捕。

本发明的有益效果在于提出的基于PER-IDQN的多无人机围捕战术方法,优点具体体现在:

(1)构建的多无人机围捕决策系统,不需要人为对每个无人机的战术进行单独指定,各无人机之间可以自行通过环境感知和信息共享完成战术和任务协同,最终制定的多无人机围捕战术能够实现对机动目标的围捕。

(2)本发明在深度强化学习IDQN算法中引入优先经验回放PER策略,有效提升了对经验样本的采样效率,改善了复杂任务场景下无人机决策模型训练速率较慢的问题。最终构建的多无人机围捕战术模型稳定性更强,能够适用于复杂动态环境下的多无人机围捕和自主避障任务。

附图说明

图1为无人机探测示意图。

图2为围捕无人机与目标的位置关系示意图。

图3为基于PER-IDQN的多无人机围捕模型训练示意图。

图4为多无人机合围捕获示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出的一种基于PER-IDQN的多无人机围捕战术方法,整体流程如图3所示。下面结合附图和具体实施例,对该技术方案作进一步清晰和完整的描述:

步骤1:构建栅格数字地图模型、无人机模型;

步骤1-1:为方便量化无人机的具体位置,将整体空域范围划分为若干数量的栅格,设定每个栅格为正方形长度为0.1千米,设定任务场景的总宽度和总长度分别为l

步骤1-2:设定围捕无人机的速度为0.1千米/时间步长,目标无人机的速度为0.2千米/时间步长;

步骤1-3:设定无人机动作空间大小为4,即无人机每一步只能往上、下、左、右四个方向进行运动;

步骤1-4:设定每架无人机可探测范围为以0.1千米为半径的圆形区域,即近似为栅格场景中以无人机为中心的周边九宫格区域;

步骤2:基于PER-IDQN算法构建多无人机围捕决策模型;

步骤2-1:设定围捕无人机动作空间A为:

A=[(0,-l),(0,l),(-l,0),(0,l)]

(0,-l),(0,l),(-l,0),(0,l)表示无人机向下、上、左、右移动的4个动作,l表示每个栅格的长度;

步骤2-2:设定围捕无人机状态空间S为:

S=[S

其中S

具体地,对于多围捕无人机系统中的第i个无人机,设定其自身状态信息为:

x

对于第i个无人机,设定其可获取的友方无人机状态信息

其中,x

设定围捕无人机i的观测信息为

o

此外,结合目标相对我方无人机i的相对距离和方位信息,对于第i个围捕无人机,设定其可获取的目标信息

其中,d

此外,为了帮助围捕无人机有效完成对目标的围捕,对于第i个围捕无人机,设定子状态量

表示是否完成对目标的围捕;

步骤2-3:考虑到多无人机围捕战术中对目标的机动接近、协作围捕、自主避障等决策过程,对于每个围捕无人机个体,设立其奖励函数R为:

R=σ

其中,r

具体的,设定位置子奖励为:

r

其中,(|x

设定围捕无人机安全飞行子奖励为:

设定围捕无人机高效飞行子奖励为:

r

n

设定围捕无人机任务完成子奖励项为:

步骤2-4:设定多无人机围捕判定条件:当目标与各围捕无人机距离一个单位栅格距离时,视作目标无法逃逸,围捕任务完成;

步骤3:基于深度强化学习PER-IDQN算法,构建多无人机围捕决策模型并进行训练;

步骤3-1:对于每个围捕无人机,分别构建PER-IDQN算法中的主BP神经网络隐藏层θ

步骤3-2:设定经验回放队列大小M,折扣因子γ,最大回合数E,每回合最大步长数T,经验提取大小N

步骤3-3:初始化n个围捕无人机的状态s

步骤3-4:生成随机数z,对于每一个无人机i,执行动作:

其中,ε

步骤3-5:执行动作集合a

步骤3-6:基于

计算重要性采样的权重系数w

w

M为经验回放队列大小,β为超参数,用于调节重要性采样对PER算法和模型收敛速率的影响计算;

计算当前时刻的时间差分误差:

其中,

计算目标值,可以得到目标值Y

其中,γ为奖励折扣因子,j为样本序号,θ

结合重要性权重w

步骤3-7:分别更新各无人机智能体的目标网络参数:

θ

τ表示更新比例系数;

步骤3-8:更新步长t=t+1,执行判定:当t

步骤3-9:更新回合数e=e+1,执行判定:若e

步骤3-10:终止PER-IDQN网络训练过程,保存当前网络参数;将保存好的参数加载至多无人机围捕系统中。每一时刻,每个无人机分别将状态信息输入至神经网络中,通过训练得到的PER-IDQN神经网络进行拟合,输出无人机飞行动作,各个围捕无人机通过协同决策,实现对目标的围捕。

为更好说明本发明方法的优越性,本实施案例分别在不同的场景中进行了测试。具体地,在栅格数量为80×40的任务场景中,保持障碍物移动率10%不变,分别在设定不同的障碍物覆盖率并进行了测试,得出的测试结果如表1所示。

表1不同环境障碍物覆盖率下的多无人机围捕表现

由上表可知,随着环境障碍物覆盖率的增加,多无人机围捕时间增加;当障碍物覆盖率提升至0.10及以上时,相比于传统IDQN算法,基于PER-IDQN算法的多无人机围捕战术平均仿真步长较少,这意味着PER-IDQN算法的多无人机面对复杂障碍物环境时制定的围捕战术更为有效,能够在较短的时间内实现对目标的围捕。多无人机合围捕获仿真示意图如图4所示。

综上,本发明提出的一种基于PER-IDQN的多无人机围捕战术方法,采用离线学习对神经网络进行训练,将训练时产生的数据存储于经验池中,为神经网络的优化提供学习样本,并结合多无人机机动控制和协同围捕任务要求,对无人机动作和状态进行设计,实现对多无人机的智能决策控制。

基于本发明提出的多无人机围捕战术方法,模型训练效率高,且构建的多无人机围捕战术模型能够适用于且在复杂动态场景中,提升多无人机围捕战术执行效能。

以上所述仅为本发明的优选实施方式,应该指出:本发明的实施方式并不局限于上述实施方法的限制;对于所属领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出其他不同形式的变化或润色。需说明的是,凡在本发明的精神和原则之内所作的任何等同替换、修改改进等,均应包含在本发明权利要求的保护范围之内。

相关技术
  • 一种基于PER-IDQN的多无人机围捕战术方法
  • 一种状态预测和DDPG相结合的多无人机围捕方法
技术分类

06120114725448