掌桥专利:专业的专利平台
掌桥专利
首页

基于改进Q-Learning的多无人机局部航路规划方法及装置

文献发布时间:2023-06-19 10:46:31


基于改进Q-Learning的多无人机局部航路规划方法及装置

技术领域

本发明涉及无人机航路规划技术领域,具体涉及一种基于改进Q-Learning 的多无人机局部航路规划方法,还涉及一种基于改进Q-Learning的多无人机局部航路规划装置。

背景技术

随着航空技术的发展,利用多无人机在复杂多变的环境下进行协同作战已得到广泛应用。开展无人机航路规划方法的研究,在减轻人工规划航路的负担和不便的同时,能够充分利用已知的地形、威胁等信息完成满足自身约束和任务要求的全局航路,为实现无人机低空突防、隐蔽飞行提供了技术保证。但复杂多变的任务环境,使得全局航路不能完全保证无人机在任务执行过程中的飞行安全问题,因此在遭遇突发威胁下无人机的局部航路规划技术也是无人机系统的关键组成部分;是实现无人机自主飞行的重要前提;是保证无人机顺利完成任务、精确击中敌方目标的重要基础;是实现无人机自动控制的有力保障。开展局部航路规划的研究也能提高目前任务规划的整体水平,对于任务规划的进一步研究也具有重要的现实意义。开展局部航路规划与任务规划的研究将进一步提高了无人机的生存概率,为确定航路的作战使用价值提供有力的依据,对于我国无人机的发展具有较强的工程应用价值和现实意义。如何快速地规划出满足约束条件的飞行航迹,也是实现无人机自主规划的关键。

目前,国内外对于航路规划的研究工作主要集中在航路规划算法方面,航路规划算法对无人机的自主飞行、精确跟踪或打击起着决定性作用,关系着航路规划的效率甚至是无人机的生存概率。航迹规划中,无人机所执行的任务不同,所采取的航路规划算法亦不同。执行简单的侦查任务时,只需根据已经获得的信息规划出一条全局航路,无人机在起飞前只需加载该全局航路即可。而实施对敌打击时往往伴随着敌方动态威胁的出现,这时需要在全局参考航线的基础上适当做动态调整,以便躲避动态威胁。

目前,国内外常用的多无人机协同航路规划方法有蚁群算法、遗传算法、A* 算法等。蚁群算法具有较强的鲁棒性与良好的信息反馈能力等优点,但算法的收敛速度低且易陷入局部最优。遗传算法因其不依赖于模型特点使得算法鲁棒性强,但是对于复杂的战场环境,算法的收敛速度缓慢,导致路径搜索时间较长。A*算法具有算法简单,易于工程师先等优点,但其算法计算量较大,规划时间较长。

发明内容

本发明的目的在于克服现有技术中的不足,提供了一种基于改进Q-Learning 的多无人机局部航路规划方法及装置,实现在未知环境下多无人机局部航路规划的路径搜索。

为解决上述技术问题,本发明提供了一种基于改进Q-Learning的多无人机局部航路规划方法,包括以下过程:

根据新增突发威胁源的位置,确定飞行环境中新增的突发威胁区域,进而确定能够避开新增突发威胁区域的局部航路重规划的起始点和目标点;

根据多无人机局部航路重规划的起始点、目标点以及威胁区域,确定多无人机局部重规划运动过程中的多无人机局部航路规划系统模型;

利用小脑神经网络的泛化能力改进的Q-Learning算法求解上述多无人机局部航路规划系统模型,规划出多无人机最优局部航路;

根据多无人机的重规划局部航路段长度,调整多无人机在重规划局部航路段飞行时的速度。

进一步的,所述多无人机局部航路规划系统模型为变异马尔可夫决策过程模型,用以下四元组M=〈S,A,P,R〉来表示:

S表示系统状态的有限集合,包含无人机飞行环境的有限状态点;

A表示无人机可用的有限动作集合;

P为动作选择概率函数,表示当主体处在状态s

R为报酬函数,表示在给定无人机当前状态和动作的情况下所能获得的立即报酬。

进一步的,所述动作搜索函数P选择Boltzmann分布探索方法,在状态s下动作a

其中,s为当前状态;a

进一步的,所述报酬函数R如下式所示:

其中,state

进一步的,所述利用小脑神经网络的泛化能力改进的Q-Learning算法求解多无人机局部航路规划系统模型,规划出多无人机最优局部航路,包括:

(1)初始化每个动作a

(2)根据无人机在t时刻所处的状态s

(3)基于公式(1)动作选择策略,从动作空间A中选择出飞行动作a

(4)无人机在t时刻执行a

(5)根据得到的立即报酬r

(6)由更新得到的

(7)如果权值w

(8)算法结束,从起始点状态开始选择Q值最大的动作序列组成局部航路规划的最优航迹。

进一步的,所述利用CMAC网络计算相对应的Q值,包括:

若对某一状态s执行动作a

其中,

其中,w

进一步的,所述Q值迭代公式为:

在t时刻点,无人机在状态s

式中,s

进一步的,所述更新神经网络权值,包括:

采用误差纠正算法对权值进行修正,修正公式可以表示为:

式中,w

进一步的,根据多无人机的重规划局部航路段长度,调整多无人机在重规划局部航路段飞行时的速度,包括:

第i架无人机在第p-1个航路段进行局部重规划,该路段长度为l

通过局部航路后,无人机恢复速度V

相应的,本发明还提供了一种基于改进Q-Learning的多无人机局部航路规划装置,包括:

根据新增突发威胁源的位置,确定飞行环境中新增的突发威胁区域,进而确定能够避开新增突发威胁区域的局部航路重规划的起始点和目标点;

根据多无人机局部航路重规划的起始点、目标点以及威胁区域,确定多无人机局部重规划运动过程中的多无人机局部航路规划系统模型;

利用小脑神经网络的泛化能力改进的Q-Learning算法求解上述多无人机局部航路规划系统模型,规划出多无人机最优局部航路;

根据多无人机的重规划局部航路段长度,调整多无人机在重规划局部航路段飞行时的速度。

与现有技术相比,本发明所达到的有益效果是:本发明针对不确定环境下的多无人机局部航路规划问题,设计了一种将CMAC神经网络与Q-Learning算法相结合的局部航路重规划方法;同时给出协同速度调整策略以保证航路改变后多无人机的协同特性。本发明方法能够快速规划出最优的局部航路。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;

图1是本发明具体实施例的局部航路规划方法的算法流程图;

图2是本发明具体实施例无人机基本动作图;

图3是本发明具体实施例小脑神经网络结构图;

图4是本发明具体实施例算法收敛对比图;

图5是本发明具体实施例单无人机局部航路规划图;

图6是本发明具体实施例基于全局航路规划的多无人机局部航路规划仿真结果图,其中(a)为突发威胁环境下单目标任务仿真结果图;(b)为突发威胁环境下多目标任务仿真结果图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

在本发明专利的描述中,需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,除了包含所列的那些要素,而且还可包含没有明确列出的其他要素。

实施例1

本发明的一种基于改进Q-Learning的多无人机局部航路规划方法,参见图1 所示,包括

步骤S1,获取新增突发威胁源的位置,确定飞行环境中新增的突发威胁区域,进而确定能够避开新增突发威胁区域的局部航路重规划的起始点和目标点。

具体实现过程为:

根据多无人机协同局部航路规划任务本质,多无人机沿着全局航路飞行到某航点时,利用传感器探测周围环境采集到的突发威胁源的位置坐标和半径等信息,对无人机的局部飞行环境进行更新。

对无人机飞行环境进行更新过程为,读取新的任务环境,在利用栅格法对无人机飞行环境进行建模的二维环境空间中,每个栅格大小为5km,以0和1 定义环境模型中每个坐标点的两种状态,其中0表示环境范围内的可飞区域,用白色填充显示;1表示环境范围内的威胁区域,探测到的突发威胁用格状阴影填充表示,已知威胁用黑色填充表示。更新后的飞行环境中包含多无人机新增突发威胁区域。

环境空间中每个坐标点都包含有以下3种信息:(1)坐标点本身的状态(0 或1);(2)该坐标点与目标点的相对位置关系;(3)该坐标点与威胁源的相对位置关系。也就是说,更新后的二维飞行环境中的每个坐标点就包含有与目标点以及威胁区域的相对位置、是否为可飞区域这些信息,从而每一个坐标点就反映着无人机的一种状态。

当遭遇到突发威胁时,需在无人机遭遇威胁之前为无人机重新规划出可飞路径,由此可选取突发威胁源到全局航路点间的距离小于威胁源半径的一段航路为重规划航路段,设定该航路段外的两个航路点分别作为局部航路规划的起始点和目标点。

步骤S2,根据多无人机局部航路重规划的起始点、目标点以及威胁区域,确定多无人机局部重规划运动过程中所有的状态空间;设计动作空间和动作选择策略,构造报酬函数,建立多无人机局部航路规划系统模型。

多无人机局部航路规划系统模型为变异马尔可夫决策过程模型,用以下四元组M=〈S,A,P,R〉来表示,其中:

S表示系统状态的有限集合,包含无人机飞行环境的有限状态点。根据步骤 S1在二维坐标系下建立的无人机飞行环境模型,环境模型中不同的坐标点与目标点的相对位置不同,受威胁程度也不同,包含有无人机可能会出现的不同的状态信息,反映着无人机的不同状态,这些信息是通过S中的元素来存储的,因此每个状态都与状态空间集合S中的一个元素相对应。

A表示无人机可用的有限动作集合。在无人机的实际飞行过程中无人机的飞行是连续的状态,但在多无人机的局部航路规划中,设定了各无人机的起点和终点之后,在路径规划过程中将无人机看作为一个质点。由于采用栅格法建立了无人机的飞行环境状态,可将无人机的动作根据航向进行离散,定义无人机有8个可执行动作a

P为动作选择策略函数,表示当主体处在状态s

为了较好地结合以上两种动作搜索策略,本实施例中动作搜索策略采用基于动作概率的方法对无人机的动作进行选取,即对无人机即将选取的动作利用概率分布进行表示,选取概率较大的动作,策略选择Boltzmann分布探索方法,在状态s下动作a

其中,s为当前状态;a

在算法初期Q值表未经过学习积累,动作选择概率主要由T进行控制,此阶段无人机的动作选择具有随机性,体现了探索型动作搜索策略,随着探索型策略的进行,Q值不断地进行学习更新,能较为准确地反映状态-动作对的实际强化值,因此到了后期动作选择概率主要由Q(s,a)进行控制,此阶段体现了利用型动作搜索策略,为无人机搜索出评价值最大的动作序列。

R为报酬函数,表示在给定无人机当前状态和动作的情况下所能获得的立即报酬。报酬函数模型的作用主要是评价强化系统学习行为的优劣,从而改善系统的性能。在强化学习系统中,报酬函数能够在一定程度上反映系统的评价指标,并影响强化系统学习的收敛速度。

在无人机飞行过程中,传感器能够探测感知范围内的环境信息,并实时检测自身方位以及目标点方位信息,此时的目标点为局部航路规划的终点。无人机航路规划的主要目的是为每架无人机规划出从起始点到目标点的可飞航路,这表明了三个要素:靠近目标、远离威胁和航路处在可飞区域内。因此,在执行动作搜索策略时,无人机执行一次动作后,若所处的位置在禁飞区域内或者相比上一位置更靠近威胁源时,则该动作获得负报酬,表示惩罚;若所处的位置在可飞区域内,同时相比上一位置更加靠近目标点,则该动作获得正报酬,表示奖励;若所处的位置即是目标点,则该动作获得较大的正报酬,表示巨额奖励;若所处位置较上一时刻位置无本质变化,即与目标点的距离基本没变,与威胁源的距离也未变,还是在可飞区域内,则该动作获得零报酬,表示不奖也不惩。

基于以上原理对即时报酬函数进行泛化处理,处理后报酬函数如下式所示:

其中,state

步骤S3,根据步骤S2得到的多无人机局部航路规划系统模型,利用强化学习中的Q-Learning算法进行求解。

针对在复杂环境下Q值表所需内存较大,且不具有泛化能力,致使Q-Learning算法收敛速度较慢的问题,利用小脑神经网络(CMAC)的泛化能力改进Q-Learning算法,从而通过改进后的Q-Learning算法快速搜索出使累计评价值最大的动作序列,从而快速规划出多无人机最优局部航路。

根据建立的多无人机局部路径规划系统模型,利用Q-Learning算法进行最优局部路径规划。基于Q-Learning的多无人机局部航路规划旨在通过无人机动作与飞行环境之间进行交互更新状态-动作对的Q值并最终依据状态-动作对的 Q值产生决策,规划出评价值最高无人机的有效局部航路。在Q-Learning过程中,设Q(s,a)为学习每个状态-动作对(s,a)的评价值,即无人机从状态s到执行第一个飞行动作a后可获得的最大折扣累计报酬,常通过数值迭代计算值函数Q(s,a)来逼近最优值函数,Q-Learning的基本更新规则如下:

(1)观察当前时刻状态s

(2)选取并执行动作a

(3)观察下一时刻状态s

(4)获得当前时刻奖赏值r

(5)根据r

其中:γ∈(0,1)为折扣因子,α∈(0,1]为学习因子;A为无人机动作集合; Q

无人机主体根据当前环境状态s,通过Q值表选择并执行动作a,到达状态 s

利用现有的Q-Learning算法进行最优局部路径规划,当环境中的状态空间集合S以及无人机动作集合较大时,每一种状态-动作对都需要一个Q值来评价, Q值表需要占用的内存空间较大,且不具有泛化能力,致使Q-Learning算法收敛速度较慢。

而小脑神经网络(CMAC)的结构特性使其具有的泛化能力可以有效地改进Q-Learning算法,使其在复杂环境下能够较快地收敛,从而实现在不确定环境下多无人机的快速局部航路规划。

CMAC网络由四个基本部分组成:输入空间X、概念空间Ac、物理空间Ap 以及输出空间Y。CMAC结构图如图3所示,一个完整的CMAC结构具有三个映射:由X→Ac的非线性映射、由Ac→Ap的随机散列映射以及由Ap→Y的线性映射,总的网络映射是由X→Y的非线性映射。在X→Ac的映射过程中,假设输入空间X有n维,激活概念空间Ac中的c个单元,那么将在概念空间 Ac中产生c个虚地址,每个虚地址由n段组成,因此,当输入量仅变化一个等级时,只有一个虚地址段变化1,而其它虚地址段都保持不变,那么在后面的映射时,由于虚地址接近,其最终输出也接近。这就意味着,相近的输入量经过 CMAC网络映射后能给出相近的输出。按这一原理,假设在某一状态s下执行动作a到达状态s

具体改进过程为:

无人机在执行动作a

若对某一状态s执行动作a

其中,

在t时刻点,无人机在状态s

式中,s

除了(s

采用误差纠正算法对权值进行修正,修正公式可以表示为:

式中,w

则,基于CMAC神经网络的Q-Learning算法流程如下:

(1)初始化每个动作a

(2)根据无人机在t时刻所处的状态s

(3)采取前面步骤S2中的动作选择策略,从动作空间A中选择出飞行动作 a

(4)无人机在t时刻执行a

(5)根据得到的立即报酬r

(6)由更新得到的

(7)如果权值w

(8)算法结束,从起始点状态开始选择Q值最大的动作序列组成局部航路规划的最优航迹。

此步骤最终会输出一条从局部起始点到局部目标点(终点)的最优航迹,从起始点状态开始每次都选择Q值最大的动作,到达下一个状态再选择Q值最大的,直到终点状态,这样就得到一条累积Q值最高的动作序列也即最优航路。

步骤S4,根据多无人机的重规划局部航路段长度,调整多无人机在重规划局部航路段飞行时的速度,以确保飞行航路改变后的多无人机系统仍能达到协同飞行并完成任务。

第i架无人机在第p-1个航路段进行局部重规划,该路段长度为l

通过局部航路后,无人机恢复速度V

实施例2

本发明实施例为仿真分析:

图4是本发明具体实施例在相同仿真环境下对Q-Learning算法以及基于 CMAC神经网络的Q-Learning算法的收敛性实验对比结果图,图中横轴为迭代次数,即算法学习次数,纵轴为累计报酬值。由图4可知,两种算法均收敛,但算法的收敛速度不同。基于Q-Learning算法在学习次数为120次时,累计报酬达到最大值且不再增加,此时累计报酬值大约为62;基于CMAC神经网络的 Q-Learning算法在学习次数为50次时,累计报酬就已经达到最大值,累计报酬值大约为77。由以上数据可知,Q-Learning算法和基于CMAC神经网络的Q-Learning算法都可以取得较好的收敛效果和收敛速度,但后者相比前者所获得的累计报酬值更高,算法的收敛速度更快,证明了改进后的Q-Learning算法的有效性。

图5是本发明具体实施例在多威胁环境下单无人机的局部航路规划仿真结果图。单无人机局部航路规划所用地图仍然采用栅格法表示,地图尺寸为 20km×20km,环境中存在一定数量的突发威胁源,威胁源通过传感器探测,定义这些威胁源均为无人机在飞行环境中遭遇的雷达威胁。仿真参数为:折扣因子γ=0.9,学习因子α=0.7,温度系数T=5。在算法初期通过探索积累学习经验,此段过程中最大探索步数为300。图中黑色填充的圆形表示已知威胁源,格状填充的圆形表示突发威胁源。

由图5可知,在突发威胁的局部飞行环境下,无人机通过传感器探测周围环境,在没有探测到威胁源时,无人机将向目标点前行,当探测到威胁源时,无人机能够有效的规避威胁源,规划出安全路径。在本次仿真实验中,单无人机局部航路规划时间为310ms,仿真结果表明,基于改进Q-Learning算法能够为无人机规划出有效的飞行路径,且规划效果良好。

图6是本发明具体实施例基于全局航路规划的多无人机局部航路规划仿真结果图,其中(a)为单目标任务在突发威胁的飞行环境中进行多无人机局部航路重规划的仿真结果图;(b)为多目标任务在突发威胁的飞行环境中进行多无人机局部航路重规划的仿真结果图。设定多无人机沿着全局航路飞行到某航点时,各无人机分别检测到前方区域上存在突发雷达威胁,其威胁模型如表1所示。

表1突发雷达威胁分布表

无人机执行任务过程中,当无人机未探测到环境变化时,无人机将继续沿预先规划的全局航路飞行,当遭遇到突发威胁时,需在无人机遭遇威胁之前为无人机重新规划出可飞路径,由此可选取突发威胁源到全局航路点间的距离小于威胁源半径的一段航路为重规划航路段,设定该航路段外的两个航路点分别作为局部航路规划的起始点和目标点,各无人机局部航路规划的起始点和目标点如下表2所示。

表2局部航路规划起始点和目标点坐标

基于全局航路规划中的单目标任务和多目标任务的航路规划结果,利用改进 Q-Learning的局部航路规划算法在突发威胁环境下为各无人机进行局部航路规划,规划结果如图6(a)和(b)所示。图中黑色填充的圆形区域代表已知雷达威胁,格状填充的圆形区域为突发威胁,黑色实线代表全局规划航路,黑色虚线代表重规划的局部航路。由局部航路规划结果可以看出,在没有遭遇突发威胁时,无人机依据全局航路规划的路径飞行,当无人机在探测到突发威胁时,会进行局部规划任务,提前为各无人机重新规划可飞航路,避开突发威胁源之后无人机将继续沿着全局航路飞行,直至安全达到目标点。

在仿真实验中,单目标任务下,各无人机从探测到突发威胁源到飞行到局部航路起始点之间的用时分别为39.1s、27.9s和24.1s,而多无人机局部航路规划的用时为0.3s;多目标任务下,各无人机从探测到突发威胁源到飞行到局部航路起始点之间的用时分别为49.8s、44.3s和61.3s,而多无人机局部航路规划的用时为0.4s。因此,采用基于改进Q-Learning的多无人机局部航路规划方法能够为多无人机系统实时规划出飞行航路,在无人机飞行到需要规避威胁的位置前已经完成好了局部路径规划,且具有良好的规划效果。

在为多无人机进行局部航路规划后,需要根据局部航路规划结果对无人机在局部航路飞行时的速度进行调整,以达到无人机之间协同飞行,并最终同时达到目标点,在局部航路段内,无人机协同速度调整如下表3所示。

表3无人机协同速度调整

由上表可得出局部航路重规划后各无人机协同调整后的飞行速度,当遭遇突发威胁时依照调整后的速度沿着局部航路飞行,之后无人机将以原飞行速度沿着全局航路继续飞行,而飞行航路中未遭遇到突发威胁的无人机将继续以原定速度沿着预先规划的全局航路飞行,实现多无人机同时到达任务目标点。

本发明针对不确定环境下的多无人机局部航路规划问题,利用强化学习中的 Q-Learning算法对状态空间和状态转移概率未知的马尔可夫决策模型进行求解,设计了一种将CMAC神经网络与Q-Learning算法相结合的局部航路重规划方法;设计基于改进Q-Learning算法的多无人机局部航路规划总体流程和局部航路规划模型,同时给出协同速度调整策略以保证航路改变后多无人机的协同特性;并通过以上所述实施例对算法改进前后的收敛性进行对比,给出了局部航路规划结果,仿真结果验证了基于改进Q-Learning算法的有效性。

实施例3

相应的,本发明的一种基于改进Q-Learning的多无人机局部航路规划装置,包括:

根据新增突发威胁源的位置,确定飞行环境中新增的突发威胁区域,进而确定能够避开新增突发威胁区域的局部航路重规划的起始点和目标点;

根据多无人机局部航路重规划的起始点、目标点以及威胁区域,确定多无人机局部重规划运动过程中的多无人机局部航路规划系统模型;

利用小脑神经网络的泛化能力改进的Q-Learning算法求解上述多无人机局部航路规划系统模型,规划出多无人机最优局部航路;

根据多无人机的重规划局部航路段长度,调整多无人机在重规划局部航路段飞行时的速度。

本发明装置中各模块的具体实现技术方案参见实施例1中方法的各个步骤过程。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

相关技术
  • 基于改进Q-Learning的多无人机局部航路规划方法及装置
  • 一种基于改进Q-learning算法的无人机航路规划方法
技术分类

06120112669299