掌桥专利:专业的专利平台
掌桥专利
首页

有限通信下面向多无人机联合任务分配和航迹规划的方法

文献发布时间:2023-06-19 19:30:30


有限通信下面向多无人机联合任务分配和航迹规划的方法

技术领域

本发明属于飞行控制技术领域,具体涉及有限通信下面向多无人机联合任务分配和航迹规划的方法。

背景技术

近年来无人机已经在战争、搜救、交通巡查、快递运输、农作植保、建筑安防等领域有了实际的应用,为了保证某些领域任务的高效执行,需要采用无人机群的形式去协同执行相应的任务。多无人机协同完成一类或者多类任务分配,需要根据任务的特点,如任务的性质、任务量及任务位置等,也需要根据无人机自身的性能约束,如作战半径、转弯半径和飞行动力学约束等,同时还要考虑战时环境,如危险区、禁飞区、突发任务或者无人机故障等。

为了实现多无人机之间的任务协作,必须在多无人机之间提供稳定可靠的通信,通信成为协调多个智能体的行为的有效机制,智能体可以通过通信来提高整体学习性能并实现其目标。但因无人机的灵活部署及机动性,无人机是根据任务进行控制不是静止或者长时间移动相对较小的领域,无人机的位置因无人机的高机动性而发生改变,通信网络的实时拓扑可能会影响整个网络的联通质量。如无人机地面信道质量差、遭受恶意干扰或某些灾害现场及战场上的紧急情况等,不可预测及不可控的因素是无法避免的,这些均使得无人机之间的视距连接通信受到阻碍,在实际环境中无人机之间进行无限访问一个通信网络是不现实的。因此,多无人机协同完成任务过程中克服较差的通信环境显得至关重要。面对复杂多变的执行环境,航迹规划因任务的突变性而需要发生策略上的调整。多无人机协同联合优化任务分配和航迹规划属于一个复杂的组合优化问题,组合优化是在离散决策空间中进行决策变量的最优选择,DRL是根据当前环境做出动作选择,然后根据动作反馈不断调整自身的策略,两者的“选择决策变量”和“动作选择”很相似,而且DRL“离线训练、在线决策”的特性可以解决组合优化中的“实时求解”问题。因此,需要与实际情况相结合研究有限通信条件下的多无人机之间联合任务分配和轨迹规划的MADRL算法。

长期以来,许多研究员在轨迹规划上花费了很大精力,并提出了许多用于处理路径搜索和优化的算法。具有代表性的启发式算法有模拟退火算法、人工势场法、群智能算法如粒子群算法、蚁群算法。随着研究的深入,规划速度和轨迹规划的准确性在不断提高,传统算法仍存在实时性能低、容易落入局部最优等问题,很难对动态复杂问题进行建模,必须采取一些措施来改变轨迹规划算法的框架,而且大多数算法还需要全局的环境信息来计算最优结果,例如许多强化学习都是假设对环境的完全可观察性,或进行无限通信,这在现实生活显得不切实际。随着无人机数量的增加,部分可观察性及通信的限制会加剧系统的不稳定性。因此,必须解决多智能体深度强化学习在现实应用中存在的非平稳性、部分可观察性及有限通信问题。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足,提供有限通信下面向多无人机联合任务分配和航迹规划的方法,将LSTM-MADDPG算法引入到多无人机联合任务分配和航迹规划当中,首先根据多无人机实际有限通信环境,建立多智能体深度强化学习所需的二维环境模型,其中建立多无人机环境中危险区及其他无人机碰撞威胁的数学描述,将无人机的任务分配、无人机与目标的距离、无人机与无人机的碰撞以及无人机与危险区的碰撞作为约束条件,在有限通信环境下,除了要避免碰撞还要最小化总飞行航迹,进行学习训练进而得到多无人机的有效学习策略,可解决现实环境中出现的通信预算不足的问题,解决使用多智能体深度强化学习出现的非平稳性及部分可观测性问题。

为实现上述技术目的,本发明采取的技术方案为:

有限通信下面向多无人机联合任务分配和航迹规划的方法,包括:

步骤1:根据多无人机实际有限通信环境,建立多智能体深度强化学习所需的二维环境模型;

步骤2:建立多无人机联合任务分配和航迹规划环境中的组合优化问题描述和约束条件;

步骤3:基于步骤2的描述和约束条件,定义强化学习关键要素;

步骤4:根据步骤1构建的环境模型和步骤3定义的强化学习关键要素,构建并训练有限通信环境下面向多无人机联合任务分配和航迹规划的MADRL算法网络模型;

步骤5:采用训练完成的MADRL算法网络模型进行多无人机在动态且有限通信环境下最佳路径寻找。

为优化上述技术方案,采取的具体措施还包括:

上述的步骤1建立的深度强化学习所需的二维环境模型为:设定有限通信环境中存在若干个目标区域、若干个危险区域、若干架无人机,各区域的位置随机分配,其中目标区域数量与无人机数量相等,各无人机最终只能选择一个目标,从随机生成的地图中找到各无人机从不同起点到不同任务点的最佳路径,同时航迹过程中需要避免与其他无人机或者危险区发生碰撞。

上述的步骤2所述建立多无人机联合任务分配和航迹规划环境中的组合优化问题描述和约束条件,包括:

考虑一组无人机群U=(U

根据无人机U

用d

(1)、每个任务

(2)、每个任务只被一架无人机执行,即,

(3)、在航行过程中,每架无人机与其他无人机在任意t时刻没有碰撞,即,

(4)、任意t时刻,每架无人机的航迹路线都与危险区无碰撞,

上述的步骤3定义强化学习关键要素:

其中,

上述的步骤3包括:

步骤3-1:建立场景的智能体集合,由无人机群通信网络中的各无人机组成,无人机数等于智能体数,具体如下:

步骤3-2:建立无人机的状态空间;

所述状态评估智能体的动作对环境状态造成的影响,定义S,针对有限通信环境,用

t∈T,i∈N (6)

其中,通信预算由智能体之间共享,当全部预算为1.0,如果通信预算设置为总共可以发送x条消息,每发一条消息,预算则减少1/x倍,如果没有给出预算,则不允许通信,通信预算将为0.0,一旦通信预算为0.0,消息默认为空值(-1,-1);

步骤3-3:建立无人机的动作空间;

无人机的动作空间定义为A,采用

步骤3-4:建立无人机的奖励函数;

环境产生一种奖励作为评估决策质量的基础,所述奖励用来引导无人机朝对现有环境状态有益的方向去执行动作,针对联合优化任务分配和轨迹规划的问题,一方面考虑智能体之间进行合理的任务分配,设置距离任务点的距离作为正向奖励,越接近目标奖励越大,另一方面考虑智能体之间进行合理的轨迹规划,在航迹过程中需要避免与危险区及其他智能体发生碰撞,需要给智能体和危险区增加临界缓冲区;

对于多无人机任务分配和航迹规划的总代价而言,考虑航程代价和风险代价,完成任务的总路程越短,代表航程代价越小,在航迹中碰撞率越高,风险代价越大;

综上建立的奖励函数如下:

其中,

上述的步骤4包括:

步骤4-1:加载步骤1中创建的任一无人机的有限通信环境;

步骤4-2:无人机通过自身的确定性策略产生动作,无人机与危险区域、无人机与目标区域及无人机与无人机之间的相对位置发生动态变化;

步骤4-3:根据无人机的奖励函数计算无人机随机产生动作后得到的奖励值,得到无人机状态转移数据;

步骤4-4:每架无人机在每一时刻都不断产生状态转移数据并存储在自身的数据存储空间,每架无人机的状态转移数据存储空间定义为一个经验池,经验池中的每个状态转移数据称为一个经验;

步骤4-5:所述有限通信环境下面向多无人机联合任务分配和航迹规划的MADRL算法网络模型采用基于LSTM-MADDPG算法进行无人机控制网络更新;

步骤4-6:重复步骤4-2到步骤4-5,当达到设定的训练次数时停止训练;

步骤4-7:从步骤1中创建的N个无人机任务环境中选取未训练的无人机任务环境进行加载,重复步骤4-1到步骤4-6,直到加载完N个任务环境后结束训练。

上述的步骤4-3得到无人机U

其中,s

上述的步骤4-5中,每架无人机的控制网络包含:Actor网络和Critic网络;Actor网络和Critic网络都具有双网络结构,拥有各自的target网络和eval网络;

上述的步骤4-5包括:

步骤4-5-1:随机从每架无人机的经验池中取出不同时刻的m个经验组成经验包(S,A,S

其中,S和S

步骤4-5-2:将S

步骤4-5-3:定义Critic网络的损失函数为:

其中,

其中,γ是折扣系数,μ

以y

步骤4-5-4:采用off-policy方法进行训练和更新Critic网络中eval网络权重;

步骤4-5-5:每间隔固定时间通过soft update算法更新Critic网络中target网络和Actor网络中target网络的权重。

本发明具有以下有益效果:

首先根据有限通信条件下多无人机联合任务分配和轨迹规划的场景,建立多智能体深度强化学习所需的二维环境模型,其次,建立多无人机联合任务分配和航迹规划环境中的危险区域和目标区域的描述,将多无人机的航迹、距离和完成任务过程中的避障作为约束条件,进行学习训练,进而得到多无人机联合任务分配和航迹规划的模型。

本发明使用LSTM-MADDPG的多智能体强化学习算法,采用集中式训练分布式执行的原理,允许在学习时使用一些额外的信息(即全局信息),但是在应用决策时采用局部信息,又因为实际环境中的通信是有限的,环境是非稳定的,因此,本发明使用了critic网络的细胞状态作为学习信息的一种,来弥补使用额外信息时的部分信息的缺失。这样可以使得多无人机在动态、未知、非稳定及有限通信的环境下还能做出有效的决策。

本发明不仅采用了经验池和双网络结构,而且为解决有限通信限制,在critic的中间层用LSTM替换,来有效弥补了通信预算不足,使得整个网络即便在较低的通信环境中依旧能获得较为稳定提升的学习策略。

附图说明

图1为有限通信下多无人机联合任务分配和航迹规划的实现步骤示意图;

图2为有限通信下多无人机联合任务和航迹规划的场景示意图;

图3为基于LSTM-MADDPG算法的有限通信下多无人机联合任务分配和航迹规划网络模型图;

图4为LSTM的结构示意图,其中,左边是LSTM的结构,右边是LSTM的展开结构;

图5为多无人机之间有限通信示意图,右下角数据是三个无人机的有限通信数据;

图6为无人机的经验池结构示意图;

图7为Actor网络结构示意图;

图8为Critic网络结构示意图;

图9为无人机之间的安全距离示意图;

图10为无人机与危险区之间的安全距离示意图;

图11为本发明有限通信环境下面向多无人机联合任务分配和航迹规划的MADRL算法网络模型构建流程图;

图12为不同有限通信下多无人机联合任务分配和航迹规划测试结果奖励收敛图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

如图1所示,本发明提出了有限通信下面向多无人机联合任务分配和航迹规划的方法,基于LSTM-MADDPG算法实现,包括以下步骤:

步骤1:根据多无人机实际有限通信环境,建立多智能体深度强化学习所需的二维环境模型;

如图2所示,设定有限通信环境中存在若干个目标区域、若干个危险区域、若干架无人机,这些区域的位置都是随机分配的。其中目标区域数量与无人机数量相等,各无人机最终只能选择一个目标。从随机生成的地图中找到各无人机从不同起点到不同任务点的最佳路径,同时航迹过程中需要避免与其他无人机或者危险区发生碰撞。该环境采用的是一个二维平面环境,无人机飞行航迹是连续的,无人机需要在飞行过程中避免与其他无人机和危险区的碰撞,即便在有限通信环境下,也能达到目标区域,且实现总路径最佳。

该场景采用连续表示的环境模型。在连续表示的环境中,无人机所处的环境是连续的,飞行航迹也是连续的,可以将环境中的信息映射为坐标信息,用坐标的变化来反映环境的动态变化,通常也可以建立二维或者三维空间的环境模型。连续表示模型中无人机和目标的位置可以用坐标点来表示,并且可以建立无人机与无人机之间、无人机与危险区之间的碰撞安全区的数学表示。

步骤1-1:如图9所示建立无人机与无人机安全边界模型;如图10所示建立无人机与危险区安全边界模型。

其中

其中

步骤2:建立多无人机联合任务分配和航迹规划环境中的组合优化问题描述和约束条件;

将系统模型问题描述成一个复杂组合优化问题,主要包括两个子问题:任务分配和航迹规划。针对MUTATP这个复杂的组合优化问题,提出一种LSTM-MADDPG算法来解决。

步骤2-1:考虑一组无人机群U=(U

步骤2-2:根据无人机U

步骤2-3:为了减少无人机达到任务点的航迹路径带来的能量损耗,可以将该问题看成是一个旅行商问题(TSP),用d

其必须满足的约束条件有:

(1)、每个任务

(2)、每个任务只被一架无人机执行,即,

(3)、在航行过程中,每架无人机与其他无人机在任意t时刻没有碰撞,即,

(4)、任意t时刻,每架无人机的航迹路线都与危险区无碰撞,

步骤3:基于步骤2的描述和约束条件,定义强化学习关键要素;

根据上述描述,定义多无人机环境下的强化学习关键要素

其中,

在解决MUTATP问题的MADRL算法中以上元素定义如下:

步骤3-1:建立场景的智能体集合;

它是由无人机群通信网络中的各无人机组成,无人机数等于智能体数。

步骤3-2:建立无人机的状态空间;

状态是为了评估智能体的动作对环境状态造成的影响,定义该马尔可夫状态空间为S。本发明研究的是在有限通信环境中,用

t∈T,i∈N (6)

其中通信预算由智能体之间共享。当全部预算为1.0,如果通信预算设置为总共可以发送x条消息,每发一条消息,预算则减少1/x倍。如果没有给出预算,则不允许通信,通信预算将为0.0。一旦通信预算为0.0,它们的消息默认为空值(-1,-1)。多无人机之间的有限通信示意图如图5所示。

步骤3-3:建立无人机的动作空间;

无人机的动作空间定义为A,

步骤3-4:建立无人机的奖励函数;

环境将产生一种奖励,作为评估决策质量的基础。奖励是用来引导无人机朝对现有环境状态有益的方向去执行动作。考虑到本发明是联合优化任务分配和轨迹规划的问题。因此,一方面考虑智能体之间进行合理的任务分配,设置距离任务点的距离作为正向奖励,越接近目标奖励越大。另一方面考虑智能体之间进行合理的轨迹规划,在航迹过程中需要避免与危险区(障碍与禁飞区,在航迹规划时必须进行回避,属于硬约束)及其他智能体发生碰撞。这样需要给智能体和危险区增加临界缓冲区,相当于早期碰撞的预警机制。

对于多无人机任务分配和航迹规划的总代价而言,既要考虑航程代价也要考虑风险代价。完成任务的总路程越短,代表航程代价越小。在航迹中碰撞率越高,风险代价越大。

综上所述的奖励函数定义如下:

其中,

步骤4:根据步骤1构建的环境模型和步骤3定义的强化学习关键要素,构建并训练有限通信环境下面向多无人机联合任务分配和航迹规划的MADRL算法网络模型;

根据描述该场景中无人机之间存在竞争和合作关系,接下来建立一个LSTM-MADDPG框架的MAS来拟合优化条件解决该模型。

构建和训练有限通信环境下面向多无人机联合任务分配和航迹规划的MADRL算法网络模型,用于有限通信下多无人机联合任务分配和航迹规划决策。

步骤4-1:如图3和图11所示,加载步骤1中创建的任一无人机的有限通信环境;

步骤4-2:无人机通过自身的确定性策略产生动作,无人机与危险区域、无人机与目标区域及无人机与无人机之间的相对位置发生动态变化,从而致使无人机的通信环境也发生动态变化,呈现出非稳定性。

步骤4-3:根据步骤3-4的无人机奖励函数计算无人机随机产生动作后得到的奖励值,从而得到无人机状态转移数据;

无人机转移状态数据包括无人机当前时刻状态、无人机动作策略、无人机获得环境给的奖励值、无人机下一个时刻的状态及无人机选定动作前后critic网络的细胞状态;

无人机U

其中,s

步骤4-4:每架无人机在每一时刻都不断产生状态转移数据并存储在自身的数据存储空间,每架无人机的状态转移数据存储空间定义为一个经验池,经验池中的每个状态转移数据称为一个经验;无人机的经验池结构示意图如图6所示。

步骤4-5:采用基于LSTM-MADDPG算法进行无人机控制网络更新;

每架无人机的控制网络包含两个网络:Actor网络和Critic网络;Actor网络和Critic网络都具有双网络结构,拥有各自的target网络和eval网络。图7和图8分别为Actor网络和Critic网络的结构示意图。

步骤4-5-1:随机从每架无人机的经验池中取出不同时刻的m个经验组成经验包(S,A,S

步骤4-5-2:将S

步骤4-5-3:定义Critic网络的损失函数为:

其中

其中,γ是折扣系数,μ

以y

步骤4-5-4:采用off-policy方法进行训练和更新Critic网络中eval网络权重;

对于智能体i的确定性策略μ

其中策略梯度是

智能体i的actor网络可以通过最小化损失来更新;

其中N

步骤4-5-5:每间隔固定时间通过soft update算法更新Critic网络中target网络和Actor网络中target网络的权重;

步骤4-6:重复步骤4-2到步骤4-5,当达到设定的训练次数时停止训练;

步骤4-7:从步骤1中创建的N个无人机任务环境中选取未训练的无人机任务环境进行加载,重复步骤4-1到4-6,直到加载完N个任务环境后结束训练;

步骤5:使用训练完成的多无人机联合任务分配和轨迹规划的MADRL算法网络模型实现多无人机在动态且有限通信环境下寻找最佳路径。

实施例1:

本实施例中最终多无人机联合任务分配和轨迹规划的MADRL算法网络模型的网络结构设计为:Actor网络结构为三层,输入层是观测状态

超参数:实验使用Adam优化器的学习速率为0.01,目标网络更新的ε=0.01,折扣因子γ=0.95,经验缓冲区的大小为10

本发明在二维空间的连续环境模型中随机初始化3架无人机的位置,同时在环境中设置危险区的位置和3个目标位置,通信环境设置为有限通信,各无人机只能部分可观测。3架无人机从起点出发,避开环境中的危险区及动态飞行中的其他无人机,最终分别到达3个目标区域。

如图12所示为有限通信环境下多无人机联合任务分配和航迹规划的LSTM-MADDPG算法,通过实验设置有限通信分别为20、25和50情况下的奖励收敛情况,可以看到LSTM-MADDPG算法可以有效的处理部分可观测和有限通信的限制,即便在较低通信预算情况下依旧可以快速的收敛,训练出良好的学习策略。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

相关技术
  • 多无人机任务分配与航迹规划联合优化方法及装置
  • 多无人机探测任务分配与航迹规划联合优化方法及装置
技术分类

06120115931959