一种基于通信学习的多无人机轨迹优化和功率控制方法

文献发布时间：2024-04-18 20:02:40

技术领域

本发明涉及机器人智能决策与控制技术领域，尤其涉及一种基于通信学习的多无人机轨迹优化和功率控制方法。

背景技术

无人机作为空中基站（Unmanned Aerial Vehicle as aerial base stations，UAV-ABS）的应用引起了学术界和工业界的广泛关注。相较于地面固定无线基站，UAV-ABS具有以下的优点：首先，其三维移动性能够带来更高的视角，从而为地面用户提供更高可能性的视距无线传输链路，进而提升通信质量。其次，对于灾后地区如洪水、地震，或者短暂通信需求的热点地区如演唱会、演出场所，UAV-ABS是一个理想的解决方案。最后，无人机组网更加灵活，且所需链路的成本更低。此外，以无人机作为空中基站的网络正在成为下一代移动通信网络系统中不可或缺的组成部分。

UAV-ABS的部署仍然面临许多挑战，包括通信范围、带宽和能量消耗的限制。UAV-ABS需要在几乎每个时隙移动，以靠近地面用户提供高质量的无线服务。然而，过多的不必要移动会导致能量消耗增加，从而降低通信质量。此外，我们需要控制无人机的功率分配以实现通信质量和干扰管理之间的权衡。因此，我们迫切需要一个精心设计的策略，以帮助多个UAV-ABS自适应地进行功率分配并优化飞行轨迹。

传统的数学方法将上述非凸问题转化为凸问题进行求解，然而这种方法会牺牲精度，并且无法处理地面用户的移动性。现有的方法主要利用多智能体强化学习算法，如多智能体深度确定性策略梯度算法进行求解，但是其无法实现UAV-ABS之间的直接交流和信息共享。这种限制可能导致信息不对称，并阻碍UAV-ABS之间的合作。此外，随着UAV-ABS数量的增加，评论家网络受到不相关信息的影响的可能性也增加，也会产生维度灾难的问题。

发明内容

针对现有技术的不足，本发明提出一种基于通信学习的多无人机轨迹优化和功率控制方法。

本发明的技术方案如下：一种基于通信学习的多无人机轨迹优化和功率控制方法，包括以下步骤：

1）搭建多无人机辅助无线通信系统，包括无人机、地面用户和训练中心；定义运动模型、通信模型和能耗模型，构建联合优化目标函数；

2）将步骤1）中的联合优化目标函数转化为马尔科夫博弈，确定观测、动作和奖赏，设计多智能体强化学习算法用于求解联合优化目标函数问题；所述多智能体强化学习算法包括通信演员神经网络NN1，目标演员神经网络NN2，集中注意力评论家神经网络NN3和目标评论家神经网络NN4；

3）初始化无人机位置、地面用户的位置；初始化经验缓冲区和多智能体强化学习算法中的神经网络参数，包括通信演员神经网络参数

4）训练开始，初始化记忆存储设备

所述更新信息

对本地观测信息进行编码后，无人机中的通信演员神经网络NN1从记忆存储设备中读取经验并将其与之前编码信息相结合进行学习，公式表示为

无人机有选择地更新学习到的信息并将其存储在记忆存储设备

5）通信演员神经网络根据本地观测信息

6）当所有无人机给出

7）当经验缓冲区中存储的经验超过一定量时，训练中心抽取批量经验来更新神经网络参数；集中注意力评论家网络NN3利用批量经验计算当前动作值

8）无人机利用自身部署的训练好的通信演员神经网络NN1输出轨迹决策结果和功率控制决策结果。

所述多无人机辅助无线通信系统在多无人机无线通信场景下，

定义无人机的运动模型；地面用户的三维坐标定义为

（1）

其中

定义无人机通信模型；无人机通信模型同时考虑视距LoS和非视距NLoS；无人机n和地面用户m之间出现视距LoS的概率表示为：

（2）

出现NLoS的概率为

（3）

其中，

（4）

其中

（5）

其中

（6）

其中

定义能量消耗模型；无人机的能量消耗包括数据传输的通信能耗和移动过程中无人机的飞行能耗；为了简化分析，排除了无人机在起飞、着陆和悬停期间的能耗；定义

（7）

数据传输的通信能耗表示为

（8）

定义联合优化目标函数；多无人机辅助无线通信系统目标是通过控制T个时隙内无人机的运行速度和发射功率，同时最大化满足服务质量要求的地面用户数量并最小化能量消耗，所述联合优化目标函数表述为：

（9）

受限于

其中

所述马尔科夫博弈定义为，无人机通过选择动作、观测当前状态并在每个时隙获得实时奖赏，奖赏用于与环境交互；所有无人机的共同目标是通过选择最佳行动序列来最大化长期积累奖赏；

定义观测信息、动作和奖赏；无人机的观测信息包括所有无人机的位置信息以及其通信范围内用户的位置信息；

（10）

无人机的动作包括无人机

（11）

所有无人机目标为最大化满足服务质量的地面用户数量同时最小化多无人机辅助无线通信系统能耗；在执行任务途中满足各类约束，当不遵守约束时，会受到处罚

（12）。

所述步骤5）中通信演员神经网络结合自身观测信息

所述步骤6）中训练中心获得奖赏

（13）

（14）

（15）

其中

（16）

最终多头注意力层的输出为所有注意力权重的加权和

所述步骤7）中通过策略梯度下降的方式更新参数

（17）

其中

更新集中注意力评论家神经网络NN3参数，更新公式表示为：

（18）

其中

本发明的有益效果：针对现有技术的不足，本发明提出一种基于通信学习的多无人机轨迹优化和功率控制方法。为了帮助演员家网络在执行动作之前获取更多的先验信息，我们设计了一个通信机制，增设记忆存储设备以帮助UAV-ABS获取和利用其他无人机的经验，并存储自身学习到的经验。为了构建更有效的无人机合作策略并降低网络模型部署的成本，我们设计了集中注意力评论家神经网络，该网络能够减少冗余信息，并解决随着UAV-ABS和地面用户数量增加而出现的维度灾难问题。

附图说明

图1为基于通信学习的多无人机轨迹优化和功率控制方法流程图；

图2为多无人机辅助无线通信系统模型；

图3为通信演员家集中注意力评论家算法框架图；

图4为集中注意力评论家神经网络结构图；

图5 为不同算法训练奖赏图；

图6 为不同算法能量消耗对比图。

图7为不同算法满足服务质量的用户数量对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施案例，对本发明进行进一步详细说明。

为了实现上述目的，本发明所采用的技术方案为：一种基于通信学习的多无人机轨迹优化和功率控制方法，包括以下步骤：

步骤1：搭建多无人机辅助无线通信系统，定义运动模型、通信模型和能耗模型，构建联合优化目标函数。

步骤2：将步骤1中的联合优化目标函数转化为马尔科夫博弈，确定观测、动作和奖赏，设计多智能体强化学习算法求解联合优化目标函数问题。多智能体强化学习算法中包含多类神经网络：通信演员神经网络NN1，目标演员神经网络NN2，集中注意力评论家神经网络NN3和目标评论家神经网络NN4。

步骤3：初始化无人机位置、地面用户的位置；初始化经验缓冲区和多智能体强化学习算法中的神经网络参数，包括通信演员神经网络参数

步骤4：本发明设计一个通信机制帮助无人机获取、学习并更新其他无人机的通信经验，接着存储更新后的通信经验。训练开始，初始化记忆存储设备

步骤5：通信演员神经网络根据本地观测信息

步骤6：当所有无人机给出

步骤7：当经验缓冲区中存储的经验超过一定量时，训练中心抽取批量经验来更新神经网络参数；集中注意力评论家网络NN3利用批量经验计算当前动作值

步骤8：无人机利用自身部署的训练好的通信演员神经网络NN1输出轨迹决策和功率控制决策结果。

技术方案的流程图如图1所示。

所述的步骤1的具体步骤包括：

步骤1.1：在多无人机无线通信场景下，

多无人机辅助无线通信系统模型如图2所示。

步骤1.2：定义无人机的运动模型。用户的三维坐标定义为

其中

步骤 1.3：定义无人机通信模型。无人机通信模型同时考虑视距LoS和非视距NLoS。无人机n和地面用户m之间出现视距LoS的概率表示为：

出现NLoS的概率为

其中，

其中

步骤 1.4：定义能量消耗模型。无人机的能量消耗包括数据传输的通信能耗和移动过程中无人机的飞行能耗。为了简化分析，排除了无人机在起飞、着陆和悬停期间的能耗。定义

数据传输的通信能耗表示为

步骤 1.5：定义联合优化目标函数。多无人机辅助无线通信系统目标是通过控制

受限于

其中

所述步骤2的具体步骤包括：

步骤2.1：为了给算法建立清晰的问题设定，在使用深度强化学习的方法前先定义马尔科夫博弈。马尔科夫博弈定义为，无人机通过选择动作、观测当前状态并在每个时隙获得实时奖赏，奖赏用于与环境交互。所有无人机的共同目标是通过选择最佳行动序列来最大化长期积累奖赏。

步骤2.2：定义观测信息、动作和奖赏。无人机的观测信息包括所有无人机的位置信息以及其通信范围内用户的位置信息，其表示为：

无人机的动作包括无人机

所有无人机目标为最大化满足服务质量的地面用户数量同时最小化多无人机辅助无线通信系统能耗。在执行任务途中满足各类约束，当不遵守约束时，会受到处罚

（12）

步骤2.3：设计通信演员家集中注意力评论家算法CACAC来求解联合优化问题，算法框架图如图3所示。算法包含多类神经网络：通信演员神经网络NN1，目标演员神经网络NN2，集中注意力评论家神经网络NN3和目标评论家神经网络NN4。

初始化用户、无人机位置、神经网络参数以及经验缓冲区。神经网络参数包括通信演员神经网络参数

训练开始，初始化记忆存储设备

对每一个无人机而言，其通信演员神经网络NN1从记忆存储设备

所述通信机制包括获取、学习和更新三个步骤。对于每一个无人机而言，它们获取本地观测

对本地观测值进行编码后，无人机中的通信演员神经网络NN1从通信存储设备中读取经验并将其于之前编码信息相结合进行学习，用公式表示为

最后无人机有选择地更新学习到的信息并将其存储在记忆存储设备

所述步骤5包括：

步骤5.1：无人机结合自身观测、学习信息和更新信息给出动作，其公式表示为

步骤5.2：通信演员神经网络NN1由特征网络、动作网络和一系列线性变换组成。特征网络是一个三层的全连接神经网络，动作网络是一个两层的全连接神经网络。在前向传播过程中，自身观测信息

所述的步骤6的具体步骤包括：

步骤6.1：获得奖赏

步骤6.2：定义状态集

步骤6.3：集中注意力评论家神经网络NN3如图4所示，架构如下：模型的输入信息为所有无人机的状态和动作；首先我们利用多个全连接网络组成的线性层对输入信息进行编码，得到编码信息

其中

最终多头注意力层的输出为所有注意力权重的加权和

所述步骤7的具体步骤包括：

步骤7.1：利用策略梯度下降更新演员神经网络NN1参数：

其中

步骤7.2：更新集中注意力评论家神经网络NN3参数，更新公式表示为：

其中

步骤7.3：软更新目标评论家神经网络NN4参数

本发明利用python3.7作为编程语言来实现提出的方法，并进行后续的训练和验证。我们令算法的训练次数为30000次，每次训练的回合为25步，经验缓冲区抽取的训练集大小为256，通信演员神经网络NN1和集中注意力评论家神经网络的学习率都为0.001。为了评价方法的有效性，本发明与当前先进的MADDPG、Commnet强化学习算法进行对比。本发明提出的CACAC算法从奖赏、满足服务质量的用户数量和能量消耗三个指标来进行对比分析。图5表示三个算法在训练过程中奖励的变化，其中实线为本发明提出的方法。图6和图7分别表示3个算法在执行阶段满足服务质量的用户数量和能量消耗，其中菱形为本发明提出的方法。从图中可以发现，本发明提出的方法在训练过程中能较快地收敛并且达到更高的奖赏值，而在执行阶段本算法能够在较低的能耗下使得更多的地面用户满足服务质量，即本发明提出的方法具有较好的性能。

本发明并不限于上述具体实施方式，任何在本发明精神和原则下所作的修改、变化、替换等都应包含在本发明的保护范围内。本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

完整全部详细技术资料下载