应急网络的无人机轨迹规划和资源分配方法

文献发布时间：2023-06-19 19:30:30

技术领域

本公开实施例涉及数据处理技术领域，尤其涉及一种应急网络的无人机轨迹规划和资源分配方法。

背景技术

目前，随着物联网的发展，有许多来自个人和组织的超密集异构设备通过传感器和应用程序定期生成和存储大量数据。物联网设备计算资源和电池能量受限，无法满足这些应用的要求。为了分析数十亿个边缘物联网设备生成的数据，计算任务将在云层中传输和执行。因此，计算成本会很高。边缘计算技术(Mobile Edge Computing，简称MEC)在网络边缘提供存储和计算资源，使得移动应用的计算密集型任务能够有效的从移动设备(Mobile Devices，MD)卸载到网络边缘的MEC服务器上，并在处理后得到即时反馈，降低用户能量消耗。但在举办大型活动(比如体育观赛等)的人口密集的热点区域，接入的终端用户呈爆发式增长，当大量用户同时接入网络时，会导致数据传输的高延迟和网络拥塞，降低用户体验或者固定的基础设施因为自然灾害等异常而损坏。因此，仅依靠在临近终端用户处部署固定的边缘服务器来满足即时的任务需求是不够的。

无人机(Unmanned Aerial Vehicle，UAV)使用当前的蜂窝技术向移动设备提供计算、带宽和电源资源等资源。因为其部署成本更低，可以灵活地将连接的传感器替换为部署到不同位置的一个设备，能够携带灵活的有效载荷，并且可以灵活地为任何地方的不同任务重新编程。除此之外，无人机能够避免地理环境影响，与用户建立高视距链路，减少信号阻塞，因此受到了人们的广泛关注。而现有卸载方案存在以下技术问题：1.基于传统启发式的卸载方案在用户的位置发生改变时，算法需要重新迭代计算，由于迭代次数较多，采用传统的启发式方法求解轨迹规划和计算卸载的优化问题非常耗时。2.由于现实世界的问题建模日益复杂，单个智能体的DRL方法很难进行集中控制。其原因在于集中式服务器与其他设备之间的通信延迟。3.现有的基于深度强化学习的方案直接应用于混合整数非线性规划问题会需要将连续变量离散化，而这样会导致高维动作空间问题，使得神经网络拟合效果变差，导致方案的整体效果降低。

可见，亟需一种控制和计算效率强的应急网络的无人机轨迹规划和资源分配方法。

发明内容

有鉴于此，本公开实施例提供一种应急网络的无人机轨迹规划和资源分配方法，至少部分解决现有技术中存在的部分问题。

第一方面，本公开实施例提供了一种应急网络的无人机轨迹规划和资源分配方法，包括：

步骤1，根据参数表初始化actor网络,critic网络学习率α

步骤2，分别更新每一个无人机智能体的actor网络参数θ

步骤3，判断训练序号h是否超过训练次数最大序号h

步骤4，初始化系统环境，获得初始状态S

步骤5，判断周期序号l是否超过周期最大序号大小l

步骤6，输入无人机所观测到的环境状态到无人机内actor网络，actor网络输出当前无人机i需要执行的动作

步骤7，为actor网络输出的动作添加OU噪声，并输出所有无人机的动作

步骤8，执行所有无人机的动作

步骤9，获得环境下一状态S

步骤10，为每一个无人机计算当前观测范围内用户的优先级函数，根据优先级函数计算用户的卸载次序，选择前W个用户取得最佳用户关联，计算无人机执行动作从环境获得奖励

步骤11，如果是一个更新周期则从缓冲池中随机抽取采样大小的数据，并且执行下一步骤，否则跳到步骤14；

步骤12，通过损失函数

步骤13，通过软更新公式分别更新目标网络的参数，其中，所述目标网络包括目标actor网络和目标critic网络；

步骤14，令l＝l+1，跳到步骤5；

步骤15，令l＝0并且h＝h+1，跳到步骤3。

根据本公开实施例的一种具体实现方式，所述步骤6之前，所述方法还包括：

在时隙t，每个无人机根据当前系统状态

根据本公开实施例的一种具体实现方式，所述优先级函数的表达式为

其中

根据本公开实施例的一种具体实现方式,所述损失函数的表达式为

其中，目标值

动作/>

根据本公开实施例的一种具体实现方式，所述策略梯度的计算公式为

根据本公开实施例的一种具体实现方式，所述软更新公式为

本公开实施例中的应急网络的轨迹规划和资源分配方案，包括：步骤1，根据参数表初始化actor网络,critic网络学习率α

本公开实施例的有益效果为：通过本公开的方案，该能源效率最大化问题分解成两个子问题，使用多智能体强化学习来输出无人机的飞行角度和飞行速度和，并且在移动到下一位置，利用我们提出的自适应优先级函数来选择用户进行卸载，线性时间的卸载决策降低了深度强化学习的动作空间搜索维度，提高了网络的收敛速度。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种应急网络的无人机轨迹规划和资源分配方法的流程示意图；

图2为本公开实施例提供的另一种应急网络的无人机轨迹规划和资源分配方法的流程示意图；

图3为本公开实施例提供的一种应急网络的无人机轨迹规划和资源分配方法的系统模型示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种应急网络的无人机轨迹规划和资源分配方法，所述方法可以应用于无人机起点的热点区域(体育馆等)或者是基础设施损毁的区域的应急网络的无人机轨迹规划和资源分配过程中。

参见图1，为本公开实施例提供的一种应急网络的无人机轨迹规划和资源分配方法的流程示意图。如图1和图2所示，所述方法主要包括以下步骤：

步骤1，根据参数表初始化actor网络,critic网络学习率α

具体实施时，可以先根据参数表初始化actor网络,critic网络学习率α

步骤2，分别更新每一个无人机智能体的actor网络参数θ

具体实施时，可以先分别更新每一个无人机智能体的actor网络参数θ

步骤3，判断训练序号h是否超过训练次数最大序号h

具体实施时，在对网络进行训练时，可以先判断训练序号h是否超过训练次数最大序号h

步骤4，初始化系统环境，获得初始状态S

具体实施时，可以初始化系统环境，获得初始状态S

步骤5，判断周期序号l是否超过周期最大序号大小l

具体实施时，训练过程中，可以判断周期序号l是否超过周期最大序号大小l

步骤6，输入无人机所观测到的环境状态到无人机内actor网络，actor网络输出当前无人机需要执行的动作

可选的，所述步骤6之前，所述方法还包括：

在时隙t，每个无人机根据当前系统状态

具体实施时，在时隙t，每个无人机UAV根据当前系统状态

步骤7，为actor网络输出的动作添加OU噪声，并输出所有无人机的动作

具体实施时，作为反馈，actor网络输出当前时隙中要在UAV执行的动作

步骤8，执行所有无人机的动作

具体实施时，当获得所有无人机的动作后，可以控制执行所有无人机的动作

步骤9，获得环境下一状态S

具体实施时，环境根据所有智能体的动作和预定义的状态转换函数生成下一时隙S

进一步的，对于无人机i，用户j所述优先级函数的表达式为

其中

具体实施时，向根据定义的自适应优先级函数计算每个任务的优先级，根据贪心算法选择前W个用户进行卸载。根据卸载决策计算出每个智能体的即时奖励

步骤11，如果是一个更新周期则从缓冲池中随机抽取采样大小的数据，并且执行下一步骤，否则跳到步骤14；

具体实施时，需要实时判断是否已经完成了一个更新周期，如果是一个更新周期则从缓冲池中随机抽取采样大小的数据，并且执行下一步骤，否则跳到步骤14。

步骤12，通过损失函数

在上述实施例的基础上，所述损失函数的表达式为

其中，目标值

动作/>

进一步的，所述策略梯度的计算公式为

具体实施时，考虑到能源成本和通信延迟，可以使用critic网络在训练过程中对其他智能体进行建模，从而评估actor网络的性能。因此，critic网络的输入包含一个时隙内所有智能体的观察值和行动值，即

在上式中，目标值

动作/>

步骤13，通过软更新公式分别更新目标网络的参数，其中，所述目标网络包括目标actor网络和目标critic网络；

进一步的，所述软更新公式为

具体实施时，actor网络的参数使用本地信息进行简单更新。培训过程完成后，将在执行阶段使用每个本地actor，并以分散的方式行事。对于在线actor网络，我们使用策略梯度更新其参数θ

最后，可以采用“软更新”方法更新逼近在线网络参数的目标网络，步骤τ<<1.

步骤14，令l＝l+1，跳到步骤5；

具体实施时，在完成一次更新周期后，可以令l＝l+1，跳到步骤5。

步骤15，令l＝0并且h＝h+1，跳到步骤3。

具体实施时，在训练完成后，可以令l＝0并且h＝h+1，跳到步骤3。

本实施例提供的应急网络的无人机轨迹规划和资源分配方法，应用背景明确，适用于任意无人机起点的热点区域(体育馆等)或者是基础设施损毁的区域。

传统的启发式方法在提出问题都会预设一些固定的值(任务大小、信道信息等)，但是实际情况往往会发生变化，算法引入深度强化学习解决了传统启发式方法不适用动态变化的复杂环境。

因为建模的问题是能源效率最大化问题，解决的问题中包括连续变量(无人机轨迹和信道资源)和离散变量，因为MADDPG算法只能应用于连续变量问题，无法优化离散变量，如果使用优化离散变量的MADQN算法同时优化连续变量和离散变量则会增大动作空间，导致收敛变慢。为了降低动作状态空间，我们所提出的改进算法将该问题分解成两个子问题，使用多智能体强化学习来输出无人机的飞行角度和飞行速度和，并且在移动到下一位置，利用我们提出的自适应优先级函数来选择用户进行卸载，线性时间的卸载决策降低了深度强化学习的动作空间搜索维度，提高了网络的收敛速度。

下面将结合一个具体实施例对本方案进行说明，在热点区域的MEC网络中，存在超密集异构设备，这些设备连接到不同小单元中的SBSs上。。但是，SBSs和其他终端使用蜂窝网络为移动设备(MD)提供服务。但是由于本地服务器将被大量的物联网(IoT)设备请求导致任务处理慢或者阻塞。或者由于突发性原因导致MEC服务器故障，小型单元网络覆盖将受到干扰。因此考虑考虑一个由M个用户M＝{1,2,…,M}和N＝{1,2,…,N}架无人机组成的无人机辅助系统。无人机配置具有强大计算能力的边缘服务器，从初始位置飞往一个区域大小为L×W为MD提供服务，MD收集的一部分数据可以通过无线链路卸载到无人机上执行。该系统在指定任务期间运行。为了便于说明，任务周期被划分为具有时隙长度τ的若干时隙，其索引为

考虑一个三维(3D)笛卡尔坐标系，其中每个用户j∈M分散在地面上，其水平坐标由c

一般来说，对于UAV-MD无线通信链路，视线(LoS)信道比其他信道更具优势。，其可以表示为公式(2)。

其中β

对于每个MD，其任务可以在本地执行，也可以卸载到无人机i上执行。引入一个二元变量s

无人机飞行模型。每个无人机i的数据传感的第一步是根据一定的方向和距离飞到目标位置；这一过程导致飞行延迟和能量消耗，分别用

计算模型

(1).本地计算

为了处理计算任务，每个用户j在不同的时隙具有有限的计算能力，表示为f

用户j用于本地计算的功耗建模为

(2).无人机辅助边缘计算

当用户选择将其计算任务卸载到无人机MEC服务器时，输入数据需要通过无线上行链路传输到UAV。每个用户的频谱带宽为B

其中，N

因此，在无人机辅助MEC网络中，用户总计算比特由本地计算比特和卸载比特组成，其计算如下：

就系统的总能耗而言，除了传输和计算中的能耗外，实际系统还涉及基带处理或电池备份引起的其他静态能耗。假设静态功率P

计算效率定义为总计算位与总能耗的比率，我们有

在部分计算卸载模式下，联合优化用户关联无人机飞行轨迹以及无人机带宽来使用户的计算效率最大化。因此，无人机辅助MEC系统的计算效率最大化问题可以表述为：

其中C1是对上传功率的约束，C2表示用户只能将任务上传到一个无人机上，C3是对无人机的速度约束，C4是对无人机最小处理比特约束，C5，C6分别是对无人机和用户的位置约束，C7是对无人机之间的距离约束。

本节为无人机机动性和用户关联问题提供了完整的解决方案。由于问题的复杂性，首先使用Dinkelbach将分式问题转换为整式问题，再根据变量的类别进一步简化分为轨迹调度和信道资源分配子问题和用户关联子问题，然后使用深度强化学习中的处理离散变量的MADDPG算法来求解无人机的轨迹和无人机的信道分配问题(连续变量问题)，在确定无人机位置的情况下，我们提出了一种自适应优先级函数来为用户决定卸载优先级，解决用户关联问题(01整数问题)。

简化问题

为了求解分式规划问题，应用Dinkelbach方法将原问题转化为基于相同约束条件的参数规划问题C1-C7。假设η

max{R(s(n),q(n),α(n))-η

P可以转化为参数问题P1，如下所示：

其中η为非负参数。定义F(η)＝R(s9n),q9n),α(n))-ηE(s(n),q(n),α(n))，这是η的严格单调递减函数。如果最优的能源效率η

虽然问题P1更容易处理，但由于离散变量和整数变量的耦合，问题P1仍然是非凸的。如果直接使用深度强化学习对轨迹和信道资源以及计算卸载进行联合优化，轨迹规划和资源分配离散化导致的动作空间是巨大的，为了解耦非凸问题，将问题P1分解为两个子问题SP1和SP2，并提出一种迭代方式求解它们。

(1).UAV轨迹调度与信道资源分配：

可以在给定用户关联的情况下，优化UAV的轨迹调度，问题可以表示为SP1：

目标函数关于UAV飞行轨迹q(n)和信道资源分配α(n)是非凸的，问题SP1仍然是非凸的。该问题虽然可以使用连续凸优化(successive convex optimization method，SCA)等方法来取得局部最优解，但是其方法函数化简求解复杂，一旦设定的环境发生改变或者任务模型发生改变，需要重新迭代。因此，考虑使用深度强化学习方法可以适应各种复杂易变的场景，减少计算次数，因此提出一种基于MADDPG的算法来解决该子问题。

(2).用户关联

问题P1中的用户关联是给定信道资源和无人机飞行轨迹的整数规划过程。

在问题SP2，连续变量被完全分离，只剩下二进制变量，这是一个标准的整数线性规划问题。为了尽可能的减低时间复杂度，这里我们提出一种基于公平性的自适应函数在线性时间复杂度来进行求解。

在SP2,问题中，连续变量完全分离，是一个标准的整数线性规划问题。为实现卸载公平，我们引入了平衡因子

表示在n时间之前已卸载的总次数。/>

我们将多用户关联和计算、通信资源分配问题表述为部分可观察马尔可夫决策过程(POMDP)，该过程可以定义为元组

状态空间

整个系统的状态空间定义如下：{S

观测空间

智能体(即UAV)的观察范围有限，也就是说，UAV只能从其广播范围内设备接收状态消息。因此，agent的观察空间通常是状态空间的子集。其中，我们用O＝{T，S

动作空间

根据策略和观察到的系统状态，每个UAV在每个时隙进行联合操作，包括轨迹规划和资源分配。由于轨迹规划和计算资源分配都会对任务成本产生影响，并且它们都是连续变量的优化，因此将它们结合起来考虑是合理的。具体来说，我们将动作空间定义为A＝{(v

奖励函数

其中

为了解决上述问题，本发明实施例提出了一种基于actor-critic框架的改进DRL算法。算法的框架图如图3所示。具体来说，我们将actor网络部署在无人机，因此每个UAV视为一个智能体，并应用多智能体DRL算法来提高无人机的飞行效率和信道资源分配效率。从而提高系统性能。由于多个智能体之间的通信可能会导致高延迟和能源成本，因此我们不采用明确的信息交换通道，而是利用critic网络来建模其他智能体，critic网络可以建立在远端指挥中心，以在所有UAVs的并发学习过程中寻求平衡状态。提出的多智能体DRL算法基于actor-critic框架，网络结构由两个组件组成：actor网络和critic网络。为了稳定训练过程，为每个actor网络和每个critic网络采用两个附加的神经网络。特别是，每个actor网络中都有一个在线actor网络(Online Actor Network)和一个目标actor网络(TargetActor Network)。同样，每个critic网络中都有一个在线评论家网络和一个目标评论家网络。作为智能体的策略功能，在线actor网络输出特定的动作来控制智能体。，我们为每架UAV训练一个独立的actor网络。基于所有智能体的观察和操作，critic网络输出每个智能体的状态操作值，可用于评估培训阶段的策略性能。下面介绍了详细的交互和网络更新方法。

1)在时隙t，每个UAV i根据当前系统状态

2)作为反馈，actor网络输出当前时隙中要在UAV i执行的动作

3)然后，环境根据所有智能体的动作和预定义的状态转换函数生成下一时隙S

4)步骤1)-3)为一个迭代，迭代完成后，生成的经验元组(O

5)考虑到能源成本和通信延迟，我们不采用明确的信息交换方式。相反，我们使用critic网络在训练过程中对其他智能体进行建模，从而评估actor网络的性能。因此，critic网络的输入包含一个时隙内所有智能体的观察值和行动值，即

在公式(18)中，目标值

在公式(19)中，动作

6)actor网络的参数使用本地信息进行简单更新。培训过程完成后，将在执行阶段使用每个本地actor，并以分散的方式行事。对于在线actor网络，我们使用策略梯度更新其参数θ

最后，我们采用“软更新”方法更新逼近在线网络参数的目标网络，步骤τ<<1.

在本发明实施例中，通信参数设置：

在无人机辅助MEC系统中，20个用户随机分布在100m×100m的二维区域内，为了更具有一般性，我们采用用户随机移动模型。在实验场景中，为了适应体育赛事或者由于意外导致的服务器设备不可用等各种场景，假设用户的任务是随机到达的。5架无人机从初始位置飞到用户区域为用户提供服务，用户的计算任务可以卸载给无人机执行，也可以在本地执行。假设无人机在100米的固定高度飞行。通信、计算和飞行的其余参数汇总在表1中。

表1

超参数设置：

假设每个智能体都具有相同的DNN体系结构。更具体地说，Actor网络和Critic网络都有一个输入层、两个隐藏层和一个输出层，其中第一和第二隐藏层分别有128和256个神经元。可以使用Adam优化器以0.001的学习率优化DNN参数，并每ψ＝25个周期更新一次DNN。训练批大小和回放缓冲区大小分别设置为256和10000。未来奖励的折扣因子γ为0.9，目标网络的软更新率τ设置为0.05。

本发明实施例针对应急网络中基础设施损坏或者流量过载的情况，提出了一种无人机辅助边缘计算的方法，来解决基础设施无法为用户提供服务的紧急情况，具体通过提出一种基于多智能体深度强化学习的方法，从无人机的轨迹规划和用户关联以及通信资源分配三个维度联合优化来最大化整个系统的计算效率，通过本公开的方案，提高了系统的计算效率。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：漆华妹;周政;盛羽;江苏;
专利申请人：中南大学;

上一篇：一种双极式储能变流器高性能控制方法
下一篇：一种硝酸溶液中制备硫酸钙并纯化的方法