基于深度强化学习的卫星移动边缘计算卸载决策方法

文献发布时间：2024-04-18 20:00:50

技术领域

本发明属于移动边缘计算、无线通信和计算机领域，涉及一种基于深度强化学习的卫星移动边缘计算卸载决策方法。

背景技术

随着5G网络和物联网(IoT)的快速发展，虚拟现实、高清直播、自动驾驶、工业自动化、智能家居等众多具有发展前景的应用和服务应运而生。5G网络提供的优势，例如超高数据速率、低延迟、高可靠性和海量连接。然而，除了高效可靠的通信外，广泛的应用还需要海量的计算能力。例如，虚拟现实和高清视频流需要大量的计算资源来进行渲染和视频编码/解码，而自动驾驶汽车则依靠计算来进行基于人工智能(AI)的转向控制。这些计算密集型应用程序对资源受限的终端设备，尤其是物联网设备的电池和计算能力提出了巨大挑战，这推动了云计算的发展，其中计算密集型应用程序被卸载到具有集中和丰富计算资源的云服务器上。虽然云计算可以显着降低用户的计算延迟和能耗，但由于终端用户与云服务器之间的传输距离较远，因此可能无法满足对延迟敏感的应用程序的需求，例如手机游戏和增强现实。为了解决这个问题，移动边缘计算(MEC)得到了广泛的研究，其利用网络边缘的计算资源来提供高效灵活的计算服务。在5G无线系统中，将部署超密集网络边缘设备，例如宏/小型蜂窝基站和WiFi接入点，这些设备可以提供呈指数级增长的边缘计算资源。MEC中的许多重要问题已得到广泛研究，包括卸载任务模型、能源效率、延迟降低以及通信和计算的联合优化。

然而，传统的地面网络已经无法满足全球对无处不在的连接的需求，因为它们很难完全覆盖例如沙漠和海洋等一些复杂的地形，在这些地区，虽然物联网设备可以广泛部署以执行某些计算要求相对较高的应用程序，例如，传感信息的融合，特别是对高清声音或视频信息的处理，但这会很快耗尽汇节点的电池，并导致较大的处理延迟。由于缺乏地面接入网络覆盖，典型的边缘和云计算范式无法应用于此类场景。同时，在自然灾害的影响下，地面通信网络很容易因设施损坏而造成大范围的通信中断。受益于卫星星载处理技术的发展，边缘计算增强的卫星网络也成为集成卫星和地面网络的热门话题。一般来说，现有的卫星通信系统可以分为地球同步轨道(GEO)、中地球轨道(MEO)和低地球轨道(LEO)三类。在三类卫星系统中，具有通信成本低、设备小型化、传输时延小等特点的LEO卫星正在成为未来集成卫星和地面网络的重要组成部分。具有移动边缘计算(MEC)功能的LEO卫星的星地集成网络(STIN)已被认为是未来网络的趋势。由多颗低轨卫星(LEO)组成的大型卫星星座可以满足全球覆盖的要求，其传播时延已达到毫秒级。

之前的许多工作只将卫星视为一种中继网络，而忽略了直接在卫星上处理任务的可行性。受MEC技术在地面部署的启发，现有研究提出了LEO卫星边缘服务器(SatEC)的结构。它可以直接在卫星上进行计算和内容分发，可以有效降低卫星作为中继点时频繁出现的星地链路传输损耗和端到端延迟，还可以节省带宽资源。此外，这种卫星边缘计算方法可以在地面计算设施部署稀疏、建设成本高、维护成本高的偏远地区提供大时空尺度的快速通信服务。

卫星边缘计算在为终端用户提供便捷的计算解决方案的同时也存在一些困难。首先，链路的有限信道容量将导致卫星和地面之间的传输延迟不可忽略。其次，考虑将用户的任务卸载到何处进行计算处理以提高系统的性能也是一个关键的问题。因此，寻找合理的带宽分配和卸载的最佳决策的问题亟待解决。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习的卫星移动边缘计算卸载决策方法，从网络总体性能的角度出发，综合考虑网络设备的通信和计算资源，为系统中的用户设备提供一种细粒度的计算卸载方法，以最小化系统的能耗和延迟的加权和。

为达到上述目的，本发明提供如下技术方案：

基于深度强化学习的卫星移动边缘计算卸载决策方法，该方法以N个用户设备、S颗低轨卫星以及一远程云服务器作为系统环境，在该系统环境中，用户设备计算任务的卸载决策被构建为马尔可夫决策过程，再通过深度强化学习对马尔可夫决策过程进行训练，从而优化用户设备计算任务的卸载决策。

其中，马尔科夫决策的状态空间表示为：State＝{Q

马尔科夫决策的动作空间表示为：action＝{Rw(t),xw,r

马尔科夫决策的奖励函数表示为：R＝-θ-p

进一步地，目标函数θ由用户设备卸载任务的总能耗和总延迟的加权和组成，如下式所示：

C1:xw∈{1,2,…,s,s+1}

C2:Rw∈[0,1]

C3:f

C4:r

式中，α表示权重因子，α∈[0,1]；E

进一步地，总能耗E

本地能耗表示为：

式中，f

任务卸载到卫星边缘服务器的能耗表示为：

式中，

任务卸载到远程云服务器的能耗表示为：

式中，

进一步地，总延迟T

本地延迟表示为：

式中，ρ(t-Ti)表示用户设备本地的排队延迟，D

任务卸载到卫星边缘服务器的延迟表示为：

式中，

任务卸载到远程云服务器的延迟表示为：

式中，

进一步地，通过深度强化学习训练马尔可夫决策过程的步骤包括：

S1、随机初始化用户设备中Actor网络、Critic网络、Target Actor网络、TargetCritic网络和经验回放池R的参数；其中，Actor网络的参数初始化为θ

S2、初始化状态空间s

S3、状态s

S4、执行动作a

S5、将四元组(s

S6、更新网络参数：

S61、从经验回放池中随机取出一个小批量的数据(s

S62、通过Target Actor网络计算出状态s

S63、通过Actor网络计算出状态s

S64、通过软更新的方式更新Target Actor网络和Target Critic网络，具体地，Target Actor网络的参数更新过程为θ

本发明的有益效果在于：

(1)本发明通过深度强化学习算法替代传统的优化方法，能够在一个较短的时间内找到用户任务的最优卸载方案，相比于传统的基于卫星的移动边缘计算卸载，大大降低了时间复杂度。

(2)本发明采用基于连续动作空间的深度强化学习算法，充分考虑了现实世界的任务，即一个大的任务可以通过细粒度划分为一些小数据量的任务，从而实现分散卸载，可以避免将连续动作空间离散化而造成的维数灾难，并且可以获得更好的局部执行和任务卸载控制，提高系统性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明实施例提供的基于深度强化学习的卫星移动边缘计算卸载决策方法流程示意图；

图2为本发明网络架构示意图；

图3为卫星移动边缘计算卸载决策方法的算法结构示意图；

图4为奖励函数收敛示意图；

图5为损失函数收敛示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

如图2所示为本发明的网络架构，针对网络中存在的U个用户设备，存在S颗低轨卫星，并且在地面还有一个计算能力远远强于卫星和用户的远程云服务器，当卫星的计算能力不足以处理用户任务的时候，卫星可以通过星地链路将任务转发到远程云服务器进行处理。每一个用户都有计算任务W

用户在每个时隙产生的计算任务数量的期望服从到达率λ的泊松分布。用户输入计算任务的大小随时间变化，也就是说地面用户的需求会随着时间进行变化。用户的任务会按照生成时间的先后顺序进行排队，然后系统可以根据当前环境状态在队列中同时安排多个任务进行处理。用户的计算任务可以选择在用户本地进行处理，或者通过无线链路卸载到卫星进行处理，又或者是通过卫星转发到地面云服务器进行处理。在本发明所述的网络模型中，用户的任务为可按比特划分的细粒度任务，用户可以通过卸载决策来决定在本地计算和在卫星计算的任务的比率，也就是说用户所卸载的任务为整个任务的一部分，也叫部分卸载，剩余部分则留在用户本地进行计算处理。在每一个计算周期中，用户设备都需要将该次卸载的卸载地点、卸载任务比率、分配的通信资源和分配的计算资源通过当时的系统状态计算得出。并且根据此计算结果进行任务的卸载，得到下一个系统状态。如图1和3所示，为本发明一实施例提供的基于深度强化学习的卫星移动边缘计算卸载决策方法，具体如下：

步骤一、定义网络中各用户设备n在时隙τ的状态空间、动作空间和奖励函数。

(1)用户设备n在时隙τ的状态空间定义为：State＝{Q

(2)用户设备n在时隙τ的动作空间定义为：action＝{Rw(t),xw,r

(3)用户设备n在时隙τ的奖励函数定义为：R＝-θ-p

其中，θ如下式所示：

C1:xw∈{1,2,…,s,s+1}

C2:Rw∈[0,1]

C3:f

C4:r

目标函数θ表示用户卸载任务的总能耗和总延迟的加权和。式中，α表示总能耗和总延迟的权重因子，α∈[0,1]；E

1、其中的总能耗E

1)本地能耗：

该能耗模型使用的是每个周期的能耗模型e＝kf

2)任务卸载到卫星边缘服务器的能耗：

式中，

此外，若用户的任务需要通过接入卫星转发到其他的相邻卫星，则需要在e

3)任务卸载到远程云服务器的能耗：

任务卸载到远程云服务器，由于地面的云服务器具有足够的计算能力，因此可忽略云服务器的计算能耗。所以当任务卸载到云服务器时的能耗为用户的传输能耗和卫星的转发能耗两部分。式中R

因此对于每个用户设备上的任务来说，总能耗可以表示为：

2、目标函数θ中的总延迟T

1)本地延迟：

式中ρ(t-Ti)表示用户本地的排队延迟。

2)任务卸载到卫星边缘服务器的延迟：

其中

此外，若用户通过接入卫星将任务卸载到了其他相邻卫星，则需要在上述延迟t

3)任务卸载到远程云服务器的延迟：

云服务器处理任务的延迟包括五个部分，分别为等待延迟、任务在云服务器的计算延迟、用户传输任务到卫星的传输延迟、卫星转发任务的传输延迟和用户到卫星再到云服务器的传播延迟。式中d

因此对于每个用户设备上的任务来说，总延迟可以表示为：

式中，xw表示任务的卸载地点。

步骤二、以N个用户设备、S颗卫星边缘服务器和一个远程云服务器作为系统环境，基于步骤一中定义的状态空间、动作空间和奖励函数，利用深度强化学习算法DDPG对用户设备任务卸载和通信与计算资源分配进行联合训练，以优化用户设备的卸载决策。

具体地，在每一个用户处都包含一个初始参数为θ

具体的训练步骤如下：

1、首先随机初始化网络的参数，包括Actor网络的参数θ

2、初始化状态空间s

3、通过将状态s

4、在环境中执行动作a

5、将四元组(s

6、网络参数更新：

6.1、首先从经验回放池中随机取出一个小批量的数据(s

6.2、利用Target Actor网络计算出状态s

6.3、利用Actor网络计算出状态s

6.4、当Actor网络和Critic网络都更新完成后，通过软更新的方式更新TargetActor网络和Target Critic网络。即引入一个学习率ξ，将旧的Target网络参数和新的对应的网络参数加权平均后再赋值给Target网络。其中Target Actor网络的参数更新过程为θ

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：重庆邮电大学;

上一篇：一种串联式电动汽车制动能量回收系统及其控制方法
下一篇：吸音材料及其制备方法、装置、设备、炭基粘结剂及应用