一种基于深度强化学习的边缘计算卸载方法

文献发布时间：2024-04-18 19:52:40

技术领域

本发明属于移动边缘网络计算卸载领域，具体涉及一种基于深度强化学习的边缘计算卸载方法。

背景技术

当前用户设备所产生的应用愈加复杂，对计算能力的要求也越来越高，移动边缘计算(Mobile Edge Computing,，MEC)被视为处理这种应用请求的可靠途径。而MEC中任务的计算卸载一直是其中的关键性问题，完善的计算卸载决策及其相应的最优资源分配方案能够极大地提升MEC的服务性能以及用户体验。另外在问题求解过程中，如何有效的提高计算效率，以满足MEC的低延迟等特性同样具有重要的研究意义。

多目标优化问题(MOP)是在现实各个领域中都普遍存在的问题，多目标优化的概念是在某个情景中需要同时达到多个目标时，由于容易存在目标间的内在冲突，一个目标的优化是以其他目标劣化为代价，每个目标不可能都同时达到最优，必须各有权重。但是，究竟要怎样分配这样的权重，这已经成为人们研究的热点问题。典型的多目标问题求解思路时对多目标问题进行数学建模，将其抽象为数值函数的优化问题。

作为能够处理海量数据的强大分析工具，深度学习可以对复杂环境进行特征提取，因而将深度学习应用在MEC计算卸载问题模型中非常具有可行性。此外，将深度学习与强化学习相结合所组成的深度强化学习，同时具备深度学习的强大分析能力和强化学习的复杂探索交互能力，可以被用来解决相对复杂环境下的问题。本文主要将深度学习和深度强化学习应用在MEC计算卸载相关领域，并且根据基于邻域的参数传递策略和DRL训练算法，通过训练好的神经网络模型可以直接获得帕累托前沿(PF)。

发明内容

本发明提出一种基于深度确定性策略梯度算法和邻域的参数传递策略的计算卸载求解方法(DDPG-OLA)，其可以有效地发挥深度强化学习的优势，快速获得帕累托最优解。与现有的并行方法相比，该方法具有更好的模型性能和更短的求解时间。

本发明的解决方案是：首先，将移动边缘网络中计算卸载问题建模为多目标优化问题，综合考虑时延与能耗，其中需要优化的参数为卸载决策、设备的CPU频率以及发射功率。采用分解的思想将MOP分解为一系列标量优化子问题，然后将每个子问题建模为马尔科夫决策过程，根据基于邻域的参数传递策略和DRL训练算法，协同优化所有子问题的模型参数。进一步得到问题的帕累托最优解。

本发明的具体步骤为：

步骤1：将计算卸载问题建模为多目标优化问题，优化目标为时延与能耗：

C3：0≤p

C4：s

其中

步骤2：采用线性分解的策略将问题分解为多个子问题；

步骤3：将每个子问题都建模成一个马尔科夫决策过程并使用DRL中的DDPG算法对其中的一个子问题的模型进行训练；

步骤4：根据基于邻域的参数转移策略进一步协同优化所有子问题的模型参数；

步骤5：重复步骤3和步骤4对每个设备的任务进行训练求解，得到训练好的模型；

步骤6：利用训练好的模型进行多目标优化问题的求解，得到该问题的帕累托前沿。

本发明的有益效果为，本发明是一种基于深度强化学习的边缘计算卸载方法，其利用线性分解策略将多目标优化问题分解为一组标量优化子问题，并以协作方式去求解模型参数。解决每个标量优化问题都可以获得一个帕累托最优解，因此当解出所有的子问题时，就可以得到期望的PF。

附图说明

图1为本发明方法顶层结构示意图；

图2为应用本文方法求解出的帕累托前沿。

具体实施方式

下面结合仿真以证明本发明的有效性和取得的进步：

如图1所示，为本发明的流程，具体包括：

步骤1：将计算卸载问题建模为多目标优化问题，这里的卸载决策考虑二进制卸载。

步骤1-1：考虑移动设备i本地执行的时延为

其中c

步骤1-2：考虑将任务卸载至MEC服务器时的时延为

其中d

其中w为信道的带宽，p

步骤1-3：将问题建模为多目标优化问题，并考虑一定的约束可以得到：

其中

步骤1-4：考虑约束条件以及要优化的参数，

C3：0≤p

C4：s

其中C1表示每个任务的执行时间不能超过其允许的最大时延。C2表示设备的本地CPU工作频率只能在有限的范围内动态调节，C3对设备的传输功率做了限制，C4表示任务的卸载为二进制卸载。

步骤2：通过线性加权和的方法将子任务分解为一系列标量子问题。给出一组均匀分布的权重向量λ

步骤3：为了通过DRL解决每个子问题，将子问题建模成为马尔可夫决策过程，通过DDPG算法对一个子问题进行求解。

步骤3-1：进行状态空间、动作空间以及奖励值的设置，状态空间和动作空间的设置一致，为{卸载决策，CPU工作频率，发射功率}，奖励值设置为当前状态的目标函数值减去下一状态的目标函数值。

步骤3-2：使用DDPG算法进行模型的训练。

步骤3-3：进行简单的前向传播得到子问题的帕累托最优解。

步骤4：通过基于邻域的参数转移策略以协作方式解决N个标量优化子问题。

步骤4-1：在步骤三的基础上，取出第i一1个子问题训练好的模型，再加以少量的训练，便可以得到第i个子问题的模型，因为两个问题的权重向量是相邻的，因此，子问题通过其相邻子问题的知识来辅助解决是可行的。

步骤5：重复上述的步骤对每个设备的任务进行训练求解。

步骤6：利用训练好的每个模型进行简单的前向传播，以此得到最终的近似PF。

将本发明提出的基于深度强化学习的边缘计算卸载方法应用于单个小区，即只含有一个边缘服务器，假设不考虑信道数量，每个移动设备在单个小区中通过OFDMA访问边缘服务器，因此设备与设备之间没有干扰。

为了验证本方法求解的正确性，本发明进行了仿真实验。首先固定权重为0.8，训练批次设置为1000，步长为100。从图中可以看出，对于测试的所有方法，采用深度强化学习DDPG算法可以获得更小的计算代价，由此可知该方法对于求解该问题是可行的。

同时，为了验证本发明方法求解PF的可行性，考虑模型间的参数传递，当第一个模型训练好之后，修改权重，读取上一个模型的参数，再进行小批次的训练，不断重复。最终得到的PF如图所示，由此可以看出，该方法对于获得PF是可行的。

完整全部详细技术资料下载