导航：首页> 冶金；黑色或有色金属合金；合金或有色金属的处理>一种边缘计算PLD任务卸载方法、装置及存储介质

一种边缘计算PLD任务卸载方法、装置及存储介质

文献发布时间：2023-06-19 18:37:28

技术领域

本发明涉及边缘计算领域，特别是涉及一种边缘计算环境下任务的高效卸载方法。

背景技术

随着神经网络与深度学习的发展，DQN等相关技术更多的被应用于边缘计算计算任务卸载相关领域。传统的深度学习算法往往选择最大Q值的动作作为下一步的动作，容易陷入局部最优陷阱。且模型中的超参数往往难以确定，只能通过不断的尝试确定一个最佳值。

综上所述，现有DQN边缘计算任务卸载模型与LSTM预测模型存在如下缺点：

1)现有的DQN边缘计算任务卸载策略往往选择最大Q值的动作作为下一步的动作，容易陷入局部最优陷阱；

2)现有的LSTM预测模型中的超参数往往难以确定，只能通过不断的尝试确定一个最佳值。

发明内容

本发明的目的在于解决上述现有技术存在的缺点会影响任务卸载策略的效率，在数据量较大时往往存在较大的误差与资源消耗，为系统带来较大负担的问题。

本发明为了解决上述技术问题，采用以下技术方案：

本发明提供了一种边缘计算PLD任务卸载方法，包括以下步骤：

S1：获取集群中系统整体的历史任务卸载情况数据，并对数据进行清洗；

S2：构建PLD模型所需的三大空间，采用LSTM模型与DQN模型构建PLD模型，并将清洗后的历史数据通过三大空间输入到PLD模型中完成预测模型训练；

S3：将即将到来的任务数据输入训练好的PLD模型，得到集群系统对每个任务的任务卸载策略。

上述技术方案中，S1中，数据清洗的详细描述如下：

S11：集群中系统整体的历史任务卸载情况数据，主要包括：任务容量大小，任务到达时间，任务结束时间，任务优先级，任务最大容忍时间，任务卸载目标：

S12：对指标数据进行清洗，首先对数据进行空值填充和数据脱敏；然后，对脱敏后的数据按照任务到达时间进行分组聚合；最后，对分组聚合后的所述一个时间段内的数据进行时间序列化和归一化后得到清洗后的集群历史任务卸载情况指标数据。

上述技术方案中，S2中，三大空间定义，PLD模型的构建以及模型的训练

过程详细描述如下：

S21：状态空间的建立：状态空间状态用来反映环境，它由终端，任务以及边缘服务器系统状态构成；

定义整个系统的状态空间为S＝{s

S22：动作空间的建立：动作空间用来规范系统对任务执行动作的范围，

定义动作空间A＝{a

S23：奖励空间的建立：奖励空间用来迭代更新系统，系统将通过奖励空间更新Q

agent在状态s

S24：随机初始化若干超参数值，得到超参数个数；

将超参数数据作为历史最优值赋值给LSTM模型，接着用PSO粒子群算法，对LSTM模型输入测试集合，通过多轮迭代对LSTM模型进行调优，取用预测值平均误差最小时的超参数值，当PSO粒子群算法达到最大迭代值后输出隐藏层层数以及各层神经元数这几项关键超参数的值以及调优后的LSTM模型；

将调优后的LSTM模型与DQN模型相结合，历史任务数据输入进LSTM模型中，再经过LSTM模型处理之后将预测动作输入DQN模型，DQN模型将以一定概率选择该预测动作而非完全选择选择Q

S25：PLD模型的输入数据是S1中得到的清洗后的历史任务卸载数据，并将数据按照预设比例分为训练集和测试集，对所述PLD模型进行训练。

上述技术方案中，S3中，边缘计算环境下集群系统的任务卸载策略的详细描述如下：

S31：在算法训练过程中，动作是由agent通过概率选择的，即将以1-ε概率选择拥有最大的Q

S32：基于历史记录，利用LSTM模型可以预测下一个到达任务动作信息，并将预测的信息给予DQN模型，提出对预测任务的卸载方案即决定任务在终端进行计算或是卸载至指定边缘服务器端进行计算，当实际任务到达时，将近期任务信息输入到训练好的PLD模型中，即可得到对近期任务的卸载策略。

S33：所述PLD模型选用均方误差法作为损失函数，并且通过梯度下降算法减小损失，损失函数如下，其中，Q

S34：所述模型中目标Q

其中r

本发明还提供了一种边缘计算PLD任务卸载装置，包括：

数据清洗模块：获取集群中系统整体的历史任务卸载情况数据，并对数据进行清洗；

预测模型训练模块：构建PLD模型所需的三大空间，采用LSTM模型与DQN 模型构建PLD模型，并将清洗后的历史数据通过三大空间输入到PLD模型中完成预测模型训练；

任务卸载策略模块：将即将到来的任务数据输入训练好的PLD模型，得到集群系统对每个任务的任务卸载策略。

上述技术方案中，数据清洗模块中，数据清洗的详细描述如下：

S11：集群中系统整体的历史任务卸载情况数据，主要包括：任务容量大小，任务到达时间，任务结束时间，任务优先级，任务最大容忍时间，任务卸载目标；

上述技术方案中，预测模型训练模块中，三大空间定义，PLD模型的构建以及模型的训练过程详细描述如下：

S21：状态空间的建立：状态空间状态用来反映环境，它由终端，任务以及边缘服务器系统状态构成；

定义整个系统的状态空间为S＝{s

S22：动作空间的建立：动作空间用来规范系统对任务执行动作的范围，

定义动作空间A＝{a

S23：奖励空间的建立：奖励空间用来迭代更新系统，系统将通过奖励空间更新Q

agent在状态s

S24：随机初始化若干超参数值，得到超参数个数；

S25：PLD模型的输入数据是S1中得到的清洗后的历史任务卸载数据，并将数据按照预设比例分为训练集和测试集，对所述PLD模型进行训练。

上述技术方案中，任务卸载策略模块中，边缘计算环境下集群系统的任务卸载策略的详细描述如下：

S31：在算法训练过程中，动作是由agent通过概率选择的，即将以1-ε概率选择拥有最大的Q

S33：所述PLD模型选用均方误差法作为损失函数，并且通过梯度下降算法减小损失，损失函数如下，其中，Q

S34：所述模型中目标Q

其中r

本发明还提供了一种存储介质，处理器执行存储介质中的程序时，实现如上述的一种边缘计算PLD任务卸载方法。

因为本发明采用上述技术方案，因此具备以下有益效果：

一、本发明将初始化后的随机超参数数据作为历史最优值赋值给LSTM，接着用PSO粒子群算法，通过一百轮迭代对其模型进行调优，取用预测值平均误差最小时的超参数值。通过与DQN算法的结合，数据输入进LSTM中，再经过 LSTM模型处理之后将预测动作输入DQN模型，模型将以一定概率选择该预测动作而非完全选择选择Q

二、本发明将PSO粒子群算法融入到LSTM模型中，使为LSTM模型赋超参数值时更加精确。

三、本发明定义了模型所需要的三大空间，分别为状态空间，动作空间和奖励空间。三大空间构成了模型运行的基础，所需要的数据基于三大空间流入模型。通过三大空间的建立，增强了系统的可扩展行，提升了系统的效率。

四、在算法训练过程中，动作是由agent通过一定概率选择的，即将以1- ε概率选择拥有最大的Q

附图说明

图1为本发明的实施提供的一种边缘计算PLD任务卸载方法框图。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

本发明提供了一种边缘计算PLD任务卸载方法，包括以下步骤：

S1：获取集群中系统整体的历史任务卸载情况数据，并对数据进行清洗；例如：将一组数据[20，2022-08-12 15:32:22，2022-08-12 15:32:24，3，12，0，4]，[30，2022-08-1215:32:24，2022-08-12 15:32:25，3，12，0，2]，[40，2022-08-12 15:32:23，2022-08-12 15:32:27，3，12，1，0]进行数据清理后得到[0.5，2022-08-12 15:32:22，2022- 08-12 15:32:24，1，1，0，1]，[1，2022-08-12 15:32:23，2022-08-12 15:32:27，1，1，1，0]，[0.75，2022-08-12 15:32:24，2022-08-12 15:32:25，1，1，0，0.5]。

S2：构建PLD模型所需的三大空间，采用LSTM模型与DQN模型构建PLD模型，并将清洗后的历史数据通过三大空间输入到PLD模型中完成预测模型训练；例如：将清洗后的数据组[0.5，2022-08-12 15:32:22，2022-08-12 15:32:24，1，1，0，1]，[1，2022-08-12 15:32:23，2022-08-12 15:32:27，1，1，1，0]，[0.75，2022-08-12 15:32:24，2022-08-12 15:32:25，1，1，0，0.5]输入PLD模型中完成训练。

S3：将即将到来的任务数据输入训练好的PLD模型，得到集群系统对每个任务的任务卸载策略。例如：输入任务k，得到结果任务被卸载至2号边缘服务器上进行计算。

上述技术方案中，S1中，数据清洗的详细描述如下：

上述技术方案中，S2中，三大空间定义，PLD模型的构建以及模型的训练

过程详细描述如下：

S21：状态空间的建立：状态空间状态用来反映环境，它由终端，任务以及边缘服务器系统状态构成；

定义整个系统的状态空间为S＝{s

S22：动作空间的建立：动作空间用来规范系统对任务执行动作的范围，

定义动作空间A＝{a

S23：奖励空间的建立：奖励空间用来迭代更新系统，系统将通过奖励空间更新Q

agent在状态s

S24：随机初始化若干超参数值，得到超参数个数；

S25：PLD模型的输入数据是S1中得到的清洗后的历史任务卸载数据，并将数据按照预设比例分为训练集和测试集，对所述PLD模型进行训练。

上述技术方案中，S3中，边缘计算环境下集群系统的任务卸载策略的详细描述如下：

S31：在算法训练过程中，动作是由agent通过概率选择的，即将以1-ε概率选择拥有最大的Q

S33：所述PLD模型选用均方误差法作为损失函数，并且通过梯度下降算法减小损失，损失函数如下，其中，Q

S34：所述模型中目标Q

其中r

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：彭京;葛城;张海超;田婷;牛新征;张凤荔;商元浩;
专利申请人：四川省公安科研中心;电子科技大学;

上一篇：一种耐点蚀易焊接用管线钢及其制备方法
下一篇：一种发动机试车系统