导航：首页> 电通信技术>一种基于MEC环境的服务迁移决策方法、装置、设备及介质

一种基于MEC环境的服务迁移决策方法、装置、设备及介质

文献发布时间：2024-04-18 19:52:40

技术领域

本发明涉及移动通信技术领域，具体涉及一种基于MEC环境的服务迁移决策方法、装置、设备及介质。

背景技术

在5G通信和物联网的推动下，移动计算从集中式移动云计算(MCC)向移动边缘计算(MEC)转变，移动边缘计算是由欧洲电信标准协会ETSI提出的，即在移动网络边缘提供IT服务环境和云计算能力，移动边缘计算中最具挑战性的问题之一是考虑用户移动性的服务提供。移动性预测是在移动服务提供问题中实现有效服务迁移的关键功能，预测用户的未来位置和时间序列，则可以估计用户将来可能遇到的预期延迟，并为用户选择最优的MEC服务器。在早期的轨迹预测中，马尔可夫模型和隐马尔可夫模型(HMM)是人们用于预测的主要方法，但马尔可夫模型用于预测人类复杂运动轨迹的表现始终比较有限，且随着近几年深度学习技术的兴起与快速发展，利用神经网络对轨迹进行预测成为研究的新思路，而传统的循环神经网络(RNN)无法解决长期依赖问题。

发明内容

本发明的目的在于提供一种基于MEC环境的服务迁移决策方法、装置、设备及介质，针对MEC环境中的移动服务提供问题提出了BL-DRL框架，Bidirectional LSTM用于移动性预测，DRL用于迁移决策，通过结合提出的DRL框架和用户移动预测模型来处理移动性服务提供的问题。

本发明提供了一种基于MEC环境的服务迁移决策方法，所述方法具体包括：

基于多对多预测的Bidirectional LSTM模型，利用已知的人类活动流动性数据构建用户移动预测模型；

建立DRL框架，所述DRL框架包括状态s、动作a和奖励r，其中，状态s表示用户与各MEC服务器的距离以及用户当前位置，动作a表示用户可选择的MEC服务器，奖励r表示状态s下采用动作a的回报；

通过DQN算法训练所述DRL框架，并根据所述用户移动预测模型获得服务迁移决策模型，所述服务迁移决策模型用于预测用户在迁移过程的未来位置并为用户选择最优的MEC服务器。

进一步的，所述基于多对多预测的Bidirectional LSTM模型，利用已知的人类活动流动性数据构建用户移动预测模型，具体步骤包括：

将已知的人类活动流动性数据以预设比例划分训练集和测试集，并设定预测窗口大小；

基于多对多预测的Bidirectional LSTM模型，将所述训练集进行差分并获得第一差分序列，对所述第一差分序列做归一化处理后进行训练，获得预测差分值的模型；

将所述测试集进行差分并获得第二差分序列，再将所述第二差分序列输入至所述预测差分值的模型，获得预测差分值；

将所述预测差分值与用户当前时刻所在的位置相加，获得用户未来多个时间步长内的预测位置；

通过对所述预测位置和实际位置差值的绝对值进行求和平均，获得平均预测误差；

根据所述平均预测误差优化所述预测差分值的模型，获得用户移动预测模型。

进一步的，所述奖励r满足函数值r＝K-μ，其中，K表示用户请求数，μ表示固定值。

更进一步的，所述用户请求数为一个时间步长与MEC服务器处理每个用户请求的时间之商，所述时间步长为每次采集用户位置数据的时间间隔。

更进一步的，所述MEC服务器处理每个用户请求的时间满足

或

其中，T

更进一步的，所述数据传输时间为传输数据大小与通信容量之商，所述MEC服务器计算时间为任务负载大小与MEC服务器计算能力之商，所述MEC服务器内的虚拟机迁移时间为虚拟机大小和网络带宽之商。

进一步的，所述通过DQN算法训练所述DRL框架，具体包括：

基于DQN算法，设置第一神经网络和第二神经网络；

所述第一神经网络用于训练所述DRL框架的状态s、动作a和奖励r并获得预测值，在所述第一神经网络中采用贪婪策略抽取动作a并以经验回放的方式将每一步状态s、动作a、奖励r存储至经验池；

所述第二神经网络用于获取所述经验池的数据进行训练和在每第一预设时间段内拷贝所述第一神经网络的数据并更新，所述第二神经网络由公式(3)获得目标值，所述目标值满足

TargetQ＝r+γmax

其中，γ表示衰减因子，θ表示神经网络参数的均方误差损失权重；

根据损失函数在每第二预设时间段内更新所述第一神经网络，所述损失函数为

L(e)＝E[(TargetQ-Q(s,a；θ))

其中，TargetQ为目标值，Q(s，a，θ)为预测值，公式(4)为目标值与预测值的均方误差，通过梯度下降更新θ来最小化损失；

所述第一神经网络和所述第二神经网络设置动作约束，在输出动作时将非法动作屏蔽。

本发明还提供了一种基于MEC环境的服务迁移决策装置，所述装置具体包括：

第一处理模块，用于基于多对多预测的Bidirectional LSTM模型，利用已知的人类活动流动性数据构建用户移动预测模型；

第二处理模块，用于建立DRL框架，所述DRL框架包括状态s、动作a和奖励r，其中，状态s表示用户与各MEC服务器的距离以及用户当前位置，动作a表示用户可选择的MEC服务器，奖励r表示状态s下采用动作a的回报；

第三处理模块，用于通过DQN算法训练所述DRL框架，获得基于MEC环境的服务迁移决策模型，所述基于MEC环境的服务迁移决策模型用于为用户在迁移过程中选择最优的MEC服务器。

本发明还提供了一种计算机设备，包括：存储器和处理器及存储在存储器上的计算机程序，当所述计算机程序在处理器上被执行时，实现如上述方法中任一项所述的基于MEC环境的服务迁移决策方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时实现如上述方法中任一项所述的基于MEC环境的服务迁移决策方法。

与现有技术相比，本发明具有以下技术效果的至少之一：

1、设计了一种BL-DRL模型，可以共同解决移动服务的提供，即MEC环境中的迁移问题.

2、扩展了Bidirectional LSTM预测模型，该模型为M-DRL(mobility-aware deepreinforcement learning)训练提供了有用的粗粒度迁移率信息，提出了该移动性模型的独立训练算法，以实现更准确的移动性预测和模型重用。

3、对移动轨迹序列进行差分处理，消除了时间序列的自相关性，解决了LSTM预测的滞后性问题，极大地提升了预测精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于MEC环境的服务迁移决策方法的流程示意图；

图2是本发明实施例提供的一种基于MEC环境的服务迁移决策装置的结构示意图；

图3是本发明实施例提供的一种计算机设备的结构示意图；

图4是本发明实施例提供的Bidirectional LSTM模型的预测轨迹与真实轨迹的对比示意图；

图5是本发明实施例提供的Bidirectional LSTM模型与其他三种算法的奖励与迭代情况对比示意图；

图6是本发明实施例提供的Bidirectional LSTM模型与其他三种算法的延迟与迭代情况对比示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

参照图1，本发明提供了一种基于MEC环境的服务迁移决策方法，所述方法具体包括：

S101：基于多对多预测的Bidirectional LSTM模型，利用已知的人类活动流动性数据构建用户移动预测模型。

该实施例中，用户的移动会导致频繁的位置变化，从而出现服务中断或暂停的问题，因此分析用户的移动轨迹并预测未来轨迹引起了通信领域的广泛研究。利用行人过去时间段的移动轨迹，建立一个能高精度预测行人未来位置的模型是移动性预测的目标，通过建立模型进行学习人类运动规律，从而能在未来短时间内预测行人的运动轨迹。

在一些实施例中，所述基于多对多预测的Bidirectional LSTM模型，利用已知的人类活动流动性数据构建用户移动预测模型，具体步骤包括：

将已知的人类活动流动性数据以预设比例划分训练集和测试集，并设定预测窗口大小；

将所述测试集进行差分并获得第二差分序列，再将所述第二差分序列输入至所述预测差分值的模型，获得预测差分值；

将所述预测差分值与用户当前时刻所在的位置相加，获得用户未来多个时间步长内的预测位置；

通过对所述预测位置和实际位置差值的绝对值进行求和平均，获得平均预测误差；

根据所述平均预测误差优化所述预测差分值的模型，获得用户移动预测模型。

该实施例中，对于真实的人类痕迹，采用CRAWDAD NCSU数据集(I.Rhee,M.Shin,S.Hong,K.Lee,S.Kim,and S.Chong,“CRAW-DAD dataset ncsu/mobilitymodels(v.2009-07-23),”Downloaded from https://crawdad.org/ncsu/mobilitymodels/20090723,2009)来模拟人类的活动能力，使用该数据集中的来自纽约市的流动性数据来训练移动性预测模型，选择一条包含运动模式和停止模式的路径进行训练和测试，并将数据集中的用户数据以3:1的比例划分为训练集和测试集。预测窗口大小的设定值一般为2-6，当预测窗口大小设置为2时，预测值比真实值滞后，当预测窗口大小设置为6时，由于预测窗口大小过大而导致预测数据混进了不相干的其他数据，当预测窗口大小设置为5时相较合适但仍然出现预测值比真实值滞后的问题，原因是用户的移动性数据是一个时间序列，且该时间序列是非平稳时间序列(Non-stationary Time Series)，即包含趋势、季节性或周期性的序列，非平稳时间序列的观测显示趋势、季节效应或者其他依赖于时间指数的结构，均值和方差等汇总统计数据可能会随着时间而变化，这会扭曲模型可能试图捕捉的概念。经典的时间序列分析和预测方法是通过识别趋势，然后消除他们从而使非平稳时间序列数据平稳，因此可通过差分消除对时间的序列依赖性，将当前观察值中减去先前的观察值来执行微分，当需要将预测转换回原始比例时，需要将差分反转回原数据，通过将先前时间步长的观察值添加到差值，可以反转这个过程。以此方式，可以计算出一系列的差和反差。

将训练集和测试集都进行差分运算，即使用数据集中的t时刻与其前一时刻t-1做差分，分别得到第一差分序列和第二差分序列。由于用户在短时间内移动距离有限，用户的位置变化不大，因此需要将第一差分序列做归一化处理后，再结合多对多预测的Bidirectional LSTM模型进行网络训练，不然Loss难以降下来，最终效果会很差。训练结束后即获得预测差分值的模型，该预测差分值的模型可通过输入差分序列并输出预测差分值，因此将第二差分序列输入至该预测差分值的模型中，获得用户的预测位置。并且，为了提高该预测差分值的模型的精确性，通过对预测位置和实际位置差值的绝对值求和平均，得到平均预测误差，再根据平均预测误差优化该预测差分值的模型，最终获得用户移动预测模型。

此外，相比起循环神经网络(RNN)面临的不好训练、容易产生梯度爆炸的缺点，LSTM由于其内部特殊的结构：遗忘门、输入门、输出门，可以很好地避免训练困难的问题，同时也因为有了这种特殊门的出现，还可以很好的控制记住历史数据的能力。普通的Bidirectional LSTM的预测是多对一的预测，即使用之前的n个时间步长预测下一个时间步长，对它进行扩展，在当前时刻t，使用t-4到t预测出t+1时，在未得到新数据之前，继续使用t-3到预测出来的t+1个时间步长的数据预测t+2的数据，即通过反馈回来的预测数据继续移动窗口，直到得到t+5的数据，从而实现将原先的LSTM预测的多对一预测扩展为多对多预测。

S102：建立DRL框架，所述DRL框架包括状态s、动作a和奖励r，其中，状态s表示用户与各MEC服务器的距离以及用户当前位置，动作a表示用户可选择的MEC服务器，奖励r表示状态s下采用动作a的回报。

在一些实施例中，所述奖励r满足函数值r＝K-μ，其中，K表示用户请求数，μ表示固定值。

具体的，所述用户请求数为一个时间步长与MEC服务器处理每个用户请求的时间之商，所述时间步长为每次采集用户位置数据的时间间隔。

具体的，所述MEC服务器处理每个用户请求的时间满足

或

其中，T

具体的，所述数据传输时间为传输数据大小与通信容量之商，所述MEC服务器计算时间为任务负载大小与MEC服务器计算能力之商，所述MEC服务器内的虚拟机迁移时间为虚拟机大小和网络带宽之商。

该实施例中，DRL框架由状态s、动作a和奖励r构成，状态s用(L，d)表示，L代表用户当前的位置，包括横坐标和纵坐标，是一个二维矢量，d代表用户与各服务器的距离，动作a代表用户可选择的服务器，因此动作a就是用户选择的服务器索引，通过学习来找到每个时刻最佳的动作。DRL算法是找到最大化奖励的算法，在该DRL框架中，旨在使能处理的总请求数增多，即使总延迟最小化，因此设计了奖励函数r＝K-μ，其目的是优化奖励值，相当于实现低延迟。通过将用户请求数K与一个固定值μ作差，将得到的结果作为奖励r的值，若处理请求数高于阈值，则为正奖励，且处理请求数越多奖励值越高，若处理请求数少于阈值，则为负奖励。

用户请求数为一个时间步长与MEC服务器处理每个用户请求的时间之商，所述时间步长为每次采集用户位置数据的时间间隔，如在上述的CRAWDAD NCSU数据集中，相隔30秒采集一次用户位置信息，因此时间步长为30秒，而MEC服务器处理每个用户请求的时间则等于数据传输时间、MEC服务器计算时间、MEC服务器内的虚拟机迁移时间之和，或数据传输时间、MEC服务器计算时间之和(由于用户位置可能没有发生变化或者变化不大，因此会出现不需要迁移MEC服务期内的虚拟机的情况)。

将MEC环境中的移动服务提供问题表述为数学问题，该环境中包含三个部分，即MEC服务器、用户设备和任务模型，假设MEC环境具有一个表示环境时刻的时间计数器，该时间计数器从0开始到T，该环境内有n个MEC服务器用于处理用户请求，每个MEC服务器具有两个属性，分别是计算资源和计算能力，计算能力取决于MEC服务器的CPU，它决定了服务器处理请求的快慢。数据可以通过连接在MEC服务器之间传输，连接MEC服务器之间的链路的带宽为B。每个MEC服务器位于空间内的不同位置，当用户向服务器发送请求后，MEC服务器上的虚拟机将对该请求进行处理，MEC服务器接收请求后立刻对该请求进行计算，计算负载为task。计算结束后，MEC服务器再将结果发送回用户的移动设备。同时，当决定更改给用户提供服务的MEC服务器时，需要将原先MEC服务器内的虚拟机迁移到新的服务器。

移动服务提供问题的最优解是通过服务器合理迁移使平均延迟最低，任务的延迟由三个部分组成，分别是传输延迟、计算延迟和迁移延迟。传输延迟取决于两个因素：一是数据大小，一是用户与选择的服务器的距离，使用香农容量来模拟通信中的无线传输，同时由于MEC服务器生成的结果通常很小，因此可以通常忽略从MEC服务器到用户的传输延迟。将传输数据大小除以通信容量，则可以计算出传输延迟T

S103：通过DQN算法训练所述DRL框架，并根据所述用户移动预测模型获得服务迁移决策模型，所述服务迁移决策模型用于预测用户在迁移过程的未来位置并为用户选择最优的MEC服务器。

在一些实施例中，所述基于DQN算法，训练所述DRL框架，具体包括：

基于DQN算法，设置第一神经网络和第二神经网络；

TargetQ＝r+γmax

其中，γ表示衰减因子，θ表示神经网络参数的均方误差损失权重；

根据损失函数在每第二预设时间段内更新所述第一神经网络，所述损失函数为

L(θ)＝E[(TargetQ-Q(s，a；θ))

其中，TargetQ为目标值，Q(s，a；θ)为预测值，公式(4)为目标值与预测值的均方误差，通过梯度下降更新θ来最小化损失；

所述第一神经网络和所述第二神经网络设置动作约束，在输出动作时将非法动作屏蔽。

该实施例中，第一神经网络可用于输入状态s并输出各种动作a对应的Q(s，a)，并采用贪婪策略选择各种动作a中的某一个动作，为了保证一定的探索，大概率会选择Q值最大的动作，并将该动作输入到环境中，得到下一个状态s’和奖励r，获得一个经验(experience)：(s，a，s’，r)，并将该经验放入到经验池(Experience Replay Buffer)中。假设第二神经网络从经验池(Experience Replay Buffer)获取该经验，输入状态s’并输出和选择动作a’，最后以Q(s，a；θ)为网络的预测值，以TargetQ＝r+γmax

在推断阶段，网络模型将选择概率最高的动作，该模型只能预测一位用户的迁移。由于该实施例中只考虑单用户情况，而虚拟机通常会选择原先的服务器或与用户邻近的服务器进行迁移，因此有些动作是不合理的，同时考虑到动作空间过大不宜收敛，通过在模型最后设置动作约束(action mask)，在输出动作时将非法动作屏蔽，不让该动作和环境交互。

参照图2，本发明提供了一种基于MEC环境的服务迁移决策装置2，所述装置2具体包括：第一处理模块201，用于基于多对多预测的Bidirectional LSTM模型，利用已知的人类活动流动性数据构建用户移动预测模型；第二处理模块202，用于建立DRL框架，所述DRL框架包括状态s、动作a和奖励r，其中，状态s表示用户与各MEC服务器的距离以及用户当前位置，动作a表示用户可选择的MEC服务器，奖励r表示状态s下采用动作a的回报；第三处理模块203，用于通过DQN算法训练所述DRL框架，获得基于MEC环境的服务迁移决策模型，所述基于MEC环境的服务迁移决策模型用于为用户在迁移过程中选择最优的MEC服务器。

可以理解的是，如图1所示的基于MEC环境的服务迁移决策方法实施例中的内容均适用于本基于MEC环境的服务迁移决策装置实施例中，本基于MEC环境的服务迁移决策装置实施例所具体实现的功能与如图1所示的基于MEC环境的服务迁移决策方法实施例相同，并且达到的有益效果与如图1所示的基于MEC环境的服务迁移决策方法实施例所达到的有益效果也相同。

需要说明的是，上述装置之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

参照图3，本发明提供了一种计算机设备3，包括：存储器302和处理器301及存储在存储器302上的计算机程序303，当所述计算机程序303在处理器301上被执行时，实现如上述方法中任一项所述的基于MEC环境的服务迁移决策方法。

所述计算机设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该计算机设备可包括，但不仅限于，处理器301、存储器302。本领域技术人员可以理解，图3仅仅是计算机设备3的举例，并不构成对计算机设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器301可以是中央处理单元(Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器302在一些实施例中可以是所述计算机设备3的内部存储单元，例如计算机设备3的硬盘或内存。所述存储器302在另一些实施例中也可以是所述计算机设备3的外部存储设备，例如所述计算机设备3上配备的插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器302还可以既包括所述计算机设备3的内部存储单元也包括外部存储设备。所述存储器302用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器302还可以用于暂时地存储已经输出或者将要输出的数据。

本发明还一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器运行时实现如上述方法中任一项所述的基于MEC环境的服务迁移决策方法。

该实施例中，所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所公开的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

参照图4，图4是本发明实施例提供的Bidirectional LSTM模型的预测轨迹与真实轨迹的对比示意图，Bidirectional LSTM的预测轨迹与实际轨迹的差距如图所示，可以看出Bidirectional LSTM基本能准确预测绝大部分轨迹点。

Table 1 Comparison of the results of the four algorithms in thedataset

表1本发明实施例提供的Bidirectional LSTM模型与其他三种算法的误差结果对比

在表1中，比较了Simple LSTM、Stack LSTM、seq2seq和Bidirectional LSTM在数据集上的单步平均预测误差、多步平均预测误差、平均准确率AP，发现在进行差分运算之前，seq2seq可以通过较大的单元数得到预测最优，但是由于单元数过于庞大，这通常是不值得的，其余三种则在单元数较小时效果相近，而在进行差分运算后Bidirectional LSTM的性能优于另外几种，使用较小的单元数就可以得到比较优异的预测结果。BidirectionalLSTM的单步预测的误差约为18m，Simple LSTM的单步预测误差为19.3m，Seq2seq的单步预测误差为22.1m，Stack LSTM的单步预测误差为25m。多步预测中，扩展的其余三类算法均能提升预测精度，其中Bidirectional LSTM的效果最优，能达到14.9m。

参照图5至图6，分别比较了本发明实施例提供的Bidirectional LSTM模型与其他三种算法的奖励与迭代情况、延迟与迭代情况。

在图5和图6中，在将用户移动预测模型结合到DQN算法后，对比了不预测、线性预测、序列到序列预测、完美预测和双向Bidirectional LSTM预测结果。线性预测通过一个线性函数拟合用户的移动轨迹，误差较大，完美预测即知道用户未来的精准位置，没有误差，选择无预测作为下限，以证明引入的用户移动预测模型能为迁移决策提供有效信息，每个基准(无预测、线性预测、Bidirectional LSTM预测、seq2seq预测和完美预测)的平均奖励分别为279.42、292.61、318.89、320.98、337.1，平均延迟分别为20.0393ms、20.035ms、20.0253ms、20.0252ms、20.0189ms。除了不可能实现的完美预测，seq2seq的预测模型效果比线性和无预测的更好，但是seq2seq比本发明实施例提出的算法效果更差，以上数据表明，本发明实施例提出的奖励函数对训练有效，尽管通过训练迭代增加了报酬，但等待时间却减少。从以上结果可以看出，本发明实施例提出的算法效果略优于seq2seq，这说明在同样引入用户移动预测模型的情况下，扩展后的Bidirectional LSTM相对于seq2seq能提供更加准确的预测，并且能为MEC服务器迁移提供更加有效的信息。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：华南师范大学;

上一篇：一种油料泄漏的检测方法及计算机存储介质
下一篇：一种粘钢用高断裂伸长率胶黏剂及其制备方法