车载边缘环境下基于深度强化学习的任务卸载方法

文献发布时间：2024-04-18 19:58:30

技术领域

本发明属于车联网及移动边缘计算的技术领域，主要涉及了一种车载边缘环境下基于深度强化学习的任务卸载方法。

背景技术

车联网(Internet of Vehicles，IoV)是将传统的车辆自组织网络和车辆远程信息处理相结合的新范式，其可以有效地改善车辆服务并增强车辆的能力。在IoV中，智能车辆能够运行各种应用，例如碰撞警告，自动驾驶和自动导航等。车载智能应用不仅需要大量的计算资源和存储资源，而且还具有严格的延迟要求。为此，一种新的联网范例，车载边缘计算(Vehicular Edge Computing，VEC)应运而生。

车载边缘计算技术将车辆、边缘计算、云计算三者相结合，充分发挥了边缘计算和云计算两者的优势。VEC在路边节点单元(Roadside Unit，RSU)中部署具有计算和存储功能的移动边缘服务器(MobileEdge Computing，MEC)，这使得车载应用不仅能够卸载到云服务器同时还能够卸载到通信范围内的RSU进行处理，其提供了更强大的计算和通信能力，解决了资源、数据共享、实时性以及数据隐私安全方面的限制。此外，利用边缘计算服务器的开放接口，还能更灵活地部署车联网服务应用，车载边缘计算现已成为车联网研究中的热门话题。

车载边缘环境下基于深度强化学习的任务卸载方法，许多研究者已提出不同的方法，现有的方法主要有凸优化/非凸优化等传统智能优化算法以及强化学习算法两类。然而，在VEC环境中，计算卸载的研究对象是车辆，而车辆的移动性会导致网络拓扑结构的动态变化。传统的凸优化算法或启发式算法不适用于车辆，资源和信道状态的动态变化的车辆网络。同时，当前针对车载边缘计算的任务卸载的强化学习算法大多只考虑0-1类型独立任务，没有考虑到任务可分割的情况。并且，尽管基于DQN或DDPG的强化学习算法能够解决动态计算卸载的挑战，但对于如综合考虑任务卸载决策以及资源分配等混合动作空间的问题，仍然不能够很好处理。

发明内容

本发明正是针对现有技术中的问题，提供一种车载边缘环境下基于深度强化学习的任务卸载方法，包括预处理阶段、解决方案阶段及卸载决策阶段，首先构建车载边缘网络系统架构，并根据车载边缘网络系统架构建立通信、计算模型以及目标优化问题；再根据系统的动态性，对车辆调度、资源分配和任务卸载进行联合优化，所述优化过程被表述为马尔可夫决策过程(MDP)，开发强化学习框架，并根据强化学习框架构建和设置基于PA-TODM-DDPG的深度强化学习模型；最后使用训练好的PA-TODM-DDPG求解最优卸载策略，完成卸载。本发明将车辆移动性、时变信道状态、任务卸载决策和资源分配的混合动作空间要求进行联合考虑，从减少系统成本的角度考虑可分割的独立车载任务卸载问题，通过联合优化系统能耗和总体时延降低系统总成本。

为了实现上述目的，本发明采取的技术方案是：车载边缘环境下基于深度强化学习的任务卸载方法，包括预处理阶段、解决方案阶段及卸载决策阶段：

A.预处理阶段：构建车载边缘网络系统架构，并根据车载边缘网络系统架构建立通信、计算模型以及目标优化问题；

B.解决方案阶段：根据系统的动态性，对车辆调度、资源分配和任务卸载进行联合优化，所述优化过程被表述为马尔可夫决策过程(MDP)，开发强化学习框架，并根据强化学习框架构建和设置基于PA-TODM-DDPG的深度强化学习模型；

C.卸载决策阶段：使用训练好的PA-TODM-DDPG求解最优卸载策略，完成卸载。

作为本发明的一种改进，所述预处理阶段中，车载边缘网络系统架构包括车辆层、边缘层和云层；其中，

所述车辆层包括道路上配备有有限计算资源的用户车辆，每个车辆与基站和路边单元进行通信；

所述边缘层由部署在地图的不同区域中的路边节点组成，所述路边节点包括具有有限信号覆盖范围能力的RSU和连接到具有计算和存储资源的RSU的移动的边缘计算服务器；

所述云层指云服务层，包括通过有线链路连接到基站的高性能计算资源，提供资源支持。

作为本发明的另一种改进，所述预处理阶段的通信、计算模型中，任务Ti在时隙t中的延迟包括两个部分，移动边缘服务器上的传输延迟和执行延迟；其中，任务T

其中，θ

对于卸载到移动边缘服务器的任务，执行延迟为：

其中，C

云服务器上传输和执行延迟可以表示为：

其中，V

作为本发明的另一种改进，所述预处理阶段的目标优化问题包括如下约束：

s.t.C1：max{T

C5α(t)+β(t)＝1

C6θ

C7α(t)∈[0，1]，β(t)∈[0，1]

C8 a

其中，C1是延迟约束，其意味着任务等待时间不能超过最大容许延迟；C2和C8是卸载约束，其指示任务T

作为本发明的又一种改进，所述解决方案阶段具体包括如下步骤：

B1.提出车载边缘计算系统强化学习框架，所述学习框架表示智能代理车辆和环境之间的相互作用，相互作用的过程抽象和建模为马尔可夫决策过程(MDP)，其中代理的动作和环境的状态遵循马尔可夫属性；

B2.定义马尔可夫过程，至少包括状态空间、动作空间和奖励方程，其中，

所述状态空间包括车辆的位置信息、欧打破迷关移动边缘服务器的位置信息、资源信息、任务大小以及计算复杂度信息：

所述动作空间包括卸载决策和卸载比例两个动作：

其中，O

所述奖励方程与最小化系统成本的优化目标一致：

其中α(t)和β(t)表示时隙t的时延和能耗的权重因子，T

B3.构建和训练基于PA-TODM-DDPG的深度强化学习模型。

作为本发明的又一种改进，所述卸载决策阶段具体包括如下步骤：

C11：获取系统当前状态集合s

C12：状态归一化处理，消除状态的维度差异；

C13：根据归一化后的状态集合

C14：输出奖励r

C15：重复步骤C11至C14直到系统任务全部完成。

作为本发明的又一种改进，所述步骤C12具体包括如下步骤：

C121：使用比例因子λ

C122：使用最小-最大归一化方法对任务数据大小和复杂度进行归一化：

每个时隙的任务数据量和复杂性的上下边界分别由变量Min

C123：返回归一化状态

与现有技术相比，本发明具有的有益效果：本发明提出了一种车载边缘网络系统架构，综合考虑了车辆的移动性，信道的时变性以及云服务和边服务器的计算与通信资源的异构性；在任务层面上考虑到了任务的可分割情况，在优化目标上联合优化了系统能耗以及总体时延的系统成本；同时，本发明构建了PA-TODM-DDPG强化学习模型，并通过训练模型得到训练后的PA-TODM-DDPG代理模型；最后，使用训练后的PA-TODM-DDPG代理模型来求解卸载策略。因此，采用本发明可以有效的解决云-边-车协同下的卸载决策以及资源分配等混合动作空间下的车载任务卸载问题，并在保证卸载决策的同时，减少系统成本。

附图说明

图1为本发明车载边缘环境下基于深度强化学习的任务卸载方法的步骤流程图；

图2是本发明方法步骤S1中车载边缘网络系统架构的示意图；

图3是本发明的VEC系统强化学习框架模型示意图；

图4是本发明的PA-TODM-DDPG代理模型与系统环境交互流程示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

一种车载边缘环境下基于深度强化学习的任务卸载方法，如图1所示，包括以下阶段：

A.预处理阶段：构建车载边缘网络系统架构，并根据车载边缘网络系统架构建立通信、计算模型以及目标优化问题；

A1.构建车载边缘网络系统架构：

图2为所提出车载边缘网络系统架构，如图2所示，该架构由三层组成：车辆层、边缘层和云层；车辆层包括道路上配备有有限计算资源的用户车辆；每个车辆可以通过5G/LTE技术或专用无线接口(IEEE 802.11p)与基站(BS)和路边单元(RSU)进行通信；边缘层由部署在地图的不同区域中的路边节点(RSN)组成；这些RSN包括具有有限信号覆盖范围能力的RSU和连接到具有计算和存储资源的RSU的移动的边缘计算服务器(MEC)；云层代表云服务层，包括通过有线链路连接到基站的高性能计算资源，能提供必要的资源支持；整个系统在具有相等时隙间隔的离散时间中操作；在每个时隙中，MEC可以与其覆盖区域内的车辆建立通信；基站的覆盖范围足够大，云服务器可以为所有车辆提供服务，并且车辆做匀速运动；对于不在MEC覆盖范围内的车辆，其任务需要在云上执行；车辆可以由N＝{1，2，...，n}表示，路边单元(RSU)的集合是K＝{1，2，...，k}；车辆i的任务为

A2.根据车载边缘系统的任务卸载架构建立通信、计算模型：

在VEC系统中，系统以时分方式给所有车辆提供服务，通信周期被划分为T个时隙，并且每个车辆被分配用于数据传输的特定时隙；车辆与MEC服务器之间的连接受到信号覆盖范围的限制；在我们的VEC系统中，MEC服务器j的位置是固定的并且可以由坐标表示

其中α

其中

车辆i到云服务器的传输速率为：

其中，B

在VEC系统中使用部分卸载策略，其中对于每个时隙t，由车辆产生的计算任务是可分割的。θ

本地计算时延为：

其中C

其中P

由于与任务数据本身相比任务执行完结果数据的大小显著更小，因此可以忽略反馈延迟；MEC服务器配备有I个核，并且每个核具有表示为f

对于卸载到MEC服务器的任务，执行延迟为：

车辆将任务卸载到MEC的总延迟和能量消耗可以表示为：

云服务器上传输和执行延迟可以表示为：

云服务器上的任务T

任务的卸载部分的总延迟和能量消耗表示为：

其中a

A3.根据任务卸载的目标及系统信息设定约束条件，在约束条件下确立目标优化问题：

本方法将系统总成本定义为用户服务成本与系统能耗的加权和。对于时隙t，用户服务成本被定义为所有任务在时隙内完成的总等待时间；

因而，优化问题可以表示为：

s.t.C1：max{T

C5α(t)+β(t)＝1

C6θ

C7α(t)∈[0，1]，β(t)∈[0，1]

C8 a

其中C1是延迟约束，其意味着任务等待时间不能超过最大容许延迟；C2和C8是卸载约束，其指示任务T

B.解决方案阶段：考虑系统的动态性，对车辆调度、资源分配和任务卸载进行联合优化。将优化过程被表述为马尔可夫决策过程(MDP)，开发相应的强化学习框架。并根据强化学习框架构建和设置基于PA-TODM-DDPG的深度强化学习模型；所述解决方案阶段中包括以下步骤：

B1.将VEC的所有车辆视作一个集中控制的代理，其可以根据全局信息和系统的环境状态作出有效的卸载决策：

图3为所提出的VEC系统强化学习框架模型，所描述的模型表示智能代理车辆和环境之间的相互作用；在每个时隙t，代理观察状态s

B2.定义马尔可夫过程，包括状态空间、动作空间、奖励方程等重要元素，其中状态空间要包括车辆的位置信息、MEC服务器的位置信息、资源信息、任务大小以及计算复杂度信息：

动作空间要包括卸载决策和卸载比例两个动作：

其中，O

奖励方程与最小化系统成本的优化目标一致：

其中α(t)和β(t)表示时隙t的时延和能耗的权重因子，T

B3.构建和训练基于PA-TODM-DDPG的深度强化学习模型：

图4是本发明的PA-TODM-DDPG代理模型与系统环境交互流程示意图；构建和训练基于PA-TODM-DDPG的深度强化学习模型的步骤如下：

B301：分别初始化所述设定后的PA-TODM-DDPG代理模型中在线网络和目标网络参数，actor和critic的在线策略网络参数分别用θ

Actor和critic的目标策略网络参数分别用θ

B302：Actor网络根据行为策略β选择一个动作a

这里动作a

B303：VEC环境的代理执行动作a

B304：Actor网络将状态转换过程(s

B305：从经验回放池中随机抽取N个迁移数据作为两个在线网络的小批量训练数据；

B306：Critic的目标策略网络根据Actor的目标策略网络输出的动作μ′(s

Critic的在线策略网络通过神经网络中的反向传播方法，利用损失函数L(θ

B307：更新critic的在线策略网络的参数θ

其中α是由梯度下降算法确定的每参数步长；

B308：Critic的在线策略网络根据actor的在线策略网络的动作a＝μ(s

B309：更新actor的在线策略网络的参数θ

B310：对两个目标策略网络的参数θ

τ∈[0，1]是软更新因子。

C.卸载决策阶段：使用训练好的PA-TODM-DDPG求解最优卸载策略。所述卸载阶段包括以下步骤：

C11：获取系统当前状态集合s

C12：状态归一化处理，消除状态的维度差异；

C13：根据归一化后的状态集合

C14：输出奖励r

C15：重复C11至C14直到系统任务全部完成。

所述C12步骤根据所获取状态集合的不同范围的状态参数进行了归一化处理，包含以下步骤：

C121：使用比例因子λ

C122：使用最小-最大归一化方法对任务数据大小和复杂度进行归一化：

每个时隙的任务数据量和复杂性的上下边界分别由变量Min

C123：返回归一化状态

综上，本发明制定卸载决策时充分考虑到车辆的移动性、以及云服务和边缘服务器的资源异构性，使用参数化动作空间、能够同时使用离散动作和连续动作，通过综合考虑任务卸载决策以及任务卸载比例来降低系统成本。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

完整全部详细技术资料下载