掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度强化学习的成本最优空地网络任务卸载方法

文献发布时间:2023-06-19 19:28:50



技术领域

本发明涉及无线通信网络与物联网领域,具体为基于深度强化学习的成本最优空地网络任务卸载方法。

技术背景

近年来,物联网(IoT)和5G技术得到了快速的发展,人类正在处于一场数据革命中。新兴的应用程序越来越多,如深度学习、在线3D游戏、人脸识别、基于位置的增强现实或虚拟现实、移动社交媒体、自动驾驶系统和智能服务等。然而,由于物联网设备或者移动智能设备计算的局限性,设备本身已经无法满足各类应用日益增长的计算需求。移动设备的普及与移动互联网流量的爆发式增长推动了无线通信和网络架构的改进。随着计算机科学的发展,特别是移动设备的升级换代,移动设备的功能越来越强大,人们希望移动设备变得更加轻巧,电池续航时间更长,这意味着移动设备对任务的处理能力将受到限制。但是,用户期望移动设备对任务计算和数据处理的能力达到更高的水平,而实现用户期望的操作是以移动设备高能耗和长时延的任务处理方式为代价,这一矛盾是制约移动智能设备发展的重要因素。这些计算密集型应用对终端设备的电池和计算能力提出了巨大的挑战。

云计算需要将计算密集型应用卸载到云服务器上处理,但是由于终端用户和云服务器之间的传输距离较长,往往导致较大的传输延迟,使得无法满足延迟敏感应用的需求,如手机游戏和自动驾驶。为了解决这一问题,移动边缘计算(mobile edge computing,MEC)被广泛研究。MEC通过将计算密集型和延迟敏感的任务转移到无线网络边缘来提高用户的服务质量。然而,MEC服务器的计算能力通常是有限的,因此如何将有限的MEC服务器计算资源有效地分配给终端用户成为一个关键问题。此外,由于终端的电池容量有限,需要探索新的节能方法来延长能量消耗。空地一体化异构网络通过对空中和地面部分的通信、计算和存储资源的互补集成来满足日益增长的计算需求。与传统的云计算架构相比,空地一体化异构网络有许多优势,如无缝覆盖、低延时、提高吞吐量和缓解网络拥挤。

发明内容

为了解决上述问题,本发明公开了一种基于深度强化学习的成本最优空地网络任务卸载方法。所述方案包括:我们首先提出了一种空地一体化异构网络模型,该模型由高空平台站(HAPS)和多个配备边缘服务器的无人机(UAV)组成。每个用户都可以选择在本地执行任务或在边缘执行任务。然后,我们的目标是优化延迟和能耗的权重。通过更多地考虑延迟,可以关注低延迟应用程序的延迟减少。为了降低用户设备的能耗,我们可以更加关注系统功耗的大小。该问题是通过联合考虑任务卸载决策和计算资源分配来描述的,但由于优化变量之间的强耦合,这是一个混合整数非线性规划(MINLP)问题。因此,我们将其分解为两个子问题,并设计一种基于机器学习的方法来解决第一个卸载决策问题。对于第二个计算资源分配子问题,提出了一种基于贪婪的解决方案。

我们考虑一个综合的空地一体化网络,每个UAV和HAPS都配备边缘计算服务器,为用户提供无线通信接入和数据计算服务。包含HAPS和K个无人机,相应的集合表示为

通过同时考虑任务卸载决策和计算资源分配,最小化延迟和能耗权重。因此,问题表述如下:

P0:

C1:

C2:

C3

C4:

ω

首先,我们为空地一体化网络设计一个在线计算卸载方法,在每个时隙用户设备的计算任务在本地处理,或者卸载到边缘服务器,从而最小化成本。由于GSI不完全和维数诅咒,传统的基于优化的方法无法有效地求解这一问题。因此,计算任务的卸载过程可以建模为离散时间马尔可夫决策过程(discrete-time MDP),我们可以使用强化学习方法来寻找MDP的最优长期收益。马尔科夫决策过程可形式化表示为{S,A,R},其中S表示为状态空间,A表示为动作空间,R为价值奖励函数,在本发明中,状态、行为和奖励函数可以定义如下:

1)States:在第tth时隙,系统状态用户到基站和无人机的传输速率、任务相关信息和经验网络性能,表示为

2)Actions:在第tth时隙,每一个终端对任务进行卸载或者在本地端进行处理,表示为x

3)Reward:根据状态S

在提出的在线计算卸载方法中,策略是用参数化的矢量θ来表示的,π(a|s,θ)=P(a

通过学习得到策略参数θ,使得价值函数j(θ)最小化,我们可以使用梯度下降法逐渐更新θ

通过推导,我们可以更新θ:

然而,尽管这种更新方法可以逐步收敛到局部最小值,但这种方法通常导致高方差并且学习速率较缓慢。在线计算卸载中,由于状态空间和动作空间都很大,传统的强化学习方法不太适用。为了进一步提高学习性能,我们采用actor-critic方法,其中近似学习策略函数和价值函数。在actor-critic方法中,策略在每个时间段更新,而不是在计算卸载的每一轮更新。因此,可以大大减少学习最优策略所需的样本数量,从而加快学习过程。为了达到这一目的,我们需要学习价值函数,并将其作为一个critic来指导每个时段的策略更新。具体地说,我们采用V(s

在每个时隙中,评估值函数V的参数向量ω更新根据:

其中

L(ω)=|C

最后,基于深度神经网络近似复杂函数的能力,我们采用深度学习架构来学习参数θ和ω。

边缘服务器端计算资源分配采用贪婪分配的方法。首先,确定分配给e

本发明的技术方案具有以下优点:

本发明公开了一种基于深度强化学习的成本最优空地网络任务卸载方法。所述方案包括:首先提出了一种空地一体化异构网络模型,该模型由HAPS和多个配备边缘服务器的UAV组成。每个用户都可以选择在本地执行任务或在边缘执行任务。本发明的研究目标是在资源受限的场景下,联合优化对任务的动态卸载与资源分配。本发明通过强化学习可以在获取少量信息的条件下,在与环境交互学习到最佳的卸载策略,可以更好地解决动态复杂的通信场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明系统收益奖励图。

图2为本发明系统平均能耗图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提出了一种基于深度强化学习的成本最优空地网络任务调度方法,下面结合附图,对实施例作详细说明。

本发明的实施方式分为两个步骤,第一步为建立系统模型,第二步为算法的实施。本发明考虑的是一个1000米×1000地区,终端设备I为50台、无人机数量K为3架。终端设备的位置在考虑的区域内随机分布。无人机以相同的中心和200米的半径作圆周飞行,无人机的飞行高度和通信覆盖半径设置为100米和300米。

基于深度强化学习的卸载策略,由空地一体化网络环境、任务卸载奖励评估器、actor网络、critic网络和一个时间差组件组成。actor网络通过基于策略的方法优化策略,并且与环境进行交互;critic网络生成价值函数,对当前策略进行评价,并且指导策略更新。环境是指终端设备之外的、不能被终端设备任意改变的所有网络状态,如信道状态信息、服务器的可用计算资源、服务器的可用性等问题。此外,由于神经网络对复杂函数具有较强的逼近能力,因此采用神经网络来学习参数θ和ω。将状态信息输入到actor网络和critic网络,输出为最优卸载决策。首先,随机初始化价值函数,设定算法有G轮episode,每轮episode由T个时隙组成,初始化随机向量N进行探索,观察初始状态s

图1显示基于学习的任务卸载的收敛性能。根据奖励函数的定义,奖励值越大,用户系统成本越低。可以看出,所提的方法在大约300集之后收敛。采用基于TD误差的网络更新方法和深度神经网络对复杂函数提供近似的能力,从而获得更好的性能。这证明了我们提出的基于深度学习的卸载决策方法的有效性。

图2显示用户随时间的平均能耗。可以观察到,与其他方法相比,我们的方法始终表现良好。这是因为基于学习的方法联合优化了用户的卸载决策和资源分配,因此可以显著降低平均能耗。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 一种基于深度强化学习的计算卸载调度方法
  • 超密集网络中基于深度强化学习的边缘计算任务卸载方法
  • MEC中近似最优化与基于强化学习的任务卸载方法
技术分类

06120115923429