掌桥专利:专业的专利平台
掌桥专利
首页

基于移动边缘计算网络的VR内容缓存方法

文献发布时间:2023-06-19 11:54:11


基于移动边缘计算网络的VR内容缓存方法

技术领域

本发明属于无线通信技术领域,具体涉及一种基于移动边缘计算网络的VR内容缓存方法。

背景技术

无线虚拟现实(Virtual reality,VR)可以为用户提供沉浸式体验,有望成为未来移动网络中最主流的应用。在无线VR业务传输系统中,移动边缘计算技术(Mobile edgecomputing,MEC)的引入使复杂、精细化的VR计算任务卸载到边缘节点成为可能,满足VR传输的超高带宽和低时延的要求。MEC可以在网络边缘节点(例如,基站)部署计算与存储资源,进而可以在网络边缘为移动设备提供服务,移动设备可以将自己的计算任务通过基站上传给云服务器,减小本地计算的压力。

在未来移动网络中,为满足极低时延、更高可靠性等要求,小基站大规模地部署已成必然趋势,将MEC服务器部署在基站上,用户可通过各种接入点获取无线VR服务,由于用户的移动性和基站部署的致密性,这导致用户在基站间频繁切换,增加用户获取内容的时延,降低用户的体验质量(Quality of Experience,QoE).为了解决这个问题,主动缓存是一个不错的方法,它可以用户到达下一个基站前,主动地将用户所需的内容或从云服务器上下载到用户将要连接的基站上或者主动地将所需服务部署在边缘云上以快速响应用户请求,减小用户切换时的连接时延和获取时延。

但是,针对MEC网络中的主动缓存研究仍存在一些不足。大多数主动缓存的研究根据用户的未来需求和移动路线只专注于存储的内容和存储的位置,或者主动计算用户的任务,而忽略了MEC网络中主动存储和计算的协同性以及主动存储内容时缓存、计算资源的利用效率。因此,在结合用户请求VR视频质量的情况下,以减少VR视频获取时延、提高无线VR用户QoE,提高存储、计算、通信资源利用率为目标,提出一种基于移动边缘计算网络的VR内容缓存方法。

发明内容

针对现有技术存在的不足,本发明提出一种基于移动边缘计算网络的VR内容缓存方法,以达到减小用户移动时频繁切换基站带来的时延,提高用户体验质量(Quality ofExperience,QoE)的目的。

为了实现上述目的,本发明采用的技术方案是,基于移动边缘计算网络的VR内容缓存方法,包括以下步骤:

步骤1、搭建移动边缘计算网络架构,包括云服务器、边缘服务器与用户设备,其中边缘服务器放置在基站附近,在网络边缘提供计算与存储,云服务器中存有用户所需的所有内容;

步骤2、建立网络中的用户移动模型,将用户在各个基站覆盖范围内的持续时间用来度量用户的移动性;

步骤3、用户向基站请求内容后,基站将请求转发给云服务器,云服务器通过直接发送3D视频或者发送2D视频,然后边缘服务器将2D视频计算为3D视频后再发送给用户;

步骤4、计算基站将内容发送给用户所需的传输速率;

步骤5、分配用户在下一个基站存储内容所需的资源量;

步骤6、将移动边缘计算网络中的VR内容缓存问题建立为马尔可夫决策问题,马尔可夫决策问题包含四种要素:状态空间、动作空间、状态转移概率、奖励函数,可分别定义为

步骤7、计算用户QoE的奖励函数;

步骤8、以最大化整个过程中用户的QoE为优化目标,建立优化问题,表示如下:

其中,限制条件C1为基站存储容量的限制,限制条件C2为基站计算资源的限制,限制条件C3为基站带宽资源的限制,限制条件C4表示在分配的存储空间中存储2D视频的取值范围,限制条件C5表示每个用户只能请求单个质量的一个视频;

步骤9、用深度确定性策略梯度进行求解,以得到最优的主动缓存策略。

采用本发明的上述方案,具有以下有益技术效果:

本发明的一种基于移动边缘计算网络的VR内容缓存方法,是在移动边缘计算技术与无线网络主动缓存技术的基础上提出的。本发明通过对用户的移动方式进行分析,利用移动边缘计算的计算能力与边缘主动缓存技术的存储能力,解决用户移动导致在基站间频繁切换带来的内容获取时延问题,提高无线VR用户的QoE。同时考虑存储、计算、通信三种资源的分配,在用户移动过程中,通过对这三种资源联合管理优化,根据需要存储视频的数据容量与质量提前在目标基站上分配好合适的存储容量、所需计算部分的计算资源以及支持传输相应质量视频的通信资源,在提高无线VR用户QoE的同时,实现了高效的资源分配。利用DDPG有效解决用户移动过程中主动存储VR视频所需的资源分配的联合优化问题,收敛效果好,能得到最优的资源分配策略。因此本发明有效解决了频繁切换基站带来的时延问题,可以满足用户移动时对VR视频QoE的需求。

附图说明

图1为本发明一种实施例的网络系统模型示意图;

图2为本发明一种实施例的的DDPG算法框架示意图;

图3为本发明一种实施例的收敛性能的曲线图;

图4为本发明一种实施例的总奖励值与基站存储空间大小关系曲线图;

图5为本发明一种实施例的用户平均代价与基站带宽大小关系曲线图;

图6为本发明一种实施例的用户平均代价与基站计算资源大小关系曲线图;

图7为本发明一种实施例的总奖励值与用户请求比特率范围大小关系曲线图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明基于移动边缘计算网络的系统模型,其中包括装有MEC服务器的基站和大量用户设备。本发明主要用主动缓存来解决用户的移动性所导致的用户在基站间频繁切换带来的额外内容获取时延问题,以提高主动缓存时的资源利用率和无线VR用户的QoE。利用深度强化学习中的DDPG算法对移动中的用户在基站中的存储的内容容量和质量进行学习预测。以此为基础设计基于移动边缘计算网络中的VR内容缓存方法,降低了内容获取时延,提高用户QoE。

一种基于移动边缘计算网络的VR内容缓存方法,包括以下步骤:

步骤1、搭建网络架构;移动边缘计算网络由云服务器、边缘服务器与用户设备组成,如图1所示。其中MEC服务器放置在基站附近,在网络边缘提供计算与存储能力,云服务器中存有用户所需的所有内容;

步骤2、建立网络中的用户移动模型,具体如下:

在此网络中,每个用户具有移动的性质,用户在部署密集的基站中移动,频繁在基站间切换。考虑用时空特性来对本发明中用户的移动进行建模,不再以距离进行度量。每个用户的移动性质都是独立的,每个用户的速度都互不影响且不考虑用户之间移动的关系,因此将用户在各个基站覆盖范围内的持续时间用来度量用户的移动性。

步骤2-1、每个用户在基站间的移动是独立的,用户i在基站间的持续时间服从参数为Φ

步骤2-2、用户在移动过程中根据收集到的用户路径信息确定即将进入的下一个基站。

步骤3、用户请求内容后,内容传输方法如下:

步骤3-1、用户i在未移动的起始位置向基站发送请求,请求内容v

步骤3-2、基站将请求转发给云服务器,云服务器可通过直接发送3D视频或者发送2D视频,然后MEC服务器计算为3D视频后再发送给用户。发送2D视频占发送所有类型视频的比例表示为x

步骤4、计算基站将内容发送给用户所需的传输速率;

步骤4-1、利用信噪比来估算内容传输的传输速率,则基站的信噪比表示如下:

其中P

步骤4-2、计算用户获得内容的可达到的信道容量,表示如下:

Rate

其中w

步骤5、分配用户在下一个基站存储内容所需的资源量:

步骤5-1、分配M

步骤5-2、若分配的存储空间中所占比例x

步骤5-3、分配W

步骤6、分析用户移动时在各个基站主动缓存VR视频分配的资源量取值情况,选择合适的存储容量,选择在目标基站预分配的存储容量中所存2D视频的比例,合适的带宽分配量来支持VR视频的传输,选择合适的计算资源来计算所存的2D视频。在目标基站上的资源量分配只受此基站剩余的资源量影响,该现象符合马尔可夫性质。

步骤7、将移动边缘计算网络中的VR内容缓存问题建立为马尔可夫决策过程(Markov decision process,MDP),MDP问题包含四种要素:状态空间、动作空间、状态转移概率、奖励函数,可分别定义为

将整个过程分为多个时间节点,假设t

S是系统中所有可能状态的集合,定义状态空间为:

其中

在t

其中U、B分别表示用户和基站的总数量。在下列两种情况下

M

在t

与存储资源分配的状态类似,只有在t

F

在t

因为每个基站的计算资源都有限,基站给用户分配的带宽资源量不能超过自身总的带宽资源,限制关系可以表示为:

W

所有用户的移动过程是独立的泊松过程的组合。系统状态发生改变的随机事件即用户改变关联基站可以表示为:

其中,

其中,

因此,

状态转移概率P表示一个状态到另一个状态的概率,在此系统中状态转移概率未知。

奖励函数

步骤8、计算用户QoE的奖励值,过程如下:

步骤8-1、将此MDP问题的奖励值分为两部分,即比特率奖励值与视频播放时间奖励值;

步骤8-2、计算比特率奖励值。每次存储VR视频内容的质量与用户请求的比特率之间的差异定义为比特率损失,在时间t

其中,

步骤8-3、计算用户i在基站j+1的覆盖范围内视频播放时间奖励值,在时间t

其中,

其中,α表示3D视频与2D视频的数据大小的比值。

步骤8-4、计算时间t

其中,λ

步骤8-5、计算整个过程总的奖励值,表示如下:

其中,

步骤9、以最大化整个过程中用户的QoE为优化目标,建立优化问题,表示如下:

其中,限制条件C1为基站存储容量的限制,限制条件C2为基站计算资源的限制,限制条件C3为基站带宽资源的限制,限制条件C4表示在分配的存储空间中存储2D视频的取值范围,限制条件C5表示每个用户只能请求单个质量的一个视频。

步骤10、为得到最优的主动缓存策略,同时应对动作的连续性与高维度性,提出用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行求解;

DDPG算法主要基于行动家-评论家(Actor-Critic,AC)框架,如图2所示。用神经网络来估计评价网络与策略网络的输出。DDPG算法中有四个神经网络:在线评估网络、目标评估网络、在线策略网络、目标策略网络,动作网络根据输入的状态输出确定的动作,评估网络用来评估策略网络输出的动作,引导动作网络学习更好的策略。利用DDPG算法学习策略使所有阶段的Q值最大,Q值为状态-动作值,表示为:

其中E[·]表示数学期望,s,a分别表示状态和动作,

步骤10-1、随机初始化策略网络与评价网络的参数,以及目标策略网络与目标评价网络的参数,初始化经验池,设置学习率、折扣因子和软更新学习率;

步骤10-2、训练回合数初始化为1,得到初始状态

步骤10-3、回合中的训练步数初始化为1;

步骤10-4、根据初始状态

步骤10-5、将获得的数据

步骤10-6、从经验池中随机采样N个元组(s

步骤10-7、将采样得到的数据集元组中的r

y

步骤10-8、更新评价网络中的θ值,减小目标网络与在线网络间的损失函数,表示如下:

步骤10-9、更新策略网络中的θ值,使用梯度下降法来优化策略网络参数,表示如下:

ρ

步骤10-10、根据在线网络参数软更新更新目标网络参数,将在线网络的参数缓慢地赋值给目标网络,提高学习的稳定性。软更新表示如下:

θ

θ

τ表示软更新学习率。

步骤10-11、判断每回合训练步数是否达到最大步数,若没有,训练步数加1返回步骤10-4,若有执行步骤10-12;

步骤10-12、判断训练的回合数是否达到最大,若没有,回合数加1,返回步骤10-3,若有结束训练,得到最优的主动缓存策略;

对本发明提出的基于移动边缘计算网络的VR内容缓存方法的整体性能进行比较分析,具体如下:

策略1是随机分配主动存储在下一个基站的VR视频所需要的资源量,策略2是分配资源满足先连接基站的用户的QoE。

图3为本发明一种实施例的收敛性能的曲线图。随着训练次数的增加,本发明提出的策略和策略2随着训练次数的增加,总奖励值都逐渐增加,策略1的值几乎没有变化。本发明提出的策略与策略2大约在训练次数为1500次后奖励值逐渐稳定并收敛。其中本发明提出的策略获得的奖励值是最高的,大约在-15.82附近,其次是策略2,大约在-23.60附近,最后是策略1,大约在-26.32附近。策略1获得奖励值最低的原因是基站随机分配资源给用户,完全忽略了用户在基站间的移动情况和对于视频质量的需求,造成最低的奖励值,即较低的用户QoE。策略2获得的奖励低于本发明提出策略而高于策略1,因为虽然策略2经过学习后奖励值有所提高,但忽略了所有用户整体的QoE,只满足于先来的用户的需求,造成没有可用的资源给后来的用户,使得后来的用户的需求无法满足,从而总奖励值较低。

图4为本发明一种实施例的总奖励值与基站存储空间大小关系曲线图。随着基站存储容量的增加,获得的总奖励值也随之增加。因为更大的基站存储可以给更多的用户存储更多的VR视频内容,以增加视频播放时间奖励值,从而使总奖励值增加。但是可以发现当基站存储容量增加到一定值后,总奖励值增加的幅度越来越小,最后趋于收敛。这是因为总奖励不仅与基站的存储容量有关,还与用户请求的视频质量、基站的计算资源和带宽资源有关,如果只提高基站的存储容量,总奖励自然不会无限制地增加。

图5为本发明一种实施例的用户平均代价与基站带宽大小关系曲线图。随着基站带宽的增加,三种策略的用户平均代价都有所减少。本发明提出的策略的用户平均代价是最低的,其次是策略2,最后是策略1,说明本发明提出的策略有效增加用户在移动过程中观看VR视频的体验质量,考虑用户的请求信息和用户的移动情况主动缓存最佳的内容容量和质量,从而用户的平均代价最低。策略2的用户平均代价高于本发明提出的策略而略低于策略1,并且在带宽大小增加到一定值后,用户平均代价就不再变化,因为它虽然考虑了用户的请求信息和移动情况来存储内容,通过学习得到主动缓存的方式,但是它只考虑个别用户,而忽略系统中所有用户整个过程的QoE,造成个别用户的代价值很低,但是大多数用户的体验质量依旧很差,并且除了带宽资源外的其他资源已经被先来的用户全部使用,虽然带宽大小在增加,也不会减少后来用户的代价。策略1用户平均代价最高,因为忽略了用户在基站间的移动情况和对于视频质量的需求,没有考虑用户的体验质量。由此,可以验证我们提出的策略有效对移动中的用户在基站中的存储的内容大小和质量进行学习预测,降低了用户平均代价,提高用户QoE。

图6为本发明一种实施例的用户平均代价与基站计算资源大小关系曲线图。随着基站计算资源的增加,三种策略的用户平均代价都有所减少。本发明提出的策略的用户平均代价是最低的,其次是策略2,最后是策略1,说明本发明提出的策略有效增加用户在移动过程中观看VR视频的体验质量,考虑用户的请求信息和用户的移动情况主动缓存最佳的内容,能够多利用计算资源使得使用的存储资源减少,给更多的用户存储更多的VR视频内容,从而使用户的平均代价最低。策略2的用户平均代价高于我们提出的策略而略低于策略1,并且在计算资源大小增加到一定值后,用户平均代价就不再变化,因为它虽然考虑了用户的请求信息和移动情况来存储内容,通过学习得到主动缓存的方式,但是它只考虑个别用户,而忽略系统中所有用户整个过程的QoE,造成个别用户的代价值很低,但是大多数用户的体验质量依旧很差,并且除了计算资源外的其他资源已经被先来的用户全部使用,虽然计算资源大小在增加,也不会减少后来用户的代价。策略1用户平均代价最高,因为忽略了用户在基站间的移动情况和对于视频质量的需求,没有考虑用户的体验质量。由此,可以验证我们提出的策略有效对移动中的用户在基站中的存储的内容大小和质量进行学习预测,降低了用户平均代价,提高用户QoE。

图7为本发明一种实施例的总奖励值与用户请求比特率范围大小关系曲线图。随着用户请求视频的比特率范围越来越高,总奖励值越小。因为用户有更高比特率的需求时,服务更高比特率的视频就需要更多的资源来支持,虽然提出的策略考虑了用户的请求信息和用户在基站间的移动情况而主动缓存最佳的内容,但是由于其他资源都有限,获得的奖励值相比于请求较低比特率范围来说就会减少。

通过上述的仿真比较,可知本发明提出的基于移动边缘计算网络的VR内容缓存方法是有效的,本发明方法针对用户移动性和需求对在目标基站存储内容大小和质量进行预测,在用户进入目标基站前分配存储内容所需的资源,解决了用户的移动性所导致的用户在基站间频繁切换带来的内容获取时延问题,提高资源利用率和VR视频用户的QoE。

相关技术
  • 基于移动边缘计算网络的VR内容缓存方法
  • 一种移动边缘计算网络下内容缓存和用户关联优化方法
技术分类

06120113096066