导航：首页> 计算；推算；计数>C-RAN架构中基于强化学习的VR视频多级缓存方法和系统

C-RAN架构中基于强化学习的VR视频多级缓存方法和系统

文献发布时间：2023-06-19 09:30:39

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种C-RAN(Cloud Radio AccessNetwork，云无线接入网)架构中基于强化学习的VR(Virtual Reality，虚拟现实)视频多级缓存方法和系统。

背景技术

随着VR技术的发展，VR逐步走进千家万户，给用户提供沉浸式的视频观看体验，也在教育互动、工业远程指导、远程医疗等领域发挥着不可或缺的作用。据统计截止到2019年，中国VR用户的数量已突破一千万，虚拟现实软、硬件的产业收益突破10亿元，可以预见，未来虚拟现实技术将会蓬勃发展，也将扩展出更多的应用领域，能够给用户提供更加真实、高清、沉浸的视频观看体验和更加友好的视频交互功能。

但目前来说，VR视频的实际观看体验并没有达到预期的效果。一方面，由于VR视频对网络带宽的需求是传统高清视频几十倍，同时为了获得更加逼真的观看体验，对视频的清晰度也有很高的要求。举例来说，传输8K全景的VR视频需要超过260Mbps的带宽，如果想获得更加极致的体验效果则需要超过10Gbps的带宽，这对于现在的网络尤其是视频源服务器的主干网络来说是一个巨大的挑战。另一方面，用户对于VR视频的时延非常敏感，一般来说如果时延超过20ms就会产生强烈的晕眩感，这对于VR视频的观看体验来说是灾难性的。

因此，如何有效的提高用户的VR视频观看体验，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种C-RAN架构中基于强化学习的VR视频多级缓存方法，能够采用在C-RAN中合理部署多级缓存的方式来降低时延，减少重复的数据传播，从而给用户提供更加舒适的VR视频观看体验。

本发明提供了一种C-RAN架构中基于强化学习的VR视频多级缓存方法，包括：

采集网络吞吐量、用户请求信息和缓存状态信息；

基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量；

基于所述单用户的用户体验质量确定多用户的用户体验质量；

基于强化学习算法对所述多用户的用户体验质量进行优化；

基于所述网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量对VR视频进行缓存。

优选地，所述基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量，包括：

基于公式

优选地，所述视频质量定义为：

优选地，所述视频时域抖动定义为：

优选地，所述视频空域抖动定义为：

一种C-RAN架构中基于强化学习的VR视频多级缓存系统，包括：信息收集模块和缓存决策模块；其中：

所述信息收集模块，用于采集网络吞吐量、用户请求信息和缓存状态信息；

所述缓存决策模块，用于基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量；

所述缓存决策模块，还用于基于所述单用户的用户体验质量确定多用户的用户体验质量；

所述缓存决策模块，还用于基于强化学习算法对所述多用户的用户体验质量进行优化；

所述缓存决策模块，还用于基于所述网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量对VR视频视频进行缓存。

优选地，所述缓存决策模块具体用于：

基于公式

优选地，所述视频质量定义为：

优选地，所述视频时域抖动定义为：

优选地，所述视频空域抖动定义为：

综上所述，本发明公开了一种C-RAN架构中基于强化学习的VR视频多级缓存方法，当需要对VR视频进行多级缓存时，首先采集网络吞吐量、用户请求信息和缓存状态信息，然后基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量；基于单用户的用户体验质量确定多用户的用户体验质量，基于强化学习算法对多用户的用户体验质量进行优化，基于网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量对VR视频进行缓存。本发明能够采用在C-RAN中合理部署多级缓存的方式来降低时延，减少重复的数据传播，从而给用户提供更加舒适的VR视频观看体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的C-RAN架构示意图；

图2为本发明公开的tile-based示意图；

图3为本发明公开的一种C-RAN架构中基于强化学习的VR视频多级缓存方法实施例的流程图；

图4为本发明公开的C-RAN环境中获取tile的途径示意图；

图5为本发明公开的强化学习框架示意图；

图6为本发明公开的一种C-RAN架构中基于强化学习的VR视频多级缓存系统实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

C-RAN是一种新型的无线接入网架构，如图1所示。C-RAN的总目标是为解决移动互联网快速发展给运营商所带来的多方面挑战(能耗、建设和运维成本、频谱资源等)，追求未来可持续的业务和利润增长。在C-RAN架构中，假设VR视频源服务器拥有VR视频的所有内容，通过后向链路(Backhaul)的核心网络与基带处理单元池(Pooled Base Band Units，BBU pool)相连，每个BBU pool通过前向链路(Fronthaul)接入多个射频拉远头(RemoteRadio Heads，RRH)，BBU pool中的边缘服务器根据缓存决策算法管理BBU pool中的云端缓存和下属RRHs中的边缘缓存，并完成码率决策、带宽分配、提前预取等多种决策来提高全体用户的视频观看体验。用户通过与RRH的无线连接接入网络中，享受C-RAN架构下VR视频服务。

本发明借鉴分级缓存的设计思路，利用C-RAN架构中的多级缓存与集中式优化的能力，在网络中部署缓存优化系统合理分配有限的缓存容量。将VR视频按时间序列分割为多个segment，每个segment再按空间分割为多个tile，如图2所示。由于用户观看VR视频时视野范围仅为全景视频的20％～30％，利用tile-based编码方法的特点，用户只需要请求视野范围内的tile，从而最大程度的减少带宽和缓存的浪费。于是将用户可能观看的tile文件缓存在BBU pool或RRH中，指导缓存部署的终极目标是比例公平的实现所有用户的总体QoE最大，综合考虑视频质量、视频抖动、时延等因素对于QoE的影响，由于普通的贪心算法难以获得全局最优解，本发明考虑采用强化学习的方法求解最优的缓存分布，从而为用户提供更加清晰、流畅、真实的VR体验。

如图3所示，为本发明公开的一种C-RAN架构中基于强化学习的VR视频多级缓存方法实施例的流程图，所述方法可以包括以下步骤：

S301、采集网络吞吐量、用户请求信息和缓存状态信息；

在DASH的HTTP头部加入

当需要对VR视频进行多级缓存时，首先收集一天的网络的吞吐量、用户请求状况和缓存状态。

S302、基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量；

VR用户对于时延非常的敏感，一旦时延超过20ms就会产生眩晕感，对于用户体验来说这是灾难性的，于是本发明考虑将时延作为约束条件，并综合考虑视频质量带来的增益以及视频时域抖动和空域抖动带来的惩罚来定义单个用户的用户体验质量QoE，于是第u个用户观看第v个视频的第c个segment的用户体验定义为：

其中，α，β，γ为常数，表示视频质量、时域抖动和空域抖动对于QoE的影响因子；D

1)质量Q

具体来说，第c个segment的质量对应的效用Q

其中，

因此可以得到用户实际请求的视频质量

定义

同时本发明考虑VR视频的抖动包括带宽变化带来的时域质量抖动和用户头部转动带来的空域质量抖动，这两种抖动对于QoE来说都会产生巨大影响，因此本发明将其作为QoE中的惩罚项。

2)时域抖动S

将时域抖动S

将空域抖动S

其中，Q

由于VR用户对于时延非常的敏感，我们将时延建模为约束条件。

3)时延D

VR视频中的传输时延主要来自视频传输需要消耗的时间，用户请求包产生的时延(RTT)非常短，因此将其忽略。在C-RAN网络环境中，根据缓存分布的不同，可以分为四种情况(如图4所示)：

(a)表示直接从本地RRH中获取tile，这种情况下时延定义为RRH到用户的传输时延：

其中，N

(b)表示本地RRH中没有该用户需要的tile，需要从BBUpool中获取，这种情况下时延定义为BBU到用户的传输时延：

其中，N

(c)表示如果本地RRH和BBU pool中都没有缓存，但是其他RRH中有该tile的缓存，可以先将tile传输到BBUpool，再将该tile传输给用户，这样时延可以表示为两倍的BBUpool到RRH的时延加上RRH到用户的时延：

(d)如果BBU pool和RRH中都没该tile的缓存，只能从源服务器中获取，定义源服务器到用户的时延为：

其中，N

根据这四种情况，本发明定义

由此，得到平均时延D的表示方法：

满足：

S303、基于单用户的用户体验质量确定多用户的用户体验质量；

通过对单个用户的QoE建模，得到用户体验的客观衡量标准，在此基础上比例公平的考虑多个用户的总体QoE，并作为优化目标指导缓存。

第u个用户观看第v个视频的平均

其中，T

S304、基于强化学习算法对所述多用户的用户体验质量进行优化；

在有限的缓存容量约束下，优化目标是比例公平地最大化所有用户的QoE，由于用户请求已知，可以采用强化学习的方法寻找全局最大的QoE对应的缓存策略。

本发明使用强化学习方法来求解上述问题，来获得使多用户的全局QoE达到最大的缓存分布决策，如图5所示，将模型定义为：

Environment：整个C-RAN视频播放系统，包括带宽和缓存资源；

Agent：即缓存决策模块，负责决策和优化BBU和RRH的缓存分布；

States：定义为视频文件信息M

考虑一长段时间的全局状态信息：

Action：即缓存决策变量

Reward：即全局QoE，r

Policy：不同状态下的策略定义为π

S305、基于网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量对VR视频进行缓存。

通过强化学习得到一个高效的决策模型，根据信息收集模块收集到的用户请求情况和网络带宽状态，指导缓存决策模块调整缓存分布，使得多用户的总体观看体验达到最优，为用户提供高效的VR视频服务。

综上所述，本发明在C-RAN架构中提出一种基于强化学习方法的VR视频缓存方法，能够解决网络带宽受限导致的VR视频清晰度较低，出现卡顿、抖动的问题，为用户提供更加真实、清晰、流畅的VR观看体验。

如图6所示，为本发明公开的一种C-RAN架构中基于强化学习的VR视频多级缓存系统实施例的结构示意图，所述系统可以包括：信息收集模块601和缓存决策模块602；其中：

信息收集模块601，用于采集网络吞吐量、用户请求信息和缓存状态信息；

缓存决策模块602，用于基于视频质量、视频时域抖动、视频空域抖动和时延确定单用户的用户体验质量；

缓存决策模块602，还用于基于所述单用户的用户体验质量确定多用户的用户体验质量；

缓存决策模块602，还用于基于强化学习算法对所述多用户的用户体验质量进行优化；

缓存决策模块602，还用于基于所述网络吞吐量、用户请求信息、缓存状态信息和优化后的多用户的用户体验质量对VR视频视频进行缓存。

本实施例公开的C-RAN架构中基于强化学习的VR视频多级缓存系统的工作原理与上述C-RAN架构中基于强化学习的VR视频多级缓存方法的工作原理相同，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：谭小彬;王顺义;徐磊;李思敏;杨坚;郑烇;
专利申请人：中国科学技术大学;

上一篇：综合客运枢纽换乘引导系统便捷性测评方法及系统
下一篇：智慧物流系统