掌桥专利:专业的专利平台
掌桥专利
首页

基于联邦深度强化学习的边缘协作缓存方法及系统

文献发布时间:2024-04-18 19:59:31


基于联邦深度强化学习的边缘协作缓存方法及系统

技术领域

本发明涉及边缘缓存技术领域,特别涉及一种基于联邦深度强化学习的边缘协作缓存方法及系统。

背景技术

近年来,随着移动网络中各类网络媒体业务的数据量不断攀升,电脑、智能手机、智能电视等智能化设备的数量也不断增多以及各类传感器、可穿戴设备对移动网络的需求不断提升使得分布式网络的用户数量激增,从而产生了海量的异构网络数据。这些不断增多的异构数据既需要处理和分析又具有一定的私密性。传统的云存储技术需要将所有的数据都上传至云端存储,难以确保用户的隐私安全而且庞大的数据需要大量的存储资源和计算资源,不仅效率低下且会产生极大的网络负载。

在现有技术中,研究人员提出了移动边缘计算架构,该架构将计算资源和存储资源从云端下沉到处于边缘网络的用户端,减轻了中心网络的负载压力和数据处理的延迟并且支持基于深度学习的资源管理。在移动边缘计算的架构下,由于边缘服务器和用户之间的通讯相比云端服务器更为高效,因此可以为移动网络中的用户提供更加快速更为准确的计算和存储服务,同时也有利于保障用户的隐私安全。然而,由于近年来网络边缘移动用户的不断增加,大量的移动数据流量占据了大部分的移动边缘计算系统中的网络资源,因此,产生了存储、计算资源受限的中间服务器无法及时处理大量的实时数据、无法为移动网络内大量的用户提供服务、网络边缘的通信延迟增加以及回程链路负载加重等问题,为了解决此问题,研究人员又提出了边缘缓存技术,该技术将用户频繁访问的数据存储在中间服务器中,实现了用户对于相同内容的高速访问,极大的降低了数据的冗余传输和访问延迟。

然而目前大部分的边缘缓存策略都只是针对短期需求进行资源分配,没有将影响分配资源的长期因素纳入考量,并且现有策略需要运用几乎在难以获取的全局信息,且只是达到系统某一时刻的最优解,缺乏动态适应性和长期优化。

发明内容

针对上述现有技术的不足之处,本发明提出一种基于联邦深度强化学习的边缘协作缓存方法及系统,通过边缘协作缓存技术进行数据缓存从而在保障移动用户隐私不被侵犯的前提下,通过联邦深度强化学习的边缘协作缓存算法在不需要获取全局信息的情况下得到当前条件下最优缓存策略,实现内容访问延迟降低和缓存数据命中率的提升。

为实现上述目的,本发明所设计的一种基于联邦深度强化学习的边缘协作缓存方法,其特殊之处在于,包括以下步骤:

步骤S1:基于移动用户在时间片内的内容请求概率,构建内容请求与用户流行度模型;基于移动用户的平均缓存命中率,构建协作缓存模型;基于移动用户获取内容的访问延迟,构建内容访问延迟模型;

步骤S2:基于所述内容请求与用户流行度模型、协作缓存模型和访问延迟,内容访问延迟模型设定奖励函数,通过马尔科夫决策过程建立以最小化边缘缓存长期数据平均访问延迟为目标的决策模型;

步骤S3:基于奖励函数,本地边缘服务器采用缓存替换算法对决策模型进行预训练,得到目标参数;

步骤S4:将所述目标参数发送给移动用户,移动用户通过梯度下降法对目标参数进行更新;

步骤S5:将更新后的目标参数发送给本地边缘服务器,所述本地边缘服务器将目标参数进行聚合,对目标参数进行更新,完成一次联邦深度强化学习过程;

步骤S6:不断重复步骤S3~S6完成多次迭代,以满足设定的精度要求,并将目标参数输入所述决策模型得到最优缓存策略。

优选地,所述内容请求与用户流行度模型的表达式为:

式中,

优选地,所述协作缓存模型的表达式为:

式中,U表示移动用户总数,

优选地,所述内容访问延迟模型的构建方法包括:

1)当移动用户u所请求的内容在本地边缘服务器中命中时,计算时间片t内从本地边缘服务器n传输到移动用户u的平均传输速率为

式中,

2)移动用户u所请求的内容在本地边缘服务器中命中时,内容访问延迟

式中,S

3)如果本地边缘服务器未能命中,而协作边缘服务器成功命中时内容访问延迟

式中,d

4)如果本地边缘服务器和协作边缘服务器都未能命中,则向远程内容提供商发送内容请求,其内容访问延迟

式中,d

优选地,所述奖励函数为:

式中,d

优选地,步骤S3中预训练采用基于竞争深度Q网络学习的缓存替换算法,所述竞争深度Q网络学习的缓存替换算法包括以下步骤:

步骤S31:初始化评估网络参数和目标网络参数,获取时间片内所有移动用户的请求内容;

步骤S32:若所述请求内容被本地边缘服务器或协作边缘服务器缓存,则获取其内容,然后终止迭代;

步骤S33:若本地边缘服务器或协作边缘服务器的缓存中仍有足够的空间,则从远程内容的提供商获取内容然后存放到本地边缘服务器或协作边缘服务器缓存空间内,并终止迭代;

步骤S34:若本地边缘服务器或协作边缘服务器的缓存中没有足够空间,则选择缓存动作计算Q值,并基于所述奖励函数计算奖励值,形成缓存经验,然后将缓存经验添加到经验池中;

步骤S35:从所述经验池中选取缓存经验,通过平均损失函数进行神经网络训练,并更新评估网络参数;

步骤S36:不断重复上述步骤,直到满足迭代终止条件,并基于所述评估网络参数更新目标参数。

优选地,所述竞争深度Q网络学习的缓存替换算法将Q值函数区分为优势值A(s,a)和状态值V(s),并通过以下公式计算Q值:

式中,s表示状态,a表示动作,ε表示评估网络参数,a′表示a的下一个动作。

优选地,步骤S4中更新所述目标参数的公式为:

式中,k表示迭代次数,

优选地,步骤S5中对所述目标参数进行聚合的公式为:

式中,k表示迭代次数,

本发明还提供了一种基于联邦深度强化学习的边缘协作缓存系统,其特殊之处在于,所述系统包括模型构建模块、缓存策略初始化模块、预训练模块、分布式学习模块和缓存策略生成模块;

所述模型构建模块,用于基于移动用户在时间片内的内容请求概率,构建内容请求与用户流行度模型;基于移动用户的平均缓存命中率,构建协作缓存模型;基于移动用户获取内容的访问延迟,构建内容访问延迟模型,并输入所述预训练模块;

所述缓存策略初始化模块,基于所述内容请求与用户流行度模型、协作缓存模型和访问延迟,内容访问延迟模型设定奖励函数,通过马尔科夫决策过程建立以最小化边缘缓存长期数据平均访问延迟为目标的决策模型;

所述预训练模块,通过缓存替换算法对决策模型进行预训练,得到目标参数;

所述分布式学习模块,用于选取移动用户,并基于所述目标参数进行联邦深度强化学习,对目标参数进行更新,并输入所述缓存策略生成模块;

所述缓存策略生成模块,将所述目标参数输入所述决策模型,得到最优缓存策略。

与现有技术相比,本发明的有益效果在于:

1、本发明通过联邦深度强化学习的协作边缘缓存算法可以在无需网络先验知识的条件下,通过与实际环境的交互,学习出合适的策略去处理缓存替换问题,从而提高缓存的效率和性能,实现动态自适应的资源分配策略。

2、本发明通过不需要移动用户的全部数据信息,通过联邦深度强化学习,仅对移动用户上传的目标参数进行处理,以获得数据缓存策略,从而在保障用户隐私不被侵犯的前提下实现内容访问延迟降低和缓存数据命中率的提升。

3、本发明采用竞争深度Q网络学习进行预训练,改善学习效率并加速模型收敛速率,节省了计算资源,并且得到的策略更为准确。

附图说明

图1为本发明的方法流程图示意图;

图2为基于竞争深度Q网络学习的预训练算法流程图;

图3为本发明基于联邦深度强化学习的协作边缘缓存算法流程图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。

如图1所示,为本发明所提供的基于联邦深度强化学习的边缘协作缓存方法的流程示意图,包括以下步骤:

步骤S1:基于移动用户在时间片内的内容请求概率,构建内容请求与用户流行度模型;基于移动用户的平均缓存命中率,构建协作缓存模型;基于移动用户获取内容的访问延迟,构建内容访问延迟模型;

1)内容请求与用户流行度模型

本发明实施例中,设一组边缘服务器N={1,2,...,n},且在每个时间片内,所有边缘服务器都具有相同的缓存大小,即

随着时间的变化,移动用户的需求也会不断改变,设T为一个较长的时间周期,再将T分割为若干个较短的时间片t。设移动用户为u,边缘服务器为n。当在某时间片t内,移动用户u正好处于边缘服务器n所覆盖的范围内,且u发出来内容请求,此时边缘服务器n会接收内容请求,若边缘服务器n中没有对应内容,则将请求发送至临近的其他边缘服务器,若仍然找不到对应内容,就把请求发送到远程内容提供商。

根据现有的研究成果显示,绝大多数流媒体视频的移动用户访问频率都近似于齐普夫定律Zipf's Law,这表明移动用户的内容请求往往都集中于小部分非常热门的视频内容,而大量的普通视频内容很少被访问。因此可以设用户满足齐普夫分布Zipf,设边缘服务器n中缓存内容f的局部流行度为P

式中

2)协作缓存模型

设所有的边缘服务器只和距离它最近的边缘服务器相互协作,设某边缘服务器为n,则与它距离最近的边缘服务器为协作边缘服务器bs

公式中,U表示用户总数,

公式中,

的值分别由以下公式计算得出:

式中

3)内容访问延迟模型

当移动用户n处于边缘服务器u所覆盖的范围内时,若用户n发送内容请求在本地边缘服务器u中命中,则可直接从本地边缘服务器中获取该内容,若未能命中,则尝试从协作边缘服务器获取,若协作边缘服务器也未能命中,则只能从远程内容供应商获取,这无疑会产生额外的访问延迟。因此为了降低平均内容访问延迟和提升内容访问在本地和协作边缘服务器中的命中率,需要用缓存替换策略决定每个时间片内要替换哪些缓存内容。在获取内容的过程中,访存延迟还受到无线信道状态等因素的影响,不同的用户设备,会因为所处信道状态的不同,而产生不同的延迟。当移动用户u所请求的内容在本地边缘服务器中命中时,时间片t内从本地边缘服务器n传输到用户u的平均传输速率为

式中

在时间片t内当移动用户u处于边缘服务器n所覆盖的范围之内并发送内容请求f时,如果成功命中边缘服务器n的缓存,那么内容访问延迟

其中,S

如果本地边缘服务器未能命中,而协作边缘服务器成功命中时内容访问延迟

式中d

如果本地边缘服务器和协作边缘服务器都未能命中,则向远程内容提供商发送内容请求,其内容访问延迟

式中d

步骤S2:基于所述内容请求与用户流行度模型、协作缓存模型和访问延迟,内容访问延迟模型设定奖励函数,通过马尔科夫决策过程建立以最小化边缘缓存长期数据平均访问延迟为目标的决策模型;

具体地,本发明实施例针对大规模的缓存优化问题,基于强化学习算法进行求解,强化学习算法的目的是得到一种优化策略,该策略考虑当前决策对资源分配的长期影响且目标是最大化累积奖励。对于某一边缘服务器,其状态空间S、行动空间A、转移概率P、奖励函数R如下。

1)状态空间S

假设移动用户在每个时间片中只请求一个内容。在决策步骤t中,移动用户请求状态为

2)动作空间A

在每个决策步骤t中,假设边缘服务器只能替换一个缓存的内容或者选择不替换。另外,边缘服务器需要决策是通过本地、协作边缘服务器还是远程内容提供商提供服务。

在决策步骤t,

3)转移概率

由于用户的移动性具有马尔科夫性,系统转移到下一个决策步骤t+1的概率为P(s′|s,a)=P[s

4)奖励函数

在每个决策步骤t,边缘服务器观察状态s

其中,d

此外,在马尔可夫过程中决定性策略是来自状态空间的映射a=π(s)。本发明的目标是在任意初始状态s

其中,0<γ<1表示衰减因子。

目标是去找到最优策略π

步骤S3:基于奖励函数,本地边缘服务器采用缓存替换算法对决策模型进行预训练,得到目标参数;

具体地,如图2所示,本发明实施例采用基于竞争深度Q网络学习的缓存替换算法,竞争深度Q网络学习的缓存替换算法包括以下步骤:

步骤S31:初始化评估网络参数和目标网络参数,获取时间片内所有移动用户的请求内容;

步骤S32:若所述请求内容被本地边缘服务器或协作边缘服务器缓存,则获取其内容,然后终止迭代;

步骤S33:若本地边缘服务器或协作边缘服务器的缓存中仍有足够的空间,则从远程内容的提供商获取内容然后存放到本地边缘服务器或协作边缘服务器缓存空间内,并终止迭代;

步骤S34:若本地边缘服务器或协作边缘服务器的缓存中没有足够空间,则选择缓存动作计算Q值,并基于所述奖励函数计算奖励值,形成缓存经验,然后将缓存经验添加到经验池中;

在深度Q网络中,神经网络被用来求解一个近似的Q值函数,该函数为每个状态-动作对应一个Q值,Q值函数Q(s,a)如以下公式所示:

其中s=s

深度Q学习主要由两种神经网络构成,分别是评估神经网络和目标神经网络。评估神经网络用于生成给定状态-动作对应的Q值即训练评估参数ε,目标神经网络用于生成目标Q值即目标参数

评估神经网络的损失函数如公式所示:

目标神经网络可以由以下公式得到:

本发明实施例通过对深度Q学习进行改进,构建竞争深度Q网络,将Q值函数区分为优势值A(s,a)和状态值V(s),从而优化学习的效率同时加快收敛的速度。动作a的价值通过优势值来表示,而状态s的价值则通过状态值来代表。两者相加则为该状态s下动作a的Q值函数,如以下公式所示:

Q(s,a|ε)=A(s,a|ε)+V(s|ε)

在竞争深度Q网络中,状态值对于动作而言独立存在,但以上公式不能体现出V(s)和A(s,a)在最后输出结果中的作用,因此本发明实施例将其加以改进为以下公式:

未改进的Q值函数无法完全表示状态s所体现的价值,例如在某个状态下无论动作是什么,都无法对下个状态造成实质影响,用任何内容替换此状态下的动作都会得到较高的值,或者都会得到较低的值。也就是说脱离状态来判断动作的价值所得到的结果是不准确的,因此只有结合其所处的状态,才能判定该动作准确的价值。

本发明实施例采用贪心策略选择缓存动作

步骤S35:从所述经验池中选取缓存经验,通过平均损失函数进行神经网络训练,并更新评估网络参数;

步骤S36:不断重复上述步骤,直到满足迭代终止条件,并基于所述评估网络参数更新目标参数。

如图3所示,本发明实施例所提出的联邦深度强化学习的边缘协作缓存算法包括以下步骤:

步骤S4:将所述目标参数发送给移动用户,移动用户通过梯度下降法对目标参数进行更新;

具体地,移动用户u进行局部模型训练的损失函数为

则时间片t内局部迭代更新如下所示。

其中,η表示移动用户训练的学习率。D

步骤S5:将更新后的目标参数发送给本地边缘服务器,所述本地边缘服务器将目标参数进行聚合,对目标参数进行更新,完成一次联邦深度强化学习过程;

边缘服务器n聚合参与用户集

步骤S6:不断重复步骤S3~S6完成多次迭代,以满足设定的精度要求,并将目标参数输入所述决策模型得到最优缓存策略。

具体地,通过全局参数,对联邦深度强化学习进行设置,之后将移动用户的请求作为输入,求得最优缓存策略。

本发明还提出了一种基于联邦深度强化学习的边缘协作缓存系统,其特殊之处在于,所述系统包括模型构建模块、缓存策略初始化模块、预训练模块、分布式学习模块和缓存策略生成模块;

所述模型构建模块,用于基于移动用户在时间片内的内容请求概率,构建内容请求与用户流行度模型;基于移动用户的平均缓存命中率,构建协作缓存模型;基于移动用户获取内容的访问延迟,构建内容访问延迟模型,并输入所述预训练模块;

所述缓存策略初始化模块,基于所述内容请求与用户流行度模型、协作缓存模型和访问延迟,内容访问延迟模型设定奖励函数,通过马尔科夫决策过程建立以最小化边缘缓存长期数据平均访问延迟为目标的决策模型;

所述预训练模块,通过缓存替换算法对决策模型进行预训练,得到目标参数;

所述分布式学习模块,用于选取移动用户,并基于所述目标参数进行联邦深度强化学习,对目标参数进行更新,并输入所述缓存策略生成模块;

所述缓存策略生成模块,将所述目标参数输入所述决策模型,得到最优缓存策略。

本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种降噪的减速机用润滑脂
  • 一种带降噪轴承的压缩机装置及降噪保持架生产方法
  • 一种降噪方法、降噪装置及空调器
  • 一种双曲线减速机用降噪装置
  • 一种减速机用的降噪装置
技术分类

06120116525992