掌桥专利:专业的专利平台
掌桥专利
首页

一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法

文献发布时间:2023-06-19 13:43:30


一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法

技术领域

本发明涉及无线通信技术领域,特别涉及一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法。

背景技术

当前,5G网络已经成为数字社会发展不可缺少的关键一环,与4G网络相比,其提供的海量服务可以满足我们更广泛的需求,而其中大多数都是4G所不能实现的。

ITU为5G定义了三个主要应用场景:增强移动带宽(enhance mobile broadband,eMBB),大规模机器类通信(massive machine-type communication,mMTC),超高可靠低时延通信(ultra-reliable low-latency communication,URLLC)。其中eMBB凭借其高带宽主要应用于AR/VR等业务,mMTC则因为连接密度大而应用于物联网、智能家居等业务,而低时延和可靠性高的URLLC则可应用于自动驾驶、远程手术等业务。

然而,如果5G网络像4G网络一样,针对某一特定业务使用专用网络,将会很大程度上造成资源的浪费。这是因为,正如上面所说,5G网络的不同服务对通信时延、带宽、移动性、可靠性等性能有着不同需求,要覆盖所有业务就需要使用多个专用网络,会造成巨大的部署成本。

因此,研究人员提出了网络切片(network slicing,NS)技术。网络切片技术可以依据不同用户需求灵活的分配现有的网络资源。与单一的网络相比,它可以提供更高性能的逻辑网络,灵活分配有限的带宽资源,并且各个网络资源之间合理配置,互不干扰,具有较高的可靠性和安全性。为了迎合不断变化的用户需求以及用户移动性导致的基站间的频繁切换,如何优化部署和实时调整网络切片的资源分配是当前5G业务商用面临的一个重大的挑战。其技术关键指标在于:在尽可能满足切片订阅者的服务水平协议(Service LevelAgreement,SLA)以提高用户服务满意率(SSR)的同时,最大化频谱效率(SpectrumEfficiency,SE)以降低资源成本,满足更多订阅者的需求。

传统的专用资源分配方案以及基于优化算法和启发式算法的资源分配策略,往往有严格的限定条件和复杂的推导形成特定的优化问题,这样的方法缺乏灵活性和可扩展性,当用户特征以及各种性能用户的比例发生变化,这些算法都无法良好的应对。因此,有必要根据用户的服务请求动态地智能地将频谱资源分配给不同切片,以便在保证基础SSR的同时最大化SE。

强化学习通过不断地与环境进行交互,捕捉环境中的状态信息,并据此做出动作选择,以试错的方式来学习使收益最大化的最优行为策略。传统的强化学习很难处理连续或者高维的状态空间情况,因此将深度学习的特征提取以及预测方法引入强化学习,用深度神经网络提取状态的深层特征,并代表状态价值函数,提出深度强化学习算法预测较大状态空间的最优动作选择策略。典型的深度强化学习代表有Deep Q Network(DQN)、Actor-Critic(A2C)等。

尽管卷积神经网络在处理结构化信息方面取得了很大的成果,但很多有趣的任务所涉及的数据无法用网格状结构表示,而是位于一个不规则的域中,这时候人们就倾向于用图去表示这种结构。人们对将卷积推广到图域的兴趣越来越大,图卷积神经网络由此不断地发展。图注意力机制作为一种代表性的图卷积神经网络机制,引入多头掩蔽注意力机制,赋予邻居节点不同的影响权重。

此外,用户的移动会导致同一个用户的需求在不同基站之间不停切换,我们也需要对用户行为进行预测,以及时满足其需要。长短期记忆机制作为典型的循环神经网络机制,可以对时间序列进行信息的综合和舍弃,提取出序列的时间特征。

通过这两种机制,我们不但可以增强图中节点的协同合作,提前预测用户行为的变化,信息聚合,同时对邻居节点的噪声和用户移动造成的影响更为鲁棒。

发明内容

本发明的目的在于提出一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法,相较于传统的优化算法和启发式算法,本发明提出的方法具有更好的灵活性和可扩展性;对比其他强化学习算法,本发明提出的方法可以加强基站之间的协同合作预测数据包的变化趋势,并且预测用户行为的变化趋势以降低用户移动性导致的基站内用户数量变化对状态动作值函数预测的负面影响,因此,采用基于时间特征提取强化学习算法进行多基站协同无线网络资源分配预测,可以提高预测准确率,从而大幅提高无线网络性能。

为实现上述目的,本发明提供如下技术方案:

本申请公开了一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法,其特征在于,包括如下步骤:

S1、算法网络结构G和目标网络

S11、将算法网络结构G分为状态向量编码网络Embed、长短期记忆网络LSTM、图注意力机制网络GAT和深度Q网络DQN;

S12、其中状态向量编码网络Embed由多层全连接网络构成,记作

S13、将当前主体m及其在有向图中相邻节点上的主体经过编码后的向量

S14、对于当前主体m,将直至当前的T个连续时间歩的图注意力机制网络GAT的第一层输出组合成序列

S15、深度Q网络DQN是由多层全连接网络组成的,将通过图注意力机制网络GAT的第一层输出

S16、明确网络结构后,通过高斯分布随机初始化算法网络中的权重矩阵,同时构建一个目标网络

S2、执行资源分配;

S3、重复执行步骤S2的资源分配

S4、每完成步骤S3中算法网络结构G训练X次,将算法网络结构G权重参数赋值给目标网络

S5、步骤S3执行

作为优选,所述子步骤S13中注意力影响系数的的计算公式为

作为优选,所述步骤S14中记忆门的计算公式

作为优选,所述步骤S2包含以下子步骤:

S21、无线资源管理器获取当前t时刻各个基站的网络状态向量,基站数量为M,

S22、无线资源系统管理器设置两个超参数

S23、无线资源管理器将

作为优选,所述步骤S3包含以下过程:从缓存区

作为优选,所述步骤S5包含以下过程:无线资源管理器将当前网络状态向量

作为优选,所述X的取值为100~500,所述

作为优选,所述四元组个数p为32或64。

作为优选,所述批梯度下降法为Adam,学习率为0.001。

作为优选,所述子步骤S21中

本发明的有益效果:

(1)本发明利用图注意力机制和长短期记忆机制对状态向量进行预处理,提取时间和空间特征,在通信条件有限的情况下,扩大感受野,加强了基站之间的协同合作和对用户行为的预测。通过网络训练,获取周围基站对当前基站的影响权重,增大有效变量的正面影响,减少噪声和用户移动带来的负面影响,增强系统的鲁棒性。

(2)本发明利用深度强化学习方法对状态动作值函数进行估计,选择最优的资源分配策略,强化学习算法可以通过与环境交互产生训练所需要的样本数据,不需要任何经验假设以及对于状态动作函数分布的先验假设,可以适应更多更复杂的场景,有更好的灵活性。

(3)本发明得到通过多基站协同获得的无线资源分配策略相较于传统均分资源以及数值分析算法,能得到更高的系统效益值,即在保证基本的用户服务满意率的同时提高频谱资源利用率,从而提升用户体验。

本发明的特征及优点将通过实施例结合附图进行详细说明。

附图说明

图1为本发明基于时间特征提取强化学习的多基站协同网络资源分配方法的流程图;

图2显示了当是用下文实施例中具体参数时,本发明方法与一些分配方法的系统效益值在无线资源分配过程中的变化情况。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果,下面结合附图详予说明。

参阅图1,为本发明基于时间特征提取强化学习的多基站协同网络资源分配方法的流程图,具体包括以下步骤:

S1、算法网络结构G和目标网络

S11、该方法的算法网络结构

S12、其中状态向量编码网络由两层全连接网络构成,记作

其中

S13、将当前主体m及其在有向图中相邻节点上的主体经过编码后的向量

将归一化后的注意力影响系数与输入向量相乘,通过公式(4)计算图注意力机制网络的第一层输出,多头注意力机制参数K的取值为2~20。

将以上计算注意力影响系数、归一化、计算输出等三个步骤用如下公式进行分装表示,

图注意力机制网络一共有两层,第二层的结构和第一层相同,用如下公式表示,

其中,

S14、对于当前主体m,将直至当前的T个连续时间歩的两层GAT的输出组合成序列

记忆门输出的计算公式为,

遗忘门输出的计算公式为,

输出门输出的计算公式为,

综合信息计算的相关公式为

其中,

以这三个门作为核心进行数据处理,长短期记忆网络LSTM最终输出向量

S15、深度Q网络DQN是由多层全连接网络组成的,将通过上述两层图注意力机制网络GAT和长短期记忆网络LSTM处理过后的输出向量作为深度Q网络DQN的输入,输出当前状态下执行不同动作的回报值,选取并执行回报最高的动作与环境交互;

S16、明确网络结构后,通过高斯分布随机初始化算法网络中的权重矩阵,同时构建一个目标网络

S2、执行资源分配,具体包括以下子步骤:

S21、无线资源管理器获取当前t时刻各个基站的网络状态向量,基站数量为M

S22、无线资源系统管理器设置两个超参数

其中

S23、无线资源管理器将

S3、先重复执行步骤S2的资源分配

从缓存区

将样本中的p个网络状态向量

算法网络结构G的损失函数为:

其中,

S4、每完成步骤S3中算法网络结构G训练X次,X取100~500,将

S5、步骤S3执行

在配置如表1所示的服务器上,采用Python语言编写了仿真环境,用keras搭建网络框架,并以3种不同类型服务(通话、视频和超可靠低延时服务)为例进行测试。系统中共有19个基站,即M=19,呈蜂窝状排布,每个基站的总带宽为10M,分配的颗粒度设置为0.5M,所以总共有171种分配策略,即有效动作的数量为171。设置折扣因子

表1系统测试平台参数

将本发明的方法与一些资源分配方法比较,包括硬切片算法(Hard Slicing)、DQN算法、LSTM-A2C算法以及没有加入LSTM的GAT-DQN算法。其中硬切片算法是将基站的总宽带均匀分配给各个网络切片;LSTM-A2C算法为结合了长短期记忆网络以及深度强化学习的算法。参阅图2,显示了各种方法得到的系统效益值在无线资源分配过程中的变化,其中系统效益值表示的是19个基站的平均回报值。为便于分析,取每100步的中值绘制曲线。分析图中的曲线得出,在前4000步由于深度强化学习算法均需要进行网络参数训练,导致回报值较均分法波动相对来说更大且中值回报更低。当网络训练结束,也就是4000步之后,各深度强化学习算法的系统效益值有明显提升,且本方法的更胜一筹,具有更好的系统稳定性以及更高的系统效益值。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法
  • 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法
技术分类

06120113788146