掌桥专利:专业的专利平台
掌桥专利
首页

超密集组网多业务切片资源分配方法及装置

文献发布时间:2023-06-19 19:30:30


超密集组网多业务切片资源分配方法及装置

技术领域

本发明涉及通信技术领域,尤其涉及一种超密集组网多业务切片资源分配方法及装置。

背景技术

网络切片技术已经成为第五代移动网络(Fifth Generation Mobile Network,5G)的关键技术之一,在下一代移动网络以及其他技术领域中,网络对用户的差异性服务提出了更高的灵活性、隔离性、隐私性和定制性等需求,与此同时,提供特定服务的小范围网络的重要性也会增加,以满足不同场景和不同人群的需求。

新兴的解决方案之一是引入宏微基站异构的超密集组网,满足用户的传输容量和覆盖范围需求。基站的超密集组网可以在一定程度上提高系统的频谱效率,并通过快速资源调度进行动态无线资源调配,并在微基站(Small Base Station,SBS)处复用宏基站(Macro Base Station,MBS)的许可频谱,提高系统无线资源利用率和频谱效率,但同时也带来了系统干扰和系统成本问题。为了提供可靠的服务,微基站需要获取宏基站频谱的复用许可权,这需要在宏基站和微基站之间进行干扰协调,以保证其运营不受有害干扰的影响。

因此,亟需一种在保证用户通信质量和通信需求的前提下,减少微基站竞争干扰,优化无线资源分配的方法。

发明内容

鉴于此,本发明实施例提供了一种超密集组网多业务切片资源分配方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有技术在提高系统无线资源利用率和频谱效率时导致的系统干扰和系统成本的问题。

一方面,本发明提供了一种超密集组网多业务切片资源分配方法,其特征在于,所述超密集组网包括至少一个宏基站,每个宏基站还连接服务多个微基站;所述微基站的用户复用对应宏基站的切片资源,所述方法基于所述微基站与所述宏基站之间产生跨层干扰,以及相邻微基站之间产生同层干扰进行多业务切片资源分配;所述方法包括以下步骤:

获取多智能体强化学习模型,所述多智能体强化学习模型在每个微基站上均部署策略网络和价值网络;每个策略网络以对应单个微基站中各用户的传输速率以及总发射功率作为状态参数构建状态空间;获取用于表示各微基站中用户是否复用宏基站中资源块的关联参数,并以各微基站的关联参数集合和预测的其他各微基站的发射功率集合作为动作参数构建动作空间;每个微基站获取自身状态参数,根据所述策略网络选择相应的动作,每个微基站的价值网络根据相应微基站的状态参数和选择的动作以及其他微基站的状态参数和动作生成预估Q值,并用于对相应微基站的策略网络进行参数更新;以最大化奖励值为优化目标构建所述预估Q值与模型实际Q值的损失函数,对所述价值网络进行参数更新;直至到达预设性能要求;

其中,在状态更新过程中,所述宏基站根据跨层干扰价格和用户在微基站中复用资源块产生的跨层干扰构建宏基站收益计算式;所述微基站根据所述关联参数、资源块固定带宽长度、信号与干扰加噪声比、同层干扰价格、同层干扰、所述跨层干扰价格和跨层干扰构建微基站收益计算式;将所述宏基站作为领导者,将各微基站作为追随者构建非合作博弈;固定所述关联参数的值,采用逆向归纳法对所述微基站收益计算式进行求解,得到各微基站的发射功率均衡解,以用于更新每个策略网络的状态空间;将所述发射功率均衡解代入所述宏基站收益计算式,得到所述跨层干扰价格均衡解;

将各微基站的状态参数输入所述多智能体强化学习模型,生成相应的动作策略,实现多业务切片资源分配。

在本发明的一些实施例中,所述宏基站根据跨层干扰价格和用户在微基站中复用资源块产生的跨层干扰构建宏基站收益计算式,所述宏基站收益计算式为:

其中,U

在本发明的一些实施例中,所述微基站根据所述关联参数、资源块固定带宽长度、信号与干扰加噪声比、同层干扰价格、同层干扰、所述跨层干扰价格和跨层干扰构建微基站收益计算式,所述微基站收益计算式为:

s.t.

其中,U

在本发明的一些实施例中,每个策略网络以对应单个微基站中各用户的传输速率以及总发射功率作为状态参数构建状态空间,其中,所述总发射功率使用所述发射功率均衡解,所述状态参数表示为:

其中,s

每个微基站的价值网络根据相应微基站的状态参数和选择的动作以及其他微基站的状态参数和动作生成预估Q值,则所述价值网络的状态参数表示为:

s

其中,s

在本发明的一些实施例中,获取用于表示各微基站中用户是否复用宏基站中资源块的关联参数,并以各微基站的关联参数集合和预测的其他各微基站的发射功率集合作为动作参数构建动作空间,所述动作参数表示为:

a

其中,

其中,a

在本发明的一些实施例中,每个微基站的价值网络根据相应微基站的状态参数和选择的动作以及其他微基站的状态参数和动作生成预估Q值,根据所述预估Q值构建策略梯度,并用于对相应微基站的策略网络进行参数更新,所述策略梯度的计算式为:

其中,

在本发明的一些实施例中,以最大化奖励值为优化目标构建所述预估Q值与模型实际Q值的损失函数,对所述价值网络进行参数更新,所述损失函数的计算式为:

其中,

在本发明的一些实施例中,以最大化奖励值为优化目标构建所述预估Q值与模型实际Q值的损失函数,对所述价值网络进行参数更新,所述奖励值的计算式为:

其中,reward

在本发明的一些实施例中,所述自适应权重参数是根据全局环境的状态学习得到;

当u

当0

另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中提及的任意一项所述方法的步骤。

本发明的有益效果至少是:

本发明提供一种超密集组网多业务切片资源分配方法及装置,通过获取预训练得到的多智能体强化学习模型,将各微基站自身状态参数输入该多智能体强化学习模型,相应生成动作策略,实现了在保证用户通信质量和通信需求的前提下,减少微基站的竞争和干扰,从而优化无线资源分配,缓解频谱紧张。

在多智能体强化学习模型训练中,预先构建宏基站收益计算式和微基站收益计算式,将资源分配问题建模为非合作博弈,求得发射功率均衡解和跨层干扰价格均衡解;再将发射功率均衡解用于更新多智能体强化学习模型中各策略网络的状态空间,引导模型向预设方向更新优化,简化模型的运算量。同时,多智能体强化学习模型在每个微基站上部署策略网络和价值网络,价值网络能够获取全局信息,生成更精准的预估Q值,使得策略网络生成更优的动作策略。

本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:

图1为本发明一实施例中超密集组网多业务切片资源分配方法结构示意图。

图2为本发明一实施例中超密集组网架构示意图。

图3为本发明一实施例中超密集组网多业务切片资源分配方法流程示意图。

图4(a)为本发明一实施例中资源块数量为20时基站收益情况示意图。

图4(b)为本发明一实施例中资源块数量为24时基站收益情况示意图。

图4(c)为本发明一实施例中资源块数量为28时基站收益情况示意图。

图5为本发明一实施例中MADDPG算法与斯坦克尔伯格博弈针对跨层干扰价格对基站平均收益影响的效果对比示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。

在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。

应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。

在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。

为了解决现有技术在提高系统无线资源利用率和频谱效率时导致的系统干扰和系统成本的问题,即解决超密集组网中宏基站和微基站在共享宏基站网络时动态多业务切片和功率分配问题,本发明提供一种超密集组网多业务切片资源分配方法,该超密集组网包括至少一个宏基站,每个宏基站还连接服务多个微基站。该方法包括以下步骤S101~S102:

步骤S101:获取多智能体强化学习模型,该模型经过预设方法训练得到。

步骤S102:将各微基站的状态参数输入多智能体强化学习模型,生成相应的动作策略,实现多业务切片资源分配。

如图1所示,本发明通过研究宏基站对微基站复用资源块造成的跨层干扰制定价格并收费,各微基站在收到宏基站的定价方案后微基站进行动态切片和功率的分配,在不影响宏基站用户的基础上,提高宏基站用户和微基站用户各自的经济效益和通信质量,将问题分解为发射功率分配问题和切片资源块分配问题,并将问题转化为在保证用户通信质量和减少干扰的前提下,宏基站和微基站收益最大化的优化问题。

图2为一组超密集组网架构的示意图,该超密集组网网络包括一个宏基站和多个微基站,其中,宏基站覆盖多个微基站的范围,微基站的用户可以复用宏基站的切片资源进行通信,但是会对宏基站用户造成跨层干扰。切片管理器负责协调各切片所需资源块数目,实现各切片之间的隔离通信,切片可以部署在多个微基站中。为了减少通信信令开销,每个微基站独立分布式地对各自微基站和连接的用户进行资源分配。需要说明的是,图1和图2中均只展示了一组超密集组网的架构作为参考,实际使用时可根据特定需求和/或特定应用场景对宏基站、微基站的数量进行调整。

在步骤S101中,为获取适用于本发明应用场景下的多智能体强化学习模型,需对初始强化学习模型进行训练。但考虑到直接对初始强化学习模型训练学习资源分配策略难度较大,可能出现模型没有按照预设方向进行优化,进而无法得到更优的策略以及训练量、运算量过大等问题,因此为了更好地描述用户的资源分配策略,简化初始强化学习模型的运算量,在本发明中首先采用逆向归纳法分析问题,求解博弈均衡性,引导初始强化学习模型向预设方向进行训练并优化,最终得到本发明所需的多智能体强化学习模型,以实现资源分配。

对初始强化学习模型训练得到多智能体强化学习模型的方法包括以下步骤:

在每个微基站上均部署策略网络和价值网络;每个策略网络以对应单个微基站中各用户的传输速率以及总发射功率作为状态参数构建状态空间;获取用于表示各微基站中用户是否复用宏基站中资源块的关联参数,并以各微基站的关联参数集合和预测的其他各微基站的发射功率集合作为动作参数构建动作空间;每个微基站获取自身状态参数,根据策略网络选择相应的动作,每个微基站的价值网络根据相应微基站的状态参数和选择的动作以及其他微基站的状态参数和动作生成预估Q值,并用于对相应微基站的策略网络进行参数更新;以最大化奖励值为优化目标构建预估Q值与模型实际Q值的损失函数,对价值网络进行参数更新;直至到达预设性能要求。

其中,在状态更新过程中,宏基站根据跨层干扰价格和用户在微基站中复用资源块产生的跨层干扰构建宏基站收益计算式;微基站根据所述关联参数、资源块固定带宽长度、信号与干扰加噪声比、同层干扰价格、同层干扰、跨层干扰价格和跨层干扰构建微基站收益计算式;将宏基站作为领导者,将各微基站作为追随者构建非合作博弈;固定关联参数的值,采用逆向归纳法对微基站收益计算式进行求解,得到各微基站的发射功率均衡解,以用于更新每个策略网络的状态空间;将发射功率均衡解代入宏基站收益计算式,得到跨层干扰价格均衡解。

具体的,宏基站收益和微基站收益组成一组斯坦克尔伯格博弈,其中,宏基站为领导者,负责制定跨层干扰价格,微基站为追随者,负责给出关联参数和发射功率。对于本模型的多目标联合优化问题,求取博弈均衡解和设计算法方面相较于单目标优化问题都更加困难,传统的迭代算法也不足以解决多基站之间的通信问题。因此,在本发明中,采用逆向归纳法,首先固定关联参数的值,对微基站收益计算式进行求解,得到各微基站的发射功率均衡解,并将发射功率均衡解的结果代入宏基站收益计算式中求得跨层干扰价格均衡解。在求得了发射功率的定式均衡解后,结合多智能体强化学习模型提供资源块关联的优化方案,并通过独立预测的方法提供均衡解所需的其他微基站的信息。优化资源分配策略的总体流程如图(3)所示。

在一些实施例中,宏基站制定的跨层干扰价格用

公式(1)中,U

其中,跨层干扰

公式(2)中,

其中,

由公式(1)可知,宏基站收益为所有微基站的用户复用资源块进行传输对宏基站产生干扰的收费总和。每个微基站用户拥有独自的收益,但复用频谱传输会造成干扰,对其他微基站用户和宏基站用户的收益都会产生影响,因此将宏基站作为领导者、各微基站作为追随者,将微基站的资源分配问题构建为非合作博弈。每个微基站用户都被认为是自私的、理性的玩家,博弈的策略空间由发射功率分配策略空间和切片资源块分配策略空间组成,每个微基站都试图最大化其效用。

在一些实施例中,微基站收益的计算式如公式(3)所示,其约束条件如公式(4)至公式(9)所示:

s.t.

公式(3)至公式(9)中,U

在各约束条件中,公式(4)表明微基站用户的发射功率下限;公式(5)表明所有用户同层干扰的最大值;公式(6)表明所有用户跨层干扰的最大值;公式(7)是切片资源块数量限制,所有切片中分配资源块的数量不能超过切片资源块数总量;公式(8)表明同一个用户最多关联一个基站;公式(9)是切片的隔离性约束,表明一个资源块同时间只能分配给同一用户。

在公式(3)中,同层干扰

公式(10)中,K

发射功率均衡解和跨层干扰价格均衡解的求解方法包括以下步骤:

固定关联参数

约束条件1:

约束条件2:

对U

求二阶导数,得到:

/>

因此,U

这一步,得到各微基站的发射功率均衡解。

同样需要保证宏基站收益最大,宏基站收益的计算式表示为:

约束条件1:

约束条件2:

宏基站收益与跨层干扰价格

给定

约束条件1:

约束条件2:

约束条件3:

且上文已经得到

则KKT条件可以写为:

α,β,γ≥0;

由KKT条件可得:

分析可得α=β=0。

其中,KKT条件是泛拉格朗日乘子法的一种形式,主用应用在当优化函数存在不等值约束的情况下的一种最优求解方式。

综上所述,可以得到宏基站跨层干扰价格均衡解的形式为:

(1)当

(2)当

时,

/>

.......

(N)当

时,

由此,得到了一组斯坦克尔伯格博弈解:

求得发射功率的定式均衡解后,设置多智能体强化学习模型策略网络的状态空间,利用多智能体强化学习模型提供资源块关联参数,并通过独立预测的方法提供均衡解所需的其他基站的信息,结合博弈结果进行资源分配优化。

在一些实施例中,多智能体强化学习模型采用MADDPG算法,MADDPG是DDPG在多智能体任务中的一种扩展,其基础思想为集中式学习,分散式执行。MADDPG算法在模型训练的时候,引入可以观察全局信息的critic来指导actor训练,而测试的时候只使用有局部观测的actor采取行动。

多智能体强化学习模型在每个微基站上均部署策略网络(由actor生成策略)和价值网络(由critic评价actor生成的策略),actor只能获取所属微基站的信息,critic可以获取全部微基站的信息。由于在本发明中,每个微基站之间是非合作的竞争关系,因此每个微基站的目标不同,每个微基站都有与之对应的策略网络和价值网络。

在一些实施例中,每个策略网络以对应单个微基站中各用户的传输速率以及总发射功率作为状态参数构建状态空间,该状态参数设计如公式(11)所示:

公式(11)中,r

前N项r

其中,

在一些实施例中,获取用于表示各微基站中用户是否复用宏基站中资源块的关联参数,并以各微基站的关联参数集合和预测的其他各微基站的发射功率集合作为动作参数构建动作空间,该动作参数设计如公式(12)所示:

a

公式(11)中,W

其中,

在一些实施例中,每个微基站的价值网络根据相应微基站的状态参数和选择的动作以及其他微基站的状态参数和动作生成预估Q值,该价值网络的状态参数如公式(15)所示:

s

公式(15)中,s

在多智能体强化学习模型训练过程中,每个微基站(actor)根据当前时刻的状态随机抽样,选择并执行相应的动作,相应的,价值网络(critic)根据该微基站的状态以及选择的动作计算预估Q值,作为对该微基站动作的反馈。策略网络根据critic的反馈更新策略,价值网络根据预估Q值和实际Q值构建损失函数进行训练。在本发明中,critic能够获取全局信息,即能够获取其他微基站的状态和动作,以得到更精确的预估Q值。

在多智能体强化学习模型测试过程中,每个微基站根据当前时刻的状态做随机抽样,选择并执行相应的动作,此时,不再需要critic的反馈,不需要依赖其他微基站的状态或者动作,实现分散式执行。

在本发明中,输入一个状态参数,就会得到一个确定的动作,因此是确定性策略。

对于确定性策略,根据价值网络的预估Q值构建用于更新策略网络的策略梯度,该策略梯度计算式如公式(16)所示:

在公式(16)中,θ表示策略参数;J(u

而对于价值网络,需要以最大化奖励值为优化目标构建预估Q值与模型实际Q值的损失函数来更新参数。

对于奖励值的设置,首先计算微基站各用户复用资源块的总传输速率,计算式如公式(17)所示:

公式(17)中,U

其中,

表示用户i在微基站b*分配给切片资源块j的发射功率;/>

在此基础上,为表示微基站与其他微基站的竞争和合作关系,奖励值计算式设计为公式(18)所示:

公式(18)中,u

具体的,自适应权重参数是根据全局环境的状态学习得到,当u

根据预估Q值与模型实际Q值构建的损失函数如公式(19)所示:

公式(19)中,θ表示策略参数;u

更新的计算式如公式(20)所示:

公式(20)中,r

随后参数更新奖励值,以最大化奖励值为优化目标对价值网络的参数进行更新;策略网络根据价值网络生成的预估Q值构建策略梯度,根据策略梯度进行更新,使得生成的动作策略更加准确,直至初始强化学习模型到达预设性能要求,得到本发明所需的多智能体强化学习模型。

在步骤S102中,将各微基站的状态参数输入训练得到的多智能体强化学习模型,生成相应的动作策略,实现多业务切片资源分配。

下面结合一实施例对本发明进行具体说明:

根据本发明提供的超密集组网多业务切片资源分配方法,进行仿真实验。

设有一个宏基站和五个微基站,宏基站和微基站的位置固定。用户根据自己的信道增益接入信道增益最大的基站。对于微基站,设定资源块数K=24,用户数为16,每个子载波上的带宽B=10MHz,每个子信道上的发射功率不超过1W。在初始强化学习模型中,actor的学习率为0.02,critic的学习率为0.01。

在仿真实验中,通过改变资源块的数量来解释用户收益的情况。具体的,以十次步长为一个回合,取十次步长的均值为实验结果。如图4(a)至图4(c)所示,前50个回合为预训练阶段,可以看出所有的基站都尝试改变自己的策略使自己获得更高的收益,直至所有基站收敛。而当资源块的数量增加时,所有微基站的收益得到提升,但是收敛的速度会变慢。其中,图4(a)的资源块数量K=20,图4(b)的资源块数量K=24;图4(c)的资源块数量K=28。

如图5所示,通过改变跨层干扰价格来解释用户平均收益的情况。根据博弈理论结果,在其他参数不变的情况下,跨层干扰价格和微基站收益有

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现方法的步骤。

与上述方法相应地,本发明还提供了一种设备,该设备包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该设备实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

综上所述,本发明提供一种超密集组网多业务切片资源分配方法及装置,通过获取预训练得到的多智能体强化学习模型,将各微基站自身状态参数输入该多智能体强化学习模型,相应生成动作策略,实现了在保证用户通信质量和通信需求的前提下,减少微基站的竞争和干扰,从而优化无线资源分配,缓解频谱紧张。

在多智能体强化学习模型训练中,预先构建宏基站收益计算式和微基站收益计算式,将资源分配问题建模为非合作博弈,求得发射功率均衡解和跨层干扰价格均衡解;再将发射功率均衡解用于更新多智能体强化学习模型中各策略网络的状态空间,引导模型向预设方向更新优化,简化模型的运算量。同时,多智能体强化学习模型在每个微基站上部署策略网络和价值网络,价值网络能够获取全局信息,生成更精准的预估Q值,使得策略网络生成更优的动作策略。

本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。

本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种5G超密集组网资源分配方法及装置
  • 一种5G超密集组网资源分配方法及装置
技术分类

06120115937402