掌桥专利:专业的专利平台
掌桥专利
首页

基于深度强化学习的6G密集组网无交叠干扰资源分配方法

文献发布时间:2024-04-18 19:52:40


基于深度强化学习的6G密集组网无交叠干扰资源分配方法

技术领域

本发明涉及6G密集组网技术领域,尤其涉及一种基于深度强化学习的6G密集组网无交叠干扰资源分配方法。

背景技术

全球进入信息产业为主导的新经济发展阶段,智能通信作为世界信息产业高速发展的核心驱动力,各类网络业务增加导致智能终端(IT,Intelligent Terminal)数量和密度大幅上升,网络平均服务质量(QoS,Quality of Service)呈现降低趋势。W.Liu提出了6G密集组网(6G DNs,6G Dense Networks)。6G DNs网络系统增加智能终端数量,提升网络吞吐量,但终端节点的密集分布将增大小区间交叠程度,导致小区干扰加剧,网络容量不与终端节点数量成线性关系。智能终端间密集交叠干扰,使网络的总体传输能力下降,网络的QoS降低。此类现象导致整个6GDNs网络资源调度的灵活度不高、系统资源利用率低的问题。如何在6G DNs中有效提高密集交叠下的资源调度能力是6G DNs亟待解决的问题。

目前资源调度的难点主要体现在如何有效地交叠干扰管理(Overlappinginterference management)和通信资源分配(Communication resource allocation)两个方面。

交叠干扰管理的思想主要体现为两个方面:

1)网络拓扑顶层设计处理交叠干扰。但干扰模型的建立依赖于C-RAN架构,无法适用于其他场景。或者网络拓扑可以很好处理交叠干扰,但无法有效提高系统的最大容量;

2)利用编码理论消除交叠干扰的影响,对通信信息进行不同类型的编码,从信号处理层次上消除干扰。但编码类算法无法考虑网络环境复杂度增加带来的交叠干扰影响,当涉及密集网络环境,编码类算法对交叠干扰抑制的能力有限。

而对于通信资源分配目前的研究主要体现在三个方向:

1)依照网络功耗进行资源分配。但目前的方案只针对于非密集网络环境,一旦网络复杂度增加,将会导致严重的交叠干扰;

2)基于系统容量最大化的资源分配。然而在超密集网络无法抑制交叠干扰的产生;

3)提高QoS指标的资源分配。但无法提高该系统的资源复用率。

可见得,现有方案无法在解决密集网络通信节点和通信链路带来的交叠干扰问题时,同时提高系统的资源复用率以及网络吞吐量。

发明内容

本发明提供一种基于深度强化学习的6G密集组网无交叠干扰资源分配方法,解决的技术问题在于,如何对6G密集组网进行资源无冲突分配,并同时使网络吞吐量和资源复用率更高。

为解决以上技术问题,本发明提供基于深度强化学习的6G密集组网无交叠干扰资源分配方法,包括步骤:

S1、基于点线图模型构建6G密集组网即6G DNs的网络拓扑G(V,E),其中V表示6GDNs中的智能终端集合即IT集合,E表示6G DNs中的通信链路集合;

S2、基于Dueling DQN求解无冲突资源分配策略π

进一步地,所述步骤S2具体包括步骤:

S21、初始化6G DNs的通信链路状态,得到初始状态s

S22、对于无冲突资源分配策略π

S23、6G DNs在当前状态S

S24、6G DNs将得到的经验

S25、6G DNs从经验回放池中抽取一批样本,更新训练深度Q网络的权值;

S26、每隔L步,6G DNs更新目标Q网络的权值;

S27、重复上述步骤S22~S26,直至训练结束。

进一步地,在所述步骤S2中,6G DNs的交叠干扰度通过下式计算:

其中,N表示6G DNs中智能终端的数量,δ

其中,

进一步地,通信链路i的通信链路关系表示为:

l

其中,元素h

一条通信链路有且仅有两个智能终端使用,表示为:

进一步地,6G DNs在第t次状态转移后的状态S

/>

其中

进一步地,6G DNs具有N个智能终端,任意两个智能终端之间通过D2D进行通信,任意一个智能终端都在剩余智能终端的无线覆盖范围之内;满足d≤min(x

进一步地,在所述步骤S25中,在训练过程中,根据下式更新深度Q网络的权值:

其中,θ

进一步地,所述深度Q网络与所述目标Q网络均采用竞争深度Q网络,所述深度Q网络用于评估策略更新参数,所述目标Q网络用于产生目标值;所述深度Q网络的动作价值函数表示为:

其中,V(s;θ,w

进一步地,利用平均代替最大值方法将所述深度Q网络的动作价值函数变换为:

其中,Υ表示动作空间A的大小。

本发明提供的基于深度强化学习的6G密集组网无交叠干扰资源分配方法,其有益效果在于:

1)针对密集网络通信节点和通信链路带来的交叠干扰,通过建立智能终端网络覆盖模型,通过欧氏距离和无交叠干扰准则,建立6G DNs无交叠干扰模型,为计算资源分配产生的交叠干扰提供数学依据;

2)建立密集网络深度Q网络模型,提出基于竞争深度Q网络(Dueling DQN,DuelingDeep Q-Network)的资源无冲突分配算法,可以根据网络拓扑得到一个无交叠干扰的资源分配方案,解决了在大量智能终端大规模交叠覆盖条件下,6GDNs的通信资源交叠干扰问题,并在实现提高网络吞吐量的同时增强通信系统的资源利用率。

附图说明

图1是本发明实施例提供的6G密集组网场景示例图;

图2是本发明实施例提供的智能终端覆盖与通信链路形成示例图;

图3是本发明实施例提供的6G密集组网覆盖范围示意图;

图4是本发明实施例提供的图3对应的6G密集组网网络拓扑图;

图5是本发明实施例提供的6G DNs的无向图模型;

图6是本发明实施例提供的IT 6通信链路使用情况图;

图7是本发明实施例提供的基于Dueling DQN资源无冲突分配算法原理图;

图8是本发明实施例提供的6G DNs有无竞争网络的效果对比图;

图9是本发明实施例提供的四种算法的最大网络吞吐量对比图;

图10是本发明实施例提供的四种算法的最小网络吞吐量对比图;

图11是本发明实施例提供的四种算法的平均网络吞吐量对比图;

图12是本发明实施例提供的最大资源利用率对比图;

图13是本发明实施例提供的最小资源利用率对比图;

图14是本发明实施例提供的平均资源利用率对比图。

具体实施方式

下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。

本实施例考虑的模型为复杂场景中6G密集组网模型,如图1所示,该网络由智能终端和基站(BS,Base Station)组成。IT的覆盖范围约为250米,主要用较短距离间的通信。为了进一步提高整个网络覆盖区域内的网络吞吐量,在6G DNs中采用密集部署IT的方式。大量的IT密集部署在6G DNs中,使得6G DNs产生密集交叠干扰和资源复用冲突,从而使得6GDNs的资源调度能力下降。

系统模型可由智能终端间形成的覆盖范围建立。其中网络覆盖模型通过欧式距离公式建立网络拓扑模型,可以将通信资源分配和交叠干扰管理问题转化成为图的边染色问题,利用点线图染色理论对该问题进行分析,最终提出无交叠干扰的资源分配算法。图1中,6G DNs通信节点主要是IT,并且IT间可以通过D2D进行通信。图2是图1中IT 1、IT 2、IT 3形成的自组网网络,任意一个IT都在剩余IT的无线覆盖范围之内。IT 1、IT 2间存在一条可以交换信息的通信链路,数学表示为:

d≤min(x

其中d是IT 1和IT 2之间的欧式距离,x

图1根据智能终端覆盖得到图3,图3是6G DNs网络覆盖范围模型,任意两个IT可以进行通信,数学表示为:

其中C

图3根据公式(1)得到图4,图4是6G DNs网络拓扑,即点线图模型,其中网络拓扑中的节点表示具有通信能力的IT,拓扑中的线表示节点间的通信链路,数学表达为:

G=(V,E) (3)

其中V表示6G DNs中的智能终端集合即IT集合,E表示6G DNs中的通信链路集合。

本节根据点线图边染色与密集组网网络拓扑对应,得到图5。其中资源分配相当于对6G DNs中的每一条通信链路分配通信资源。若图5中相同节点的通信链路具有不同的通信资源,则无交叠干扰,数学表示为:

ψ(i,j)表示通信链路e

针对智能终端数量和密度激增情况,本例提出了资源分配策略,根据公式(1)建立6G DN的数学模型,降低在密集组网交叠干扰下的资源调度难度。实现无交叠干扰资源分配,需要根据6G DN中的智能体分布情况和位置,做出6G DN的无向图网络模型;在建立无向图网络模型以后,可以利用关联矩阵(Incidence Matrix)设计资源分配策略,无冲突资源分配模型。

为解决密集交叠干扰的资源分配,根据公式(3),本例提出用关联矩阵将节点与通信链路的关系记录。6G DNs密集交叠干扰的资源分配问题,本质是一个无向图的边染色数学问题,即给无向图中的边染色不同颜色,具有同一个顶点的两条边染色不同。6G DNs中存在N个IT,M条通信链路,其中两个IT之间的欧式距离满足公式(1),则这两个IT之间可以通信,否则反之。

6G DNs中IT间代表通信链路关系的关联矩阵

式(5)中,i对应通信链路e

l

其中的每一个元素表示行矩阵所表示的通信链路与对应节点的关系,元素为1则表示节点利用该通信链路进行通信。一条通信链路有且仅有两个节点使用,数学表示为:

图5对应的关联矩阵的转置矩阵如公式(8)所示。

在6G DNs对通信链路进行资源分配时,6G DNs需要考虑密集组网带来的密集交叠干扰问题。交叠干扰是指单个节点通过一种通信资源和多个节点进行通信导致交叠干扰。则对于单个节点受到的交叠干扰表达式为:

δ

公式(9)只针对单个节点的交叠干扰,为了得到6G DNs的交叠干扰,对所有的节点交叠干扰求和,表达式为:

公式(10)表示通过对每个节点求和进行平均可以得到整个6G DNs的交叠干扰度。

以图6为例,根据公式(9)节点5(对应IT 6)的交叠干扰计算过程如公式(11):

δ

在所有节点组成6G DNs的过程中,δ

其中,

在实际的通信环境下,系统无法直接建立状态转移矩阵P。6G DNs通过直接对通信链路进行通信资源分配使得状态s

a~π(·|s)(14)

其中s表示6G DNs的状态,包含了其节点间分布情况和通信链路的资源分配情况。a表示通信链路分配通信资源,包含了给通信链路分配资源的具体动作;策略π表示在状态s做出动作a的概率,具体数学表达为:

其中a

根据公式(14)和公式(15),6G DNs在状态s执行动作a,转变到状态s′的概率,数学表达为:

在6G DNs执行动作a之后,保证δ

如果策略π使得6G DNs每次执行完动作a之后,保证δ

其中ρ

为了解决上述求解资源无干扰资源分配策略π

深度Q网络(DQN,Deep Q-Network)是标准的马尔科夫决策过程(Markov decisionprocess,MDP)模型。6G DNs根据当前的组网情况做出资源分配动作a,6G DNs的网络拓扑受到动作a的影响发生相应改变,同时给6G DNs返回当前的交叠干扰度和通信链路资源比。根据当前的组网情况和反馈信息对选择下一次通信链路资源分配。在深度强化学习的模型中主要包括动作A、状态S、即时奖励R、动作价值函数Q。

1)状态:表示6G DNs所有可能的通信链路资源分配状态的集合,即状态集合。其中为了有效地表示6G DNs当前网络拓扑包含的两个重要信息1)通信链路的分布情况;2)每条通信链路所分配的资源情况。6G DNs在第t次状态转移后的状态表示为:

其中

2)动作:6G DNs的每个状态做出相应通信链路资源分配的集合,即动作集。如果给通信链路e

A

3)即时奖励:表示6G DNs在状态S执行动作A,获得的对应回报。每一个即时奖励R和每一个状态-动作对(State-Action)对应。

/>

其中κ表示通信链路总的数量,η

4)动作价值函数:这个函数依赖于6G DNs的状态和刚刚执行的动作,是基于状态和动作的期望回报。如果6G DNs根据资源分配策略π来进行通信链路的资源分配,则把动作价值函数写为Q

其中R(τ)|S

因此每个状态都需要穷举出所有可能的方案,所以采用贝尔曼方程(BellmanEquation)来化简动作价值函数。

集合最优价值函数与最优策略的关键,可以得到最优贝尔曼方程,数学表达为:

其中R(s,a)表示在状态s做出动作a的即时奖励,

求解贝尔曼方程利用时间差法(Temporal Defference,TD)中的时间差分预测,TD算法中Q-Learning算法相较于Sarsa算法收敛效率更高,并且由于是离线策略TD控制,目标值不在再依赖于所使用的策略,而只依赖于动作价值函数,为隐式求解策略提供的基础。根据Q-Learning的值迭代则如下:

α表示学习率,γ表示折扣率。箭头左边的Q(S

当状态和动作数量庞大且连续的时候,利用Q-Learning很难实现资源分配策略的收敛。因此引入深度Q网络,将原本的动作价值函数用一个神经网络q(s,a;θ)代替。DQN算法与Q-Learning算法的值迭代更新类似,利用深度Q网络对价值函数进行更新,采用梯度下降方法,数学表达为:

其中,θ

但当利用神经网络逼近动作价值函数时,6G DNs选择动作的动作价值函数与目标值

表示下一时刻目标Q网络的动作价值函数,用于评估动作。

由于6G DNs中存在最终状态和交叠干扰状态,即不同的动作与预期值无关,在这里继续进行不同的动作也不会对动作价值函数产生影响。将6G DNs中动作无关的状态值与动作价值函数机械能耦合,可以提高其网络学习的鲁棒性。提出基于Dueling DQN资源无冲突分配算法。本算法使用竞争网络结构,代替传统DQN的网络结构。

竞争网络结构将深度Q网络分成两部分,第一部分是与动作无关的状态价值函数V(s);第二个部分是在状态s下各个动作的优势函数Ad(s,a)之和,动作价值函数可以重新表示为:

其中,V(s;θ,w

其中,θ是原本深度Q网络的权值,即公共部分的网络参数,w

其中,Υ表示动作空间A的大小。

其中状态价值函数表示6G DNs通信链路状态的本身价值;优势函数表示6GDNs在某个通信链路状态下做出某个动作的额外价值。通过将动作价值函数分成状态价值函数和优势函数之和,可以防止深度Q网络过高估值,提高算法的稳定性。最终深度Q网络的输出为状态价值函数和平均处理后的优势函数相加得到。6G DNs根据当前网络拓扑和通信链路资源分配情况选择下一步的动作,以此进入下一个网络状态,其中深度Q网络参数是值计算的重要参数,需要通过训练进行不断更新,从而找到最优策略π

基于上述理论分析,本实施例提供的方法主要包括步骤:

S1、基于点线图模型构建6G密集组网即6G DNs的网络拓扑G(V,E),其中V表示6GDNs中的智能终端集合即IT集合,E表示6G DNs中的通信链路集合;

S2、基于Dueling DQN求解无冲突资源分配策略π

其中,步骤S2具体包括步骤:

S21、初始化6G DNs的通信链路状态,得到初始状态s

S22、对于无冲突资源分配策略π

S23、6G DNs在当前状态S

S24、6G DNs将得到的经验

S25、6G DNs从经验回放池中抽取一批样本,更新训练深度Q网络的权值;

S26、每隔L步,6G DNs更新目标Q网络的权值;

S27、重复上述步骤S22~S26,直至训练结束。

基于Dueling DQN资源无冲突分配算法采用的是竞争网络结构,增加了价值函数和优势函数,使得算法的空间复杂度更高。

由上面分析,我们设计了基于Dueling DQN资源无冲突分配算法,用来解决基于竞争网络的无交叠干扰分配问题,算法的结构如图7所示,整个算法包含了6G DNs环境,ε-greedy策略,深度Q网络,目标Q网络,损失函数,经验池和抽样小批量样本。

模块描述:6G DNs环境主要提供网络的状态,并且根据智能体的动作a

下面对本方法进行性能分析。

1、算法时间复杂度分析。

基于Dueling DQN资源无冲突分配算法的时间复杂度为主要是由每次迭代深度Q网络造成。其时间复杂度为:

T(M,T)=O(n

其中M代表迭代,T代表每次迭代中资源分配方案的所需进行资源分配的数量。n

其中|S|为状态集的大小,|A|为动作集的大小,u为神经网络隐藏层的数量,l

2、竞争网络结构的效能分析。

为了验证本例所提出的基于Dueling DQN资源无冲突分配算法在通信链路数量较大的情况下所产生的优化效果,本例主要从每次方案中的累积回报G进行实验验证,数学表达为:

使用Dueling DQN、Double DQN两种不同算法进行对比实验。如图8所示,DuelingDQN累积奖励曲线表示在竞争网络结构下的资源分配算法得到的累积奖励;Double DQN累积奖励曲线表示在无竞争网络结构的资源分配算法得到的累积奖励。基于Dueling DQN资源无冲突分配算法的累积奖励随着训练测试的增加而变化。其中有竞争网络结构的深度Q网络相比无竞争网络结构寻找的资源分配策略探索速度更快,曲线上升的趋势更加迅速,并且寻找到的资源分配策略得到的累积奖励值更高,表示6G DNs使用竞争网络结构可以得到更好策略结果,即网络吞吐量和资源复用率更高。

3、6G密集组网系统的评价指标分析。

1)网络吞吐量:该性能指标可以评价算法使6G DNs分配完所有通信链路资源最终的整个网络的吞吐量的大小,数学表达为:

其中B为通信链路的频谱带宽,

2)资源复用率:该性能指标可以评价算法使6G DNs所有通信链路交叠无干扰之后对于整个6G DNs的通信资源的利用率,数学表达为:

其中κ为通信链路的数量,η

本节介绍了仿真实验,并结合实验结果对基于深度强化学习的资源无冲突分配算法进行分析。实验采用的硬件平台为PC,CPU为Intel(R)Xeon(R)Gold 6242RCPU@3.10GHz,GPU为NVIDIA RTX 3080Ti,内存为64G。

根据表1参数设置进行仿真实验,分别得到网络吞吐量性能对比和资源复用率性能对比的实验数据。将本算法与其他三种算法进行网络吞吐量和资源复用率的比较,其中对比算法1为无竞争网络的深度Q网络算法,对比算法2为基于随机匹配的资源分配算法,对比算法3为基于贪婪匹配的资源分配算法。

表1仿真实验参数列表

1、网络吞吐量性能对比。

1)最大网络吞吐量

图9给出了本例提出的6G DNs资源交叠无干扰分配算法和3种算法对比算法在同以通信链路的数量增加时6G DNs的最大网络吞吐量对比情况。随着通信链路数量的增加,IT的交叠区变多,4种算法得到的最大网络吞吐量都有所增加。在通信链路数量为25之前,本例算法、双深度Q网络算法、随机匹配算法的吞吐量增幅相同。当通信链路的数量超过25之后,本例算法和双深度Q网络算法得到的最大网络吞吐量仍在大幅增加。双深度Q网络算法在整个增加的过程始终低于本例算法。这说明竞争网络结构增加了6G DNs的网络吞吐量上限值,本算法相对对比算法2提高7.93%;相对于对比算法3提高23.06%;相对于对比算法4提高33.35%。

2)最小网络吞吐量

图10给出了本例提出的6G DNs资源交叠无干扰分配算法和3种算法对比算法在同以通信链路的数量增加时6G DNs的最小网络吞吐量对比情况。随着通信链路数量的增加,IT的交叠区变多,4种算法得到的最小网络吞吐量都有所增加。当通信链路的数量为25之前,双深度Q网络算法得到的最小网络吞吐量高于其他算法得到的最小网络吞吐量,但随着通信链路的数量超过25之后,本例算法得到的最小网络吞吐量高于其他对比算法得到的最小网络吞吐量。实验结果表明,基于Dueling DQN资源无冲突分配算法,针对6G DNs的最小网络吞吐量本例算法性能好于对比算法。

3)平均网络吞吐量

图11给出了本例提出的6G DNs资源交叠无干扰分配算法和3种算法对比算法在同以通信链路的数量增加时6G DNs的平均网络吞吐量对比情况。随着通信链路数量的增加,IT的交叠区变多,4种算法得到的平均网络吞吐量都有所增加。此外,基于Dueling DQN资源无冲突分配算法得到的平均网络吞吐量比其他算法有着更高的网络吞吐量稳定值。实验结果表明,增加竞争网络结构的深度Q网络可以使得6G DNs资源分配有着较高网络吞吐量的稳定状态。

2、资源复用率性能对比。

1)最大资源复用率

图12给出了本例提出的6G DNs资源交叠无干扰分配算法和3种算法对比算法在同以通信链路的数量增加时6G DNs的最大资源复用率对比情况。随着通信链路数量的增加,本例算法最终资源分配得到的最大资源复用率先增加后趋于平稳。其他对比算法得到的最大资源复用率波动较大,稳定性较差。实验结果表示增加竞争网络结构使得6G DNs进行资源分配得到的最大资源复用率有良好稳定性。

2)最小资源复用率

图13给出了本例提出的6G DNs资源交叠无干扰分配算法和3种算法对比算法在同以通信链路的数量增加时6G DNs的最小资源复用率对比情况。随着通信链路数量的增加,4种算法得到的最小资源复用率都存在一定波动。相比于其他对比算法,本算法的最小资源复用率较高。这说明了基于Dueling DQN资源无冲突分配算法可以提高6G DNs资源复用率的下限值。

3)平均资源复用率

图14给出了本例算法与对比算法的平均资源复用率对比情况。随着通信链路数量的增加,平均资源复用率上下波动。本算法相对对比算法2提高6.44%;相对于对比算法3提高29.61%;相对于对比算法4提高31.39%。

由于各类网络业务以及物联网数据量激增,智能终端数量和密度爆发式增长,且智能终端间可以D2D通信形成6G DNs,网络拓扑变得复杂,传统密集交叠干扰下的资源调度策略已经不再使用了。针对6G DNs交叠区干扰避免问题,对于基于Dueling DQN资源无冲突分配算法进行研究。通过仿真实验结果表明,基于Dueling DQN资源无冲突分配算法可以有效使6G DNs的IT交叠区无干扰,并且相对于对比算法,在最大网络吞吐量提高了21.45%,在平均资源利用率提高了22.48%。

综上所述,本发明实施例提供的一种基于深度强化学习的6G密集组网无交叠干扰资源分配方法,其贡献在于:

1)针对密集网络通信节点和通信链路带来的交叠干扰,通过建立智能终端网络覆盖模型,通过欧氏距离和无交叠干扰准则,建立6G DNs无交叠干扰模型,为计算资源分配产生的交叠干扰提供数学依据;

2)建立密集网络深度Q网络模型,提出基于竞争深度Q网络(Dueling DQN,DuelingDeep Q-Network)的资源无冲突分配算法,可以根据网络拓扑得到一个无交叠干扰的资源分配方案,解决了在大量智能终端大规模交叠覆盖条件下,6GDNs的通信资源交叠干扰问题,并在实现提高网络吞吐量的同时增强通信系统的资源利用率。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

相关技术
  • 基于深度强化学习的专用自组网抗干扰方法
  • 基于多智能体深度强化学习的干扰管理和资源分配方案
技术分类

06120116331496