掌桥专利:专业的专利平台
掌桥专利
首页

一种室内太赫兹BWP和功率调度方法及装置

文献发布时间:2023-06-19 10:18:07


一种室内太赫兹BWP和功率调度方法及装置

技术领域

本发明涉及移动通信技术领域,特别涉及一种IRS辅助场景下基于PPO对偶训练的室内太赫兹BWP和功率调度方法及装置。

背景技术

在无线通信技术的发展中,频谱资源一直是稀缺和宝贵的资源。如今,毫米波作为无线通信的关键技术之一,受到了业界和学术界的广泛关注。在即将到来的6G时代,太赫兹将以其更高的带宽和更窄的波束引发科学技术的革命性发展。但是,太赫兹波在空气中传播时,水分子会造成传输损耗,因此太赫兹通信更适合于短距离通信。但是,在室内环境中有许多障碍,例如家具,电器和移动的人,而太赫兹波的波长非常短。因此,室内的通信阻断效果非常大。

为解决上述问题,智能反射表面(IRS)是一项全新的技术,可以通过在平面上集成大量相对便宜的无源反射元件来智能地重新配置发射信号,从而显著改善反射率无线通信网络的性能。一些研究提出要建立一个IRS辅助的同时无线信息和功率传输系统,以提高能量收集性能。同时,与传统的正交多路访问技术相比,非正交多址接入技术(NOMA)可以提供更多的吞吐量负载和用户要求,从而提高整个系统的性能。

然而,在资源调度方面,现有技术主要针对功率的调度,而忽略了对带宽部分(BWP)的考虑,从射频信号处理的角度来看,使用宽带宽可能会导致不必要的功耗,导致资源难以合理利用,进而影响经济效益。

发明内容

本发明的目的在于提供一种室内太赫兹BWP和功率调度方法及装置,利用近似策略优化算法(PPO)的演员-评论者(Actual-Critic)结构来实现功率和带宽两种资源调度,并引入原始对偶加快训练速度,从而实现对室内带宽和功率资源的合理调度,同时保证设备供应商的经济效益和能量有效性的最大化。

为解决上述技术问题,本发明的实施例提供如下方案:

一方面,提供一种室内太赫兹BWP和功率调度方法,包括以下步骤:

S1、初始化无线接入设备、用户以及智能反射表面的各项参数及状态,包括最初的发射功率p

S2、从一个截断的标准正态分布里抽取样本

S3、计算太赫兹路损L(f,d)以及信道增益h

S4、将初始条件送入资源调度通式中;

S5、将从信道状态矩阵H

S6、根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计;

S7、利用原始对偶优化算法更新原始对偶的变量,直至奖励达到收敛;

S8、输出学习后的动作,调度的带宽因子β和功率p,以及最后的系统性能函数g

S9、遍历所有用户,重复步骤S2到步骤S7,完成对于所有用户的调度;

S10、终止方法进程,取出数据。

优选地,在所述步骤S3中,对信道估计进行整合处理:

将存在的两种传输路径统一成一种情况;

其中,H

优选地,在所述步骤S4中,所述资源调度通式表示为:一个利用遍历平均值x捕获系统的长期的瞬时系统性能函数:x≤E[f(h,p(h))],其中,f(h,p(h))是瞬时性能函数。

优选地,在所述步骤S5中,将信道状态送入到PPO算法中的演员部分和评论者部分,演员部分产生一个新的策略函数,选择高斯策略输出对于动作的调度的选择,评论者部分根据原有的Q值函数产生一个新的动作,对于带宽因子进行调度。

优选地,在所述步骤S6中,根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计:

其中,x

在所述步骤S7中,由步长γ

θ

x

λ

φ

其中,h是信道状态,f

另一方面,提供一种室内太赫兹BWP和功率调度装置,包括:

初始化模块,用于初始化无线接入设备、用户以及智能反射表面的各项参数及状态,包括最初的发射功率p

样本抽取模块,用于从一个截断的标准正态分布里抽取样本

路损及信道增益计算模块,用于计算太赫兹路损L(f,d)以及信道增益h

初始条件输入模块,用于将初始条件送入资源调度通式中;

信道状态输入模块,用于将从信道状态矩阵H

梯度估计模块,用于根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计;

策略更新模块,用于利用原始对偶优化算法更新原始对偶的变量,直至奖励达到收敛;

输出模块,用于输出学习后的动作,调度的带宽因子β和功率p,以及最后的系统性能函数g

遍历模块,用于遍历所有用户,完成对于所有用户的调度;

终止模块,用于终止方法进程,取出数据。

优选地,所述路损及信道增益计算模块具体用于对信道估计进行整合处理:

将存在的两种传输路径统一成一种情况;

其中,H

优选地,所述资源调度通式表示为:一个利用遍历平均值x捕获系统的长期的瞬时系统性能函数:

优选地,所述信道状态输入模块具体用于:将信道状态送入到PPO算法中的演员部分和评论者部分,演员部分产生一个新的策略函数,选择高斯策略输出对于动作的调度的选择,评论者部分根据原有的Q值函数产生一个新的动作,对于带宽因子进行调度。

优选地,所述梯度估计模块具体用于:根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计:

其中,x

所述策略更新模块中,由步长γ

θ

x

λ

φ

其中,h是信道状态,f

本发明实施例提供的技术方案带来的有益效果至少包括:

本发明采用近似策略优化算法的演员-评论者结构来联合解决对于连续功率和离散带宽的优化设计,并采用梯度辅助原始对偶求解得到这两种资源调度的最优解,然后,提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明不仅能够实现对室内带宽和功率资源的合理调度,而且能够实现经济效益和能量有效性的最大化。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种室内太赫兹BWP和功率调度方法的流程图;

图2是本发明实施例的应用场景示意图;

图3是本发明实施例提供的一种室内太赫兹BWP和功率调度装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例首先提供了一种室内太赫兹BWP和功率调度方法,如图1所示,该方法包括以下步骤:

S1、初始化无线接入设备(AP)、用户以及智能反射表面(IRS)的各项参数及状态,包括最初的发射功率p

S2、从一个截断的标准正态分布里抽取样本

S3、计算太赫兹路损L(f,d)以及信道增益h

S4、将初始条件送入资源调度通式中;

S5、将从信道状态矩阵H

S6、根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计;

S7、利用原始对偶优化算法更新原始对偶的变量,直至奖励达到收敛;

S8、输出学习后的动作,调度的带宽因子β和功率p,以及最后的系统性能函数g

S9、遍历所有用户,重复步骤S2到步骤S7,完成对于所有用户的调度;

S10、终止方法进程,取出数据。

本发明针对6G无线室内网络未来发展,提出了一种新颖的联合资源调度机制,采用近似策略优化算法(PPO)的演员-评论者(Actual-Critic)结构来联合解决对于连续功率和离散带宽的优化问题,并采用梯度辅助原始对偶求解得到这两种资源调度的最优解,然后,提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明方法不仅能够实现对室内带宽和功率资源的合理调度,而且能够实现经济效益和能量有效性的最大化。

具体地,在本发明的系统中,考虑了一个带有若干天线的AP和若干室内用户。如图2所示,为同时包括配备若干天线的AP,室内的若干用户,以及预设的IRS。集合J是天线数,集合K是用户数。考虑室内AP与用户之间利用IRS进行通信的应用场景(下行链路),使用的频段为1THz,接入技术选择NOMA。

从AP到用户k的初始信号为s

然后考虑通过IRS接收到的信号,在这种情况下,将有两个传输链路,H

显然,与后者相比,H

其中H

为了后面方便计算用户的信息传输速率R

由于IRS是一个平面,因此应根据均匀的平面阵列而不是均匀的线性阵列来计算其天线响应矢量。因此,其转向向量,IRS中元素具有单位能量的响应可以写为如下公式:

其中,m和n是天线元素指数,λ是波长,φ和θ分别代表了信号入射的方位角和仰角,N代表的是天线总数(智能反射面反射因子数),d是天线间隔,一般都设置

其中,N

联系上述公式的关系,信道增益将通过下列的方式表征出来:

每行代表AP的天线的索引,每列代表当前用户的索引。

另外,太赫兹的分子吸收损失不能忽略。因此,直接路径收益来自扩散损失L

L(f,d)=L

其中

使用遍历平均值捕获系统,可以将无线资源调度问题转换为长期瞬时性能函数:

其中f(h,p(h))是瞬时性能函数。系统设计的目标是选择资源调度p(h)以最大化遍历变量x。平均变量x反映了无线通信系统在很长一段时间内的性能,并受瞬时资源调度的影响。

在本发明的系统设计中,h是信道状态,p(h)是瞬时发射功率,f

maxf

在接收端,串行干扰消除(SIC)技术用于多用户检测。在发送端,通过功率复用技术将同一子信道上的不同用户进行传输,并根据相关算法调度不同用户的信号功率,使得到达接收端的每个用户的信号功率不同。接收机根据不同的信号功率以一定的顺序执行干扰消除,以实现正确的解调。SIC技术还可以达到区分不同用户的目的。瞬时响应函数

对于限定的函数f

所以问题变成了,

max∑

x∈χ,p∈P

对于上述的系统,强化学习中Value-based的方法对受限状态下的问题处理能力不足。在使用特征来描述状态空间中的某一个状态时,有可能因为个体观测的限制或者建模的局限,导致真实环境下本来不同的两个状态却在建模后拥有相同的特征描述,进而很有可能导致Value-based方法无法得到最优解。因此,本发明中主要以Policy-based为主,Value-based为辅。

传统的Policy-based解决办法是:

这种传统方法的缺陷在于更新步长γ

PPO是一套Actor-Critic结构,Actor想最大化J

但Actor需要旧的策略上根据优势函数A(h,θ)修改新的策略,优势A(h,θ)大的时候,修改幅度大,让新策略更可能发生。而且附加了一个KL惩罚项,λ在该方法中设定为0.95。

对应的优势函数A(h,θ)为,表达在状态h下,某动作p相对于平均而言的优势,

其中f

在Actor的惩罚函数的选择上,本发明采用PPO2:

对于Critic部分,该罚命中则是对于输出的动作计算得到的瞬时性能函数的值进行BWP的调度,因为Critic部分采用的是深度Q学习网络的思路,所以需要将输出的瞬时性能函数进行离散化,具体的原则如下:

β={β

其中β是可供调度的物理资源块(PRB)个数,更新条件考虑如下原则,对输出的性能函数f

β

其中R

用户的请求访问速率可以通过ZipF分布来表示,如下式:

R

对之前的系统引入参数化会变成,

maxf

效用函数f

f

对于限定的函数f

为了表示方便,对于系统仍然用其拉格朗日函数为:

对四个参数依次求梯度:

x

φ

然后,利用零阶梯度更新替换原始度偶变量公式中的更新。零阶梯度估计可以通过有限差分的方式完成,其中通过随机观测构造给定点的无偏梯度估计。可以使用给定点x

其中α

本发明采用近似策略优化算法的演员-评论者结构来联合解决对于连续功率和离散带宽的优化设计,并采用梯度辅助原始对偶求解得到这两种资源调度的最优解,然后,提出了迭代联合带宽和功率调度算法来最大限度地提高信息传输速率以及经济效益。本发明方法不仅能够实现对室内带宽和功率资源的合理调度,而且能够实现经济效益和能量有效性的最大化。

相应地,本发明的实施例还提供一种室内太赫兹BWP和功率调度装置,如图3所示,该装置包括:

初始化模块,用于初始化无线接入设备、用户以及智能反射表面的各项参数及状态,包括最初的发射功率p

样本抽取模块,用于从一个截断的标准正态分布里抽取样本

路损及信道增益计算模块,用于计算太赫兹路损L(f,d)以及信道增益h

初始条件输入模块,用于将初始条件送入资源调度通式中;

信道状态输入模块,用于将从信道状态矩阵H

梯度估计模块,用于根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计;

策略更新模块,用于利用原始对偶优化算法更新原始对偶的变量,直至奖励达到收敛;

输出模块,用于输出学习后的动作,调度的带宽因子β和功率p,以及最后的系统性能函数g

遍历模块,用于遍历所有用户,完成对于所有用户的调度;

终止模块,用于终止方法进程,取出数据。

进一步地,所述路损及信道增益计算模块具体用于对信道估计进行整合处理:

将存在的两种传输路径统一成一种情况;

其中,H

进一步地,所述资源调度通式表示为:一个利用遍历平均值x捕获系统的长期的瞬时系统性能函数:

进一步地,所述信道状态输入模块具体用于:将信道状态送入到PPO算法中的演员部分和评论者部分,演员部分产生一个新的策略函数,选择高斯策略输出对于动作的调度的选择,评论者部分根据原有的Q值函数产生一个新的动作,对于带宽因子进行调度。

进一步地,所述梯度估计模块具体用于:根据得到的新策略参数集θ和产生的调度动作计算对于梯度的估计:

其中,x

所述策略更新模块中,由步长γ

θ

x

λ

φ

其中,h是信道状态,f

本发明提供的室内太赫兹BWP和功率调度装置不仅能够实现对室内带宽和功率资源的合理调度,而且能够实现经济效益和能量有效性的最大化。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种室内太赫兹BWP和功率调度方法及装置
  • 一种室内太赫兹BWP和功率调度方法及装置
技术分类

06120112497058