一种大规模MIMO中波束赋形的方法和系统

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及通信领域，特别是涉及一种大规模MIMO中波束赋形的方法和系统。

背景技术

波束赋形(Beamforming)又叫波束成型、空域滤波，是一种使用传感器阵列定向发送和接收信号的信号处理技术。波束赋形技术通过调整相位阵列的基本单元的参数，使得某些角度的信号获得相长干涉，而另一些角度的信号获得相消干涉。波束赋形既可以用于信号发射端，又可以用于信号接收端，以提高移动通信系统中相对位置不断变化的基站和通信终端间通信信号的质量。

在复杂的空间拓扑中存在多径效应，给信道估计带来很大的不确定性。因此，波束赋形的权重计算也不准确。致使用户设备(User Equipment，简写为UE)和小区的吞吐量没有最大化。所以，随着网络用户的日益递增，网络环境将变得越来越复杂，如何能根据真实的网络状态而动态的进行波束赋形成为未来技术的一个挑战。

鉴于此，如何克服现有技术所存在的缺陷，解决真实网络中动态波束赋形的现象，是本技术领域待解决的问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明解决了真实网络中动态波束赋形的问题。

本发明实施例采用如下技术方案：

第一方面，本发明提供了一种()的方法，具体为：

优选的，获取现网的真实数据生成至少一个样本，将所有样本的集合作为训练数据集对强化学习模型进行训练，其中，所述样本包括：信道特征、动作集合、平均吞吐量和下一时刻的信道特征，所述强化学习模型的动作为波束赋形权重调节因子，强化学习模型的Reward为网络的信干噪比；获取当前网络的信道特征，将当前网络的信道特征输入强化学习模型，强化学习模型根据当前网络的信道特征输出最优的波束赋形权重调节因子；根据波束赋形权重调节因子计算波束赋形权重矩阵，对数据进行波束赋形，并计算下一时刻的信道特征，将下一时刻的信道特征对应的样本加入训练数据集中再次对强化学习模型进行训练。

优选的：所述信道特征为信道矩阵或信道冲击响应。

优选的，获取现网的真实数据生成至少一个样本，具体包括：通过交互消息获得UE的信道特征，根据信道矩阵生成所有可用的波束赋形权重调节因子作为动作集合；计算新的波束赋形权重，并计算出网络的平均吞吐量；根据新的波束赋形计算下一时刻的信道特征。

优选的，通过交互消息获得UE的信道特征，具体包括：为上行波束赋形时，信道矩阵为当前UE的上行信道矩阵；为下行波束赋形时，信道矩阵为当前UE的下行信道矩阵。

优选的，根据信道矩阵生成动作集合，具体包括：将波束赋形权重调节因子以复数表示，复数的实部和虚部进行水平方向连接或进行垂直方向连接，以所有实部和虚部的合集作为动作集合。

优选的，将状态矩阵作为训练数据集对强化学习模型进行训练，还包括：使用训练数据集对GAN模型进行训练，使用训练好的GAN模型生成更多的样本加入训练数据集中。

优选的，强化学习模型根据当前网络的信道特征输出最优的波束赋形权重调节因子，具体包括：所述强化学习模型采用Actor-Critic算法，智能体actor及Q-function均是神经网络模型。

优选的，强化学习模型根据当前网络的信道特征输出最优的波束赋形权重调节因子，还包括：强化学习模型的智能体actor与Q-function为卷积神经网络，Actor和Q是一个整体的网络，actor的输出为动作合集中的波束赋形权重调节因子，Q的输出为使用当前波束赋形权重调节因子后卷积神经网络的评分。

优选的，根据波束赋形权重调节因子计算波束赋形权重矩阵，具体包括：根据波束赋形权重调节因子计算每个波束的波束赋形权重，将各波束的波束赋形权重整合为波束赋形权重矩阵。

另一方面，本发明提供了一种大规模MIMO中波束赋形的系统，具体为：基站和至少一个UE，具体的：UE将信道矩阵发送至每个基站，每个基站将信道矩阵输入本基站上训练后的强化学习模型中，根据权利要求1-9中任一项提供的大规模MIMO中波束赋形的方法获取最优的波束赋形权重调节因子；每个基站根据波束赋形权重调节因子计算新的波束赋形权重矩阵，并发送波束赋形后的数据给UE；基站获取下一时刻状态数据，对训练数据集进行迭代更新，并使用更新后的训练数据集重新训练模型

与现有技术相比，本发明实施例的有益效果在于：依托网络自身产生的大数据，采用深度强化学习算法学习网络环境中包含的信道特征，从而动态计算波束赋形权重的调节因子，可以有效提高频谱利用率、提高网络的吞吐量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种大规模MIMO中波束赋形的方法流程图；

图2为本发明实施例提供的另一种大规模MIMO中波束赋形的方法流程图；

图3为本发明实施例使用的GAN的网络分为生成器(Generator)和判别器(Discriminator)结构示意图；

图4为本发明实施例中的迭代过程示意图；

图5为本发明实施例中的神经网络结构示意图；

图6为本发明实施例中的强化学习模型示意图；

图7为本发明实施例中的多步存储数据模型示意图；

图8为本发明实施例提供的一种大规模MIMO中波束赋形的装置架构示意图；

图9为本发明实施例提供的一种大规模MIMO中波束赋形的装置工作流程示意图；

图10为本发明实施例提供的另一种大规模MIMO中波束赋形的装置使用流程示意图；

图11为本发明实施例提供的另一种大规模MIMO中波束赋形的装置使用流程示意图；

图12为本发明实施例提供的另一种大规模MIMO中波束赋形的装置使用流程示意图；

图13为本发明实施例提供的另一种大规模MIMO中波束赋形的装置使用流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明是一种特定功能系统的体系结构，因此在具体实施例中主要说明各结构模组的功能逻辑关系，并不对具体软件和硬件实施方式做限定。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面就参考附图和实施例结合来详细说明本发明。

实施例1：

在某个具体实施场景中，信道矩阵可以表示为如下形式：

其中，波束赋形权重由W＝H

代表当前信道矩阵。

代表当前波束赋形权重。/>

代表当前用户数据。

代表单位对角矩阵。

代表用户接收到的数据。

传统的算法依据如上所述先进行信道估计，再计算波束赋形权重，而UE的信道条件会影响信道估计的准确性，因此有必要调整波束赋形权重来适配当前的环境。

本实施例提供的方法依托网络自身产生的大数据，采用深度强化学习算法学习网络环境中包含的信道特征，从而动态计算波束赋形权重的调节因子。

如图1所示，本发明实施例提供的大规模MIMO中波束赋形的方法具体步骤如下：

步骤101：获取现网的真实数据生成至少一个样本，将所有样本的集合作为训练数据集对强化学习模型进行训练。

本实施例中，使用深度强化学习的方法完成波束赋形。为了使强化学习模型能够获得正确的输出，需要先使用现网中获取到的真实数据对强化学习模型进行训练。训练数据包含输入强化学习模型的信道特征，强化学习模型输出的波束赋形权重调节因子，以及用于评判波束赋形后通信效果的平均吞吐量。

具体实施中，信道特征可以根据需要使用信道矩阵(Channel Matrix)作为或信道冲击响应。本发明实施例中，为了描述简洁，以信道矩阵作为信道特征进行说明。在实际使用中，可以参考本发明实施例中的具体实施方式，采用信道冲击响应作为信道特征进行计算。

信道矩阵包含了UE进行波束赋形的特征，深度学习算法就是对此数据进行特征提取，并将信道矩阵映射到最优的波束赋形权重调节因子。UE信道矩阵数据格式如下。

m:代表天线的个数。例如：10。

n:代表天线子阵的个数。例如：1024。

在具体实施中，可以通过交互消息获得UE的信道矩阵。为上行波束赋形时，信道矩阵为当前UE的上行信道矩阵；为下行波束赋形时，信道矩阵为当前UE的下行信道矩阵。

在实际实施中，信道矩阵也可以换成信道冲击响应。信道矩阵是频域数据，信道冲击响应是信道矩阵经过IFFT变换后的时域数据。因此，信道冲击响应也可以作为AI算法的输入。

在强化学习中，智能体会根据当前环境状态选择一个动作(Action),这个动作属于动作集合(Action Set)。在此方案中，动作集合由一个算法来生成。本实施例中，动作为波束赋形调节因子。

具体的，可以用如下算法来生成动作集合。

1、将波束赋形权重调节因子以复数表示，设置action为

其中，α

2、设置a

3、随机生成符合条件的a、b值，即生成了动作集合。

传输机根据生成的action与已有的波束赋形权重矩阵相加，得到新的波束赋形权重矩阵。

强化学习的回报(Reward)是算法里重要的一项指标，选择一个合适的Reward可以让模型尽快收敛。本实施例中，采用网络中的信干噪比作为回报。

对于单用户波束赋形，在低频下可以用局部奖励，用单个UE的信干噪比作作为reward。

对于多用户波束赋形，在高频下可以用全局奖励，用所有UE的信干噪比作作为reward，即r

如果使用全局reward的话，state也要是所有UE的信道矩阵，action也要是所有UE的动作。

步骤102：获取当前网络的信道状态，将当前网络的信道状态输入强化学习模型，强化学习模型根据当前网络的信道状态输出最优的波束赋形权重调节因子。

深度强化学习模型可以根据变化的环境学习到UE的最佳的波束赋形权重，在本实施例中可以学习波束赋形权重的调整因子。具体的，设置当前UE的信道矩阵作为强化学习的state，信干噪比作为reward，波束赋形权重调节因子作为action，将步骤101中获取到的真实的数据作为训练好的深度强化学习模型的输入，使用强化学习算法计算最优波束赋形权重调节因子。

步骤103：根据波束赋形权重调节因子计算波束赋形权重矩阵，对数据进行波束赋形，并计算下一时刻的信道特征，将下一时刻的信道特征对应的样本加入训练数据集中再次对强化学习模型进行训练。

使用强化学习模型获取到波束赋形权重调节因子后，即可根据最优的波束赋形权重调节因子进行波束赋形。具体的，根据波束赋形权重调节因子计算每个波束的波束赋形权重，将各波束的波束赋形权重整合为波束赋形权重矩阵。

由于强化学习是选择一个Action后使未来的长期收益最大，为了能够使强化学习模型学习到长期受益相关数据，所以本实施例中使用的Reward是未来t+n+1的信干噪比之合。

进一步的，还可以增加折扣因子γ，代表当前的Action对未来收益的影响程度，当前的动作对离当前时间点越远的节点影响越小,可以根据实际情况取值，一般为(0,1)。

γ:折扣因子

因此，本实施例中，在每次使用强化学习模型获取到波束赋形权重调节因子，并计算相应的波束赋形权重矩阵后，还需要计算下一时刻的信道特征，并将下一时刻的信道特征加入训练集中对神经网络模型进行训练，使神经网络模型的输出更能满足当前网络的动态需要。

经过本实施例中提供的步骤101-步骤103后，即可通过现网中的真实数据完成强化学习模型的训练，并使用训练后的强化学习模型获取当前网络状态下最优的波束赋形权重调节因子，有效提高网络的频谱利用率和网络的吞吐量。

如图2所示，可以使用以下步骤获取现网的真实数据生成样本。

步骤201：通过交互消息获得UE的信道特征，根据信道矩阵生成所有可用的波束赋形权重调节因子作为动作集合。

基站通过交互消息获得UE的信道矩阵,即s

步骤202：计算新的波束赋形权重，并计算出网络的平均吞吐量。

基站计算新的波束赋形权重，并计算出网络的平均吞吐量,即r

步骤203：根据新的波束赋形计算下一时刻的信道特征。

基站计算下一时刻的UE信道矩阵，即s

基站将[s

通过步骤201-步骤203，即可获取到用于强化学习模型训练的样本，以及输入强化学习模型用于波束赋形权重调节矩阵计算的真实数据。

AI的算法需要大量的训练数据，而现实中又很难获取大量样本。所以，在本发明中，使用GAN来生成训练样本，这样可以节约数据采集花费的时间和成本。原有的训练数据集(Training data)是已经采集的样本，在具体实施场景中，可以用[信道矩阵，波束赋形权重调节因子，平均吞吐量,下一时刻信道矩阵]来表示。如图3所示，GAN的网络分为生成器(Generator)和判别器(Discriminator)。生成器根据输入的数据(向量)生成目标数据，判别器用于区分生成器生成的数据是真的还是假的。两者是一个博弈的过程，当判别器无法区分生成器生成的数据时模型收敛。生成式对抗网络的输入是一个随机向量，当GAN收敛后Generator的输出就是与已经采集的样本的格式一样的数据，即[信道矩阵,波束赋形权重调节因子，平均吞吐量,下一时刻信道矩阵]。可以采用卷积神经网络作为GAN的判别器，采用反卷积神经网络作为GAN的生成器。

本实施例中，使用训练数据集对GAN模型进行训练，使用用训练好的GAN模型生成更多的样本加入训练数据集中。具体的，使用数据库中的数据[s

在具体实施中，强化学习模型采用Actor-Critic算法，智能体actor及Q-function均是神经网络模型。实际实施中，优选采用卷积神经网络，但不限于卷积神经网络(Convolutional neural network，简写为CNN)。如图4所示，智能体π与环境互动从而学习知识，Q-function负责根据π

′′

学习到的结果进行打分，进而学习到更好的π,再将π赋值给π，如此不断迭代学习，直至收敛。

如图5所示，智能体actor与Q-function为卷积神经网络，Actor和Q是一个整体的网络，Actor的输出为动作合集中的波束赋形权重调节因子，Q的输出为当前选择的分数。在训练时先估计Q的参数，再固定住Q，使用梯度上升算法更新π的参数，此时学到的action可以让

本实施例提供的大规模MIMO中波束赋形的方法依托网络自身产生的大数据，采用深度强化学习算法学习网络环境中包含的信道特征，从而动态计算波束赋形权重的调节因子，可以有效提高频谱利用率、提高网络的吞吐量。该发明采用AI算法进行波束赋形权重调节因子计算，可以有效提高频谱利用率，并可以有效提高吞吐量。

实施例2：

在实施例1中提供的基于深度强化学习的流量分割的方法中，使用了强化学习模型来进行深度强化学习。本实施例中，提供一些可用的神经网络模型的具体配置方法和参数。在实际实施中，可以参考以下参数，根据实际需要进行具体的神经网络模型选择和配置。

步骤102中，使用强化学习来计算波束赋形权重调节因子。可以使用如图6所示的强化学习模型，强化学习中的智能体(Agent)与环境(Environment)互动并采取了动作(Action)后，当前状态变为下一个时间点的状态(State)，并得到了报酬(Reward)。如果采取的动作是正面的(Positive)则获得较高的回报，智能体将增加下次遇到类似环境时选择这个动作的概率。反之，如果采取的动作是负面的(Negative)则获得较低的回报或者负的分数，智能体将减少下次遇到类似环境时选择这个动作的概率。

优选方案中，可以使用Actor-Critic算法学习波束赋形调节因子，但不限于此方法。Actor-Critic是一种玩家评论家模型，它集成了“基于策略的学习”和“基于值函数的学习”的优点。Actor负责学习策略，Q函数负责给学习到的策略评分，评分越高代表Actor学习的策略越好。训练时根据梯度上升更新Q的参数，再用Q学习到的参数去更新Actor的参数，再用Actor的参数去更新Q的参数，直到整个网络收敛。

具体实施中，可以使用神经网络Actor和Q的网络，Actor和Q是一个大的网络。整个模型的输入是网络的信道矩阵或信道冲击响应，Actor的输出是Action set里的某一个，即一组波束赋形权重调节因子。Q的输出是评分，评分越高越好。当模型收敛时，算法便能根据当前输入选择一组波束赋形权重调节因子而使Q输出一个较大的值。即算法根据当前网络环境找到一组波束赋形策略，使网络得到的回报最大。在训练时先估计Q的参数，再固定住Q来更新Actor的参数。使用梯度上升算法来更新Actor,即

在计算action的时候，采用噪声参数的方法。即，使用Q网络参数加上噪声的

进一步的，因为实施例1提供的方法中，强化学习的Reward是一个长期的收益，代表当前actor根据当前环境选择一个action后的t+n+1时刻所获得的回报。所以在获取样本数据时，可以使用如图7所述的多步存储数据模型，需要将t+1和t+n+1时刻的平均吞吐量都要存进数据库。这样做的好处是，在训练模型时就比较方便从数据库中批量取出t到t+n+1时刻的数据。

当前时刻的r

强化学习的Reward是算法里重要的一项指标，选择一个合适的Reward可以让模型尽快收敛。实施例1的方法中，采用网络的平均吞吐量作为回报，即使用网络的吞吐量的平均值作为当前的Reward。当使用新的波束赋形权重后，网络的平均吞吐量作为下一状态的回报。因为，强化学习是选择一个Action后使未来的长期收益最大，所以Reward是未来t+n+1的所有平均吞吐量之和。

进一步的，为了更精确的预测Action对未来收益的影响，还可以增加折扣因子γ，代表当前的Action对未来收益的影响程度，当前的动作对离当前时间点越远的节点影响越小。γ可以根据实际情况取值，一般为(0,1)。

γ:为折扣因子。

通过上述公式，可以完成对Reward的计算，获取到当前波束赋形权重下的收益值用于进行评估。

Actor-Critic算法的智能体actor及Q-function均是神经网络模型。具体实施中可以采用卷积神经网络或其他可用的神经网络。智能体π与环境互动从而学习知识，Q-function负责根据π学习到的结果进行打分，进

′′

而学习到更好的π,再将π赋值给π，如此不断迭代学习，直至收敛。在训练时先估计Q的参数，再固定住Q来更新π的参数。使用梯度上升算法来更新π,即

以下提供一组可用的模型训练方式及参数，在实际使用中，可以根据需要对步骤和参数进行调整。

模型的超参数配置如下：学习率0.001；Batch size为32；优化器为adam；卷积核大小为3*3。。

训练方式如下：

(1)初始化Q-function Q和target Q-function

初始化actorπ和target actor

(2)在每个episode:

对于每一个时间步骤t:

基于actorπ,根据当前的状态s

获得Reward r

存储(s

从内存中批量取出(s

令target

更新Q的参数，使Q(s

更新π的参数，最大化Q(s

每进行C个时间步骤后，reset

通过上述方式，可以完成对深度强化学习模型的训练，使其能够根据输入进行波束赋形权重调节因子的计算。

通过上述神经网络模型的选择和参数设置，可以获取到实施例1中需要使用的强化学习模型，建立和训练基于深度强化学习的波束赋形模型。

实施例3：

在上述实施例1至实施例2提供的大规模MIMO中波束赋形的方法的基础上，本发明还提供了一种可用于实现上述方法的大规模MIMO中波束赋形的装置。

如图8所示，是本发明实施例的装置架构示意图。包括基站和至少一个UE。图中实线表示基站发出后直接到达UE的波束，不同形式的虚线表示基站发出后经障碍物反射到达UE的波束。使用直接到达UE的波束通信效果最佳，因此该方向的波束需要使用最高的权重。

UE将信道矩阵发送至每个基站，每个基站将信道矩阵输入本基站上训练后的强化学习模型中，根据实施例1或实施例2提供的大规模MIMO中波束赋形的方法获取最优的波束赋形权重调节因子。每个基站根据波束赋形权重调节因子计算新的波束赋形权重矩阵，并发送波束赋形后的数据给UE。基站获取下一时刻状态数据，对训练数据集进行迭代更新，并使用更新后的训练数据集重新训练模型。

具体的，基站与UE通过消息交互获取信道特征，进而计算出当前网络的信道特征，即(s

如图9所示，以下行波束赋形示例为例，可以使用以下步骤完成波束赋形权重调节因子的计算。其中，每个强化学习模型的智能体对应一个基站，强化学习模型部署在基站上。

步骤301：基站与UE通过消息交互获取UE的信道矩阵，进而计算出当前网络的环境状态，即(s

步骤302：基站将此信道矩阵(s

步骤303：基站计算新的波束赋形权重矩阵，并对数据进行波束赋形。

步骤304：基站计算下一时刻的UE信道矩阵，即s

步骤305：基站计算网络平均吞吐量(r

步骤306：基站将[s

通过步骤301-步骤306，整个系统完成闭环，利用强化学习模型完成了波束赋形的相应计算，并进行了训练数据迭代。

在具体实施中，整个时序包含两个大迭代，第一个是数据采集迭代，第二个是AI算法迭代。下面以下行FDD波束赋形模式为例介绍时序图。

(一)如图10所示，可以使用如下步骤完成数据采集迭代。

步骤401：基站向UE发送CSI-RS信号。

步骤402：UE通过report消息把自己的H,PMI,RI发给基站。

步骤403：基站从动作集合选择一个动作(波束赋形权重调节因子)并计算新的波束赋形权重矩阵。

步骤404：基站发送波束赋形后的数据给UE。

步骤405：基站计算下行吞吐量。

步骤406：基站将[信道矩阵,波束赋形权重调节因子,平均吞吐量,下一时刻信道矩阵]存储到数据库(database)中。

完成后，再次由步骤401开始循环迭代，基站不断将采集的数据存到数据库中。

(二)AI算法迭代

AI算法迭代又包含GAN的训练迭代、深度强化学习迭代、在线应用迭代。

(1)如图11所示，可以使用如下步骤完成GAN的训练迭代。

步骤501：将数据库(database)中的数据用于训练GAN模型。

步骤502：待GAN收敛后将Generator的输出再存到数据库中。Generator输出数据的格式就是[信道矩阵,波束赋形权重调节因子,平均吞吐量,下一时刻信道矩阵]。

完成后，再次由步骤501开始循环迭代，GAN将产生更多的训练数据。

(2)如图12所示，可以使用如下步骤完成深度强化学习迭代

步骤601：用数据库(database)中的大数据[信道矩阵,波束赋形权重调节因子,平均吞吐量,下一时刻信道矩阵]来训练实时学习系统中的深度强化学习模型。

步骤602：迭代更新深度强化学习模型的参数。

完成后，再次由步骤601开始循环迭代。

(3)如图13所示，可以使用如下步骤完成在线应用迭代。

步骤701：基站向UE发送CSI-RS消息。

步骤702：UE通过report消息把自己的信道矩阵发给基站。

步骤703：基站将UE的信道矩阵通过Get_Factor request消息发送给实时学习系统。

步骤704：实时学习系统调用之前训练好的AI算法输出action，并通过Get_Factorresponse消息将最优action发送给基站。

步骤705：基站计算新的波束赋形权重矩阵。

步骤706：基站发送波束赋形后的数据给UE。

步骤707：基站计算下行吞吐量。

步骤708：基站将此次的[信道矩阵,波束赋形权重调节因子,平均吞吐量,下一时刻信道矩阵]存储到数据库(database)中以增加数据库中的训练数据集。

完成后，再次由步骤701开始循环迭代。

通过这种方式不断迭代产生训练数据，不断迭代训练模型，不断迭代在线应用，再将结果反传给数据库。如此，直至整个系统稳定。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：黄东东;王建;毛斐;强小应;
专利申请人：南京第三代通信科技有限公司;烽火通信科技股份有限公司;

上一篇：一种三维PET-CT头颈部肿瘤分割系统及方法
下一篇：与甜瓜白粉病抗性相关基因CmVDAC及其应用