掌桥专利:专业的专利平台
掌桥专利
首页

一种基于分布式强化学习的智能反射面通信方法

文献发布时间:2023-06-19 18:49:33


一种基于分布式强化学习的智能反射面通信方法

技术领域

本发明属于物联网通信技术领域,尤其涉及一种基于分布式强化学习的智能反射面通信方法。

背景技术

当前,通过5G关键技术如超高密度网络,大规模MIMO系统,毫米波等技术的落地,使得5G网络的容量至少提高了1000倍,同时催生出了诸如VR、AR等创新应用的发展。根据ITU报告,预计2020-2032年,移动网络流量将保持每年55%速率增长,预计2030年将达到5016EB(Exabyte,260)/月。然而,超密集网络导致小区部署和维护成本剧烈增长,区间干扰难以消除等问题,也成为B5G(Beyond-5G)、6G需要进一步解决的难题。

随着超材料技术的发展,一种可能解决的方案是通过IRS(智能超表面)对电磁环境进行重构。采用由大量低成本超材料单元组成的表面振子阵列,每个超材料振子在次波长尺度上通过几何形状在分子尺度对晶体排列等特殊设计,使电磁反射率特性(如极化方向、幅值、相位)等能够受控改变,通过内嵌的低成本控制器对每个单元的独立实时控制,实现反向散射信号在特定方向上的被动波束成形,解决局部空洞,减小电磁污染,支持边缘用户,从而提高频谱在边缘时空的协调分配能力,由于IRS对用户端透明,IRS也可以被认定为具备空间重构能力的一种介质。

近两年,通过部署智能反射面改善移动通信网络容量和质量的研究已经引起了研究人员和业界的广泛关注,特别是在弥补毫米波太赫兹等超高频通信被密集建筑物的遮挡带来的性能衰减方面,现有通用技术中通过单纯调整发射端阵列,由于基站的能量有限,且到用户的直达链路常常受阻,接收端的主用户通信质量得不到保证,且由于所处位置的不同,造成用户之间公平性的差异,且存在潜在的窃听者影响通信的安全性。

发明内容

本发明的目的是提供一种基于分布式强化学习的智能反射面通信方法,通过同时对基站和智能反射面进行调控,限制窃听者的接收功率,避免潜在窃听者影响通信的安全性。

本发明采用以下技术方案:一种基于分布式强化学习的智能反射面通信方法,应用于通信系统中,通信系统的基站和若干个智能反射面,还包括若干个主用户和若干个窃听者,主用户和窃听者均与基站无线连接、或通过智能反射面与基站无线连接;该方法包括以下步骤:

获取基站和每个智能反射面的初始环境参数,初始环境参数包括基站的初始主动波束成形向量和每个智能反射面的初始相移矩阵;

以每个主用户的频谱效率最大构建通信系统的优化问题并求解,得到基站的最终主动波束成形向量和每个智能反射面的最终相移矩阵;

以最终主动波束成形向量替代初始主动波束成形向量、最终相移矩阵替代初始相移矩阵进行数据传输。

进一步地,优化问题为:

其中,p

进一步地,,采用多智能体确定性策略深度梯度MADDPG模型求解优化问题;

多智能体确定性策略深度梯度MADDPG模型的奖励函数为:

其中,R为奖励值,p为调节参数。

进一步地,,IT

其中,h

进一步地,,SINR

其中,

进一步地,,在多智能体确定性策略深度梯度MADDPG模型中:

以K个主用户和E个窃听者的频谱效率组合为组合状态;

以基站的主动波束成形向量和智能反射面的相移矩阵组合作为组合动作。

本发明的另一种技术方案:一种基于分布式强化学习的智能反射面通信装置,应用于通信系统中,通信系统的基站和若干个智能反射面,还包括若干个主用户和若干个窃听者,主用户和窃听者均与基站无线连接、或通过智能反射面与基站无线连接;该装置包括:

获取模块,用于获取基站和每个智能反射面的初始环境参数,初始环境参数包括基站的初始主动波束成形向量和每个智能反射面的初始相移矩阵;

求解模块,用于以每个主用户的频谱效率最大构建通信系统的优化问题并求解,得到基站的最终主动波束成形向量和每个智能反射面的最终相移矩阵;

替换模块,用于以最终主动波束成形向量替代初始主动波束成形向量、最终相移矩阵替代初始相移矩阵进行数据传输。

本发明的另一种技术方案:一种基于分布式强化学习的智能反射面通信装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述的一种基于分布式强化学习的智能反射面通信方法。

本发明的另一种技术方案:一种基于分布式强化学习的智能反射面通信系统,通信系统的基站和若干个智能反射面,还包括若干个主用户和若干个窃听者,主用户和窃听者均与基站无线连接、或通过智能反射面与基站无线连接;

通信系统还包括上述的一种基于分布式强化学习的智能反射面通信装置。

本发明的有益效果是:本发明通过以主用户的频谱效率最大构建优化问题,并求解得到基站的主动波束成形向量和每个智能反射面的相移矩阵,在以该主动波束成形向量和相移矩阵实现通信系统的主动波束成型和被动波束成形,使智能反射面得到了充分的利用,在保障主用户通信质量的情况下有效抑制了窃听者的接收功率。

附图说明

图1为本发明实施例中通信系统的架构示意图;

图2为本发明实施例中通信方法的流程图;

图3为本发明实施例中智能反射面单元和相移矩阵示意图;

图4为本发明实施例中通信装置的结构示意图;

图5为本发明另一实施例中通信装置的结构示意图;

图6为本发明实施例中反射面相移比特数对比图;

图7为本发明实施例中不同的P

图8为本发明实施例中不同波束赋形方法的效果对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明公开了一种基于分布式强化学习的智能反射面通信方法,应用于通信系统中,通信系统的基站和若干个智能反射面,还包括若干个主用户和若干个窃听者,主用户和窃听者均与基站无线连接、或通过智能反射面与基站无线连接;如图2所示,该方法包括以下步骤:S110、获取基站和每个智能反射面的初始环境参数,初始环境参数包括基站的初始主动波束成形向量和每个智能反射面的初始相移矩阵;S120、以每个主用户的频谱效率最大构建通信系统的优化问题并求解,得到基站的最终主动波束成形向量和每个智能反射面的最终相移矩阵;S130、以最终主动波束成形向量替代初始主动波束成形向量、最终相移矩阵替代初始相移矩阵进行数据传输。

本发明通过以主用户的频谱效率最大构建优化问题,并求解得到基站的主动波束成形向量和每个智能反射面的相移矩阵,在以该主动波束成形向量和相移矩阵实现通信系统的主动波束成型和被动波束成形,使智能反射面得到了充分的利用,在保障主用户通信质量的情况下有效抑制了窃听者的接收功率。

在本发明实施例中,通信系统包括一个基站(Base Station),I个智能反射面(Intelligent Reflective Surface),K个主用户(Primary User),和E个窃听者(Eavesdropper)。在下行链路上,基站通过N个天线发射K个主用户所需的频率相同的信号s

由于智能反射面可以对反射链路部分的信号相位进行调制,可以使反射链路的信号波束成形,与直接链路信号叠加,实现针对性的增强和抑制。基站是配备有N根天线,调节发射信号的幅值和相位,形成主动端的波束成形。每个智能反射面具有M个反射单元,被设计成一个正方形的面阵,对反射链路信号的幅值和相位进行调制。接收端的所有主用户和窃听者都只配备了一个天线,用于接收环境中的信号。接收端的信号来源包含了两个部分:

1)直接链路:这部分信号由基站发送给用户。由于用户和发射基站之间常常被障碍物遮挡,直接链路BS-User不存在直射信号(LoS,Line of Sight)的情况。采用瑞利衰落信道模型。

其中,ρ

2)反射链路:反射链路是一个级联信道,由BS-IRS和IRS-User两部分组成,信道状态信息分别用g

其中,g

v

包含基站发射天线的出射信息和反射面的入射信息,

其中,h

故可以得到接受端的信号表达式:

可以看到接收端的信号由三部分组成,

故可得接收端的第k个用户的信噪比(SINR

其中,

由于场景中存在窃听者(窃听者为通信系统覆盖范围内的非法用户),引入干扰温度的概念,随着基站端发射功率的上升,在窃听者的接收功率存在上界,即为干扰温度,因此对干扰温度进行定义:

其中,h

通常利用基站和反射面的联合波束成形,增强用户的信号质量。通常在解决此类问题时,场景设置较为简单,反射面和用户的数量较少,求解问题为一个凸问题,故常采用凸优化的方法解决。但是,在本发明中,由于场景较为复杂,反射单元数量较多,通过贪心算法对反射面的每个单元的相移和基站发射天线的系数进行设置,进而调整主被动波束成形,使得直达信号和非直达信号形成主被动联合波束成形,以达到重构电磁传播环境的目的。

本发明的基站端的发射功率有条件限制,不得超过最大发射功率P

如图3所示,为反射面相移矩阵,在取值范围内调整θ

其中,p

在本发明中,可以增加辅助通信装置,辅助通信装置可以将反射面相移和幅值变化的策略直接发送给每一个反射面的控制器,以使每个反射面根据相应的策略调整自身的相移矩阵。

另外,为了求解上述优化问题,可以通过对上述状态、动作、奖励输入MADDPG来确定求解优化问题,从而确定最佳策略。在本实施例中,多智能体确定性策略深度梯度MADDPG模型中以K个主用户和E个窃听者的频谱效率组合为组合状态;以基站的主动波束成形向量和智能反射面的相移矩阵组合作为组合动作。

具体的求解策略可以参见表1。

表1

综上,本实施例的方法可以概括为:

获取基站和I个IRS中每一个IRS

将每一个智能反射面在当前场景下的环境参数输入多智能体确定性策略深度梯度MADDPG模型。在一些实施例当中,该方法还包括:用由状态、动作和奖励组成的元组(S,A,R,S')对所述MADDPG模型进行训练。

其中,S为全局状态,是当前K个合法用户和E个潜在窃听者把自身结果融合而成的全局状态,S'为下一状态,动作A为联合动作,即把BS和所有IRS的动作拼接在一起而形成全局动作,奖励为全局奖励,根据在用户端得到的结果,若用户的频谱效率增加,则获得正奖励,若效率降低或者潜在窃听者的干扰温度超出上界,则获得负奖励。

多智能体确定性策略深度梯度MADDPG模型的奖励函数为:

其中,R为奖励值,p为调节参数。

接着,多智能体确定性策略深度梯度MADDPG模型输出的是基站和每一个IRS

最后,把全局状态S(t)与全局动作A(t),奖励R(t)和下一时刻状态S(t+1)送到确定性策略梯度MADDPG模型的经验重放缓冲区,以对该模型进行训练。

通过上述的基于MADDPG的优化算法可以在连续空间内搜索最佳动作,且同时考虑各个设备之间的公平性和其所服务对象之间的差异性。

MADDPG中一共有四个网络:

Actor当前网络:负责网络参数θ的更新迭代,根据当前状态S选择当前动作A与环境交互生成下一个状态S’和奖励R;

Actor目标网络:负责从经验回放缓存区采样的下一个状态S’选择下一个动作A'。该网络的网络参数θ定期从actor当前网络复制θ更新;

Critic当前网络:负责价值网络参数θ的更新迭代,计算当前Q值,Q(S,A|θ),即:y

Critic目标网络:负责计算目标Q值中的Q'(S',A',θ')部分。该网络中的网络参数θ′定期从Critic当前网络复制θ更新。

MADDPG采取了每次只更新一点点的“软”更新方式,即:

μ'

θ'

其中,τ为更新系数,这种更新方式可以大大提高学习的稳定性。

Actor当前网络采用确定性策略来产生确定性动作,损失梯度为:

Critic当前网络损失函数采用均方误差:

J(θ)=E[(y

由此可知,本发明实施例采用MADDPG的方法对主被动波束成形向量进行学习,每一个智能体都有一个actor和critic。其中,actor根据策略网络π

actor网络用自身的局部观测以及动作来训练,而critic网络则需要用到全局观测和全局动作。在训练过程中,Q

MADDPG进一步增加了噪声N,以在训练过程中探索更好的策略。另一个基本的技术是经验回放缓冲区(experience replay buffer,RB)。每个智能体都配备一个RB来存储(S(t),A(t),r(t),s(t+1)),它将随机提取以更新权重。此外,经验回放可以有效地避免连续更新的高度相关动作。MADDPG会将DDPG方法继承到多智能体域中,它不仅消除了DQN和策略梯度的非平稳特征,而且还保留了DDPG的巨大优势,它可以以连续而不是离散的方式搜索动作空间。

本实例所提供的基于反射面的辅助通信方法,在同时考虑了每个反射面距离基站远近和角度的情况下,通过采用MADDPG模型确定包括反射和基站端主动波束成形向量最佳调整策略,对每个智能体在反射和基站端进行了优化,最大化当前时间的奖励,保证所有的反射面能共同完成辅助通信任务,同时提高了系统的能耗效率以最大化的利用基站的发射功率。

为了表明基于MADDPG的协作感知方法的优势,进一步将其和DQN方法进行了比较,结果如图8所示(其中,DQN:强化学习的一个算法;deep Q network MADDPG:多智能体强化学习;Attention:注意力机制;MLP:多层感知机;LSTM:长短期记忆网络;DQN+attention:DQN算法结合注意力机制的方法)。

根据图8可知,曲线从上到下依次为DQN+Attention、DQN+LSTM、DQN+MLP、MADDPG+Attention、MADDPG+LSTM和MADDPG+MLP,为了实现有效的波束形成,IRS中每个元件的相移应依次变化。在MADDPG+Attention方法中,在critic的输入层和输出层之间添加了一个自注意层,而不是MLP。由于注意力可以学习输入序列的深度关系,故显著地加快学习过程。LSTM可以选择性地控制神经网络中的梯度传播,达到加快学习进程的目的。因此,与MADDPG+MLP相比,MADDPG+LSTM也可以收敛于较少的训练时间。然而,无论何种神经网络类型,MADDPG的奖励都优于DQN。虽然DQN的收敛速度快得多,但由于缺乏critic网络,奖励低于MADDPG,导致IRSs的PBF和BS的ABF不能得到很好的优化。

另外,在图6中,对比不同相移矩阵量化阶数对结果的影响。关于量化阶数,在相移矩阵中数值是介于0到2派之间的值。量化阶数为1,即1比特,即2个值,所有单元的取值有两个,派和二分之派。量化阶数为2,即2比特,即4个值,所有单元的取值有四个,四分之派,二分之派,四分之三派,派。量化阶数会影响这个区间的取离散值的情况。量化阶数越大,取值越多。效果越好。

连续相移(即θ)的取值为[0,2π)之间的任意值,1bit量化相移的取值为0和π,量化相移的取值为0、π/2、π和3π/2。随着量化阶数的增加,反射面对于用户通信的辅助效果和对于窃听者的抑制效果接近于最优的连续相位的情况。

在图7中,随着BS传输功率P

本发明还公开了一种基于分布式强化学习的智能反射面通信装置,应用于通信系统中,通信系统的基站和若干个智能反射面,还包括若干个主用户和若干个窃听者,主用户和窃听者均与基站无线连接、或通过智能反射面与基站无线连接;如图4所示,该装置包括:获取模块210,用于获取基站和每个智能反射面的初始环境参数,初始环境参数包括基站的初始主动波束成形向量和每个智能反射面的初始相移矩阵;求解模块220,用于以每个主用户的频谱效率最大构建通信系统的优化问题并求解,得到基站的最终主动波束成形向量和每个智能反射面的最终相移矩阵;替换模块230,用于以最终主动波束成形向量替代初始主动波束成形向量、最终相移矩阵替代初始相移矩阵进行数据传输。

需要说明的是,上述装置/模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本发明还公开了一种基于分布式强化学习的智能反射面通信装置300,如图5所示,包括存储器310、处理器320以及存储在存储器310中并可在处理器上运行的计算机程序330,处理器320执行计算机程序时实现上述的一种基于分布式强化学习的智能反射面通信方法。

该装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该装置可包括但不仅限于处理器、存储器。本领域技术人员可以理解,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。

所称处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器在一些实施例中可以是所述提取装置的内部存储单元,例如提取装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述提取装置的外部存储设备,例如所述提取装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述提取装置的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

本发明该公开了一种基于分布式强化学习的智能反射面通信系统,如图1所示,通信系统的基站和若干个智能反射面,还包括若干个主用户和若干个窃听者,主用户和窃听者均与基站无线连接、或通过智能反射面与基站无线连接。

相关技术
  • 一种基于分布式智能反射面的功率域NOMA通信系统设计方法
  • 一种基于深度强化学习的智能反射面调控方法及装置
技术分类

06120115708542