掌桥专利:专业的专利平台
掌桥专利
首页

一种无线网络通信延迟和信道效率动态协同优化方法

文献发布时间:2023-06-19 16:06:26



技术领域

本发明涉及一种无线网络通信延迟和信道效率动态协同优化方法,属于无线通信领域。

背景技术

无线通信网络中,数据可以通过一个节点传送到另一个节点,在这个过程中,可能会增加通信延迟和降低信道效率,而通信延迟和信道效率都受到传输节点发射功率的影响,由于它们之间的非线性关系,传统的方法很难优化此类问题。

强化学习是智能体通过与环境不断交互,来改善奖励指导动作的过程,目标在于通过奖励的设置来优化动作以最大化奖励。强化学习中学习的信号是对动作好坏的评价,而不是如何去选择正确的动作。因此,强化学习很适合应用于数学模型非线性的系统。但是传统的强化学习无法都是单目标奖励,对于这种动态系统来说,奖励设计困难,因此往往无法满足优化的要求。因此,如何动态协同优化无线网络通信延迟和信道效率成为了研究中的难题。

发明内容

针对现有技术中的上述不足之处,本发明提供一种无线网络通信延迟和信道效率动态协同优化方法,以期能协同优化无线网络通信延迟和信道效率,以保证优化控制的精确性和稳定性,

本发明为达到上述发明目的,采用如下技术方案:

本发明一种无线网络通信延迟和信道效率动态协同优化方法的特点在于,包括以下步骤:

步骤1、建立无线网络通信延迟和信道效率的奖励模型;

根据无线网络的信道效率与各个传输节点的发射功率关系,利用式(1)构建第i个传输节点的无线网络通信延迟和信道效率的奖励模型f

式(1)中,v

步骤2、利用分布式强化学习动态优化所述无线网络通信延迟和信道效率的奖励模型的系数;

定义M个独立的智能体模块,定义第i个智能体的输入为对应第i个传输节点的无线网络通信延迟T

步骤2.1、初始化n=1,初始化M个传输节点的存储值x,其中第i个智能体模块初始化存储值x

步骤2.2、初始化t=1,初始化M个传输节点的发射功率,其中第i个传输节点的发射功率为P

步骤2.3、根据M个传输节点的发射功率构建拓扑结构,并计算M个传输节点的延迟,其中第i个传输节点的延迟为T

步骤2.4、M个智能体模块分别接收对应的传输节点发射功率和延迟,其中,第i个智能体接收发射功率P

步骤2.5、M个传输节点分别接受对应智能体模块的调整动作,其中,第i个传输节点接收并执行调整动作

步骤2.6、将t+1赋值给t,判断t>T是否成立,若成立,则执行步骤2.7;否则顺序执行步骤2.3;T为最大执行次数;

步骤2.7、M个智能体模块,利用式(2)分别得到第i个智能体模块在第n次训练的轨迹

步骤2.8、对M个智能体模块,初始化i=1,并进行如下操作:

步骤2.8.1、判断n=1是否成立,若成立,将x

步骤2.8.2、判断第n次训练的轨迹

步骤2.8.3、利用式(3)得到期望回报奖励F:

式(3)中,t为轨迹

步骤2.8.4、利用式(4)-式(5)更新通信延迟和信道效率奖励模型的比例系数v

式(4)-(5)中,ε

步骤2.8.5、将i+1赋值给i,判断i≤M是否成立,若成立,则执行步骤2.8.1;否则,顺序执行步骤2.9;

步骤2.9、将n+1赋值给n,判断n≤N是否成立,若成立,则执行步骤2.2;否则,则表示无线通信网络延迟和信道效率动态协同优化控制完成,保留M个智能体模块最后一次学习的最优轨迹并作为最优训练轨迹,其中,第i个智能体将最后存储的最优轨迹

步骤3、利用分布式强化学习完成无线网络通信延迟和信道效率动态协同优化控制

M个智能体模块通过最优训练轨迹完成无线网络通信延迟和信道效率动态协同优化控制,其中,第i个智能体将最优训练轨迹

本发明所述的一种无线网络通信延迟和信道效率动态协同优化方法的特点也在于,所述步骤2.8.2中,当且仅当式(6)成立和式(7)中只有一个成立时,表示第n次训练的轨迹

式(7)中,

与现有技术相比,本发明的有益效果在于:

本发明能通过强化学习动态优化无线网络通信延迟和信道效率奖励模型系数,从而优化无线网络的拓扑结构,从而能有效地协同优化无线网络通信延迟和信道效率,克服了传统的强化学习单目标奖励,无法满足动态系统优化要求的问题,增加了收敛效率,解决了传统固定系数偏差过大的问题;除此之外,在多次实验对比中本发明使用方法具有更高的结果稳定性。本发明简单实用,实施容易。

附图说明

图1为本发明的一种无线网络通信延迟和信道效率动态协同优化方法具体步骤流程图。

具体实施方式

本实施例中,一种无线网络通信延迟和信道效率动态协同优化方法,具体流程如图1所示,包括以下步骤:

步骤1、建立无线网络通信延迟和信道效率的奖励模型;

根据无线网络的信道效率与各个传输节点的发射功率关系,利用式(1)构建第i个传输节点的无线网络通信延迟和信道效率的奖励模型f

式(1)中,v

步骤2、利用分布式强化学习动态优化所述无线网络通信延迟和信道效率的奖励模型的系数;

定义M=11个独立的智能体模块,定义第i个智能体的输入为对应第i个传输节点的无线网络通信延迟T

步骤2.1、初始化n=1,初始化11个传输节点的存储值x,其中第i个智能体模块初始化存储值x

步骤2.2、初始化t=1,初始化11个传输节点的发射功率,其中第i个传输节点的发射功率为P

步骤2.3、根据11个传输节点的发射功率构建拓扑结构,并计算11个传输节点的延迟,其中第i个传输节点的延迟为T

步骤2.4、11个智能体模块分别接收对应的传输节点发射功率和延迟,其中第i个智能体接收发射功率P

步骤2.5、11个传输节点分别接受对应智能体模块的调整动作,其中第i个传输节点接收并执行调整动作

步骤2.6、将t+1赋值给t,判断t>T是否成立,若成立,则执行步骤2.7;否则顺序执行步骤2.3;

步骤2.7、11个智能体模块,利用式(2)分别得到第i个智能体模块在第n次训练的轨迹

步骤2.8、对11个智能体模块,初始化i=1,并进行如下操作:

步骤2.8.1、判断n=1是否成立,若成立,将x

步骤2.8.2、判断第n次训练的轨迹

其中当且仅当式(3)成立和式(4)中仅有一个成立时,表示第n次训练的轨迹

式(3)中,t为轨迹

式(4)中,

步骤2.8.2、利用式(5)得到期望回报奖励F:

步骤2.8.3、利用式(6)-(7)更新通信延迟和信道效率奖励模型的比例系数v

式(6)-(7)中,ε

步骤2.8.5、将i+1赋值给i,判断i≤11是否成立,若成立,则执行步骤2.8.1;否则,顺序执行步骤2.9;

步骤2.9、将n+1赋值给n,判断n≤3000是否成立,若成立,则执行步骤2.2;否则,则表示无线通信网络延迟和信道效率动态协同优化控制完成,保留11个智能体模块最后一次学习的最优轨迹作为最优训练轨迹,其中第i个智能体将最后存储的最优轨迹

步骤3、利用分布式强化学习完成无线网络通信延迟和信道效率动态协同优化控制;

11个智能体模块通过最优训练轨迹完成无线网络通信延迟和信道效率动态协同优化控制,其中第i个智能体根据最优训练轨迹

相关技术
  • 一种无线网络通信延迟和信道效率动态协同优化方法
  • 在使用来自延迟敏感业务流或开销信道的质量反馈的无线通信系统中的反向链路动态功率控制方法
技术分类

06120114703050