掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度强化学习的水声通信链路自适应方法

文献发布时间:2023-06-19 19:30:30


一种基于深度强化学习的水声通信链路自适应方法

技术领域

本发明属于水声通信技术领域,特别涉及一种基于深度强化学习的水声通信链路自适应方法。

背景技术

作为水下唯一能够进行中远程可靠通信的技术,水声通信一直是水下通信研究的重中之重,实现高效、可靠通信一直是水声通信领域的研究目标。但水声信道复杂的时、空、频变特性使得通过单一调制方式难以实现高信道利用率和长时间节能传输,且现有技术方案中信道状态信息的使用方式在快时变水声通信环境中存在着过时的问题,而使用过时的信息进行通信可能会导致严重的性能下降。因此,有必要研究能够适应水声信道大动态变化的通信方法。

强化学习是机器学习领域里的一个重要分支,被用来处理复杂的决策问题,它包含四个关键概念:智能体、状态、动作、奖励。智能体根据观测到的状态做出动作,并转移到另一种状态,同时对动作进行评估以用于改进策略。经过训练后,智能体可根据状态选择最优动作路线以最大化累积奖励值。而深度强化学习将神经网络处理复杂高维数据特征的能力融入强化学习,通过使用神经网络负责完成环境状态感知,使用强化学习负责完成决策,可以用于处理水声信道复杂多变的问题,进而探索最优调制策略,完成链路自适应。

发明内容

本发明提供了一种快时变信道下水声通信链路自适应方法,通过利用反馈信道状态信息来预测前馈信道状态信息的变化,基于深度强化学习方法跟踪并学习信道状态变化规律,并根据信道状态动态地优化调制方式,以最大化系统的通信效率。

本发明的技术方案如下:

一种基于深度强化学习的水声通信链路自适应方法,步骤如下:

A.接收节点收到数据,向发射节点反馈相关信号:

a接收节点收到传输的数据后计算传输结果。

b接收节点使用固定的发射功率将传输结果和导频发送到发射节点。

B.发射节点获得反馈信息,利用反馈信息作信道分类:

a发射节点从反馈信息中获取传输结果和接收导频。

b发射节点使用接收导频估计误码率。

c使用所有调制方式对应的误码率组成误码率向量,用来表示信道,并对信道分类处理。

C.使用处理后的信息训练深度强化学习模型:

a智能体采集与环境交互的经验:智能体根据当前状态s,从预设的动作空间中选择一个动作a;执行a后观测环境变化以对动作进行评估,计算奖励值R,同时获得下一状态s’。此处所述智能体为发射节点,状态s包含信道、已传输的数据、传输次数等,动作为可选的调制方式。

b将采集到的经验整理成元组信息(s,a,R,s’),并存储到经验回放池中。持续执行上述操作以组成训练集。

c从经验回放池中随机采样一个批次的元组数据,输入到深度神经网络中进行训练。

D.使用已训练好的深度强化学习模型进行链路自适应。

a加载误码率向量池和网络θ。

b对于第n次传输,接收节点利用接收导频和传输结果b

本发明的有益效果:

本发明设计了一种基于所有调制编码方式对应误码率的信道分类方法,基于该信道分类方法,将水声通信链路自适应问题转化为马尔可夫决策过程。与现有方法相比,本发明提出的方法解决了水声通信信道状态信息过时的问题,可以更有效地处理快时变的水声信道环境。

考虑到水声信道状态的转移概率未知且状态-动作对较大的问题,本发明使用了基于深度强化学习的优化方法,结合神经网络和强化学习算法来学习决策信息,完成端到端的实时优化。本发明方法设计合理,适用范围广泛,能够实现高效的链路自适应。

附图说明

图1为系统结构图;

图2为本发明示例的DDQN算法结构示意图;

图3为本发明示例的能量效率收敛曲线;

图4为本发明示例的吞吐率收敛曲线;

图5为本发明示例的信道分类后的信道状态转移概率图;

图6为本发明示例与其他方法的性能对比图。

具体实施方式

下面结合附图以及具体实施示例,对本发明作进一步的描述。应当理解,以下具体实施示例仅用于解释说明本发明的内容,并非对本发明的限制。

以下示例使用了深度强化学习中的DDQN方法,优化目标为保证N次传输的通信速率不低于预设阈值的情况下最大化系统能量效率,DDQN的算法如图2所示,具体实施方式如下:1接收节点收到数据,向发射节点反馈相关信号;

1.1在发射节点,数据经调制编码后由水声信道传输,之后接收节点解调信号,获得成功传输的数据量b

1.2接收节点使用固定的功率向发送节点发送反馈信号x

2发射节点获得反馈信息,利用反馈信息作信道分类:

2.1发射节点获得反馈信号y

y

其中h

2.2设通信系统有Q种可用的调制编码方式,则基于接收导频y

e(h

2.3利用上述误码率向量对信道进行分类处理:

2.3.1分类方法介绍:本发明将时变水声信道建模为具有未知转移概率的有限状态马尔可夫链(FSMC),然后在发射节点实现链路自适应。在实际的通信过程中,发射节点不可能获得未来的前馈信道状态信息,但由于信道被建模为FSMC,所以可以利用反馈信道的状态信息来表示之后的前馈信道。而且在快时变信道下,比起用上一时刻的前馈信道来表示当前的前馈信道的方法,本发明在时间维度上是连续的,这表示本发明在信道状态信息上有更小的误差

一般来说,一次传输的质量高低只与信道的误码率性能相关,所以可以用信道在不同调制编码下的误码率来评价信道的质量。本发明使用信道在所有调制下的误码率组成的误码率向量来表示信道,以及对水声信道进行分类:

对于两个信道h

则可认为h

在1.2中提到的导频的发射功率也会影响e(h

2.3.2具体分类方法为:首先构建一个误码率向量池,然后将2.2所述e(h

误码率向量池将在训练过程中被逐渐扩充,直到能够涵盖所有可能出现的信道类型。

3使用处理后的信息训练深度强化学习模型:

本发明实例使用了深度强化学习中的DDQN算法。在DDQN中存在两个神经网络,一个评估网络和一个目标网络,参数分别为θ和θ

定义智能体为发射节点。在第n次传输之前,智能体需要根据环境选择最优调制编码参数:调制阶数M

经过2所述的处理,可以获得信道状态e

所以可以将状态表示为s

在开始训练时,发射节点根据状态s

a

其中A为动作集。执行动作a

根据本示例的优化目标,奖励函数设置为式(6)、(7),

其中Δ是确保系统满足整体通信速率约束的参数。B

进一步地,在获得下一状态s

然后使用式(9)计算损失函数:

其中D为批次大小。

最后使用Adam优化器根据L(θ)的大小完成网络参数的优化。

在上述基础上,评估网络θ每经过一定次数的训练,就将网络参数θ复制给目标网络θ

4使用已训练好的深度强化学习模型进行链路自适应

4.1加载误码率向量池和评估网络θ。

4.2发射节点利用接收导频和传输结果b

进一步地,根据式(4)获得B

下面结合仿真实验对本发明的效果作进一步的描述。

1.仿真参数:

本发明的仿真实验使用单载波频域均衡技术进行水声通信;水声信道由Bellhop生成,海洋深度为100m,发射器节点处于海平面下20m处。接收器节点在海平面下的水深变化范围为20m到80m,变化步长为0.375m。发射器和接收器之间的最小和最大水平距离分别为2500m和5000m,步长为78.125m。因此,链路自适应方案共有5120个UWA信道。

其他仿真参数如下表所示

在本仿真实验中,通信数据速率c

最小可容忍通信速率设置为c

2.仿真内容:

本发明的仿真实验中,进行了5000回合的训练以观察系统能量效率和吞吐率的收敛性。训练后在不同信道上进行测试,并与其他方法对比了链路自适应的性能增益。

3.仿真结果分析:

图(3)给出了深度强化学习算法的收敛性,可以观察到经过2500回合的训练后能量效率已基本稳定,图(4)为训练阶段通信速率的收敛曲线,可以发现收敛后的吞吐率满足系统约束。图(5)显示了不同方案在不同目标吞吐率下的性能比较:第一个在图中标记为OptimalAMC,其中发送节点对信道变化完全已知,发射机可以选择具有最小发射功率的最优调制方式,可以认为是上界表现;第二种方案为固定调制,针对每一个目标吞吐量,发射机都会从所有可用调制编码方式中选择一个有最高能量效率的调制编码方式;第三种方案为基于Q-learning算法实现的链路自适应。从图(5)中可观察到本发明的基于深度强化学习的链路自适应方法在信道变化未知时的性能接近信道已知时的最佳能效,并且远远优于其他两种方案。

相关技术
  • 一种基于深度确定梯度强化学习的通信抗干扰方法
  • 一种基于强化学习的水声通信自适应调制方法
  • 一种基于强化学习的水声通信自适应调制方法
技术分类

06120115934102