掌桥专利:专业的专利平台
掌桥专利
首页

基于多智能体强化学习的海上无人机光链数据传输方法

文献发布时间:2024-04-18 20:02:18


基于多智能体强化学习的海上无人机光链数据传输方法

技术领域

本发明属于海洋监测无线通信技术领域,具体涉及一种基于多智能体强化学习的海上无人机光链数据传输方法。

背景技术

下一代6G无线技术与空天地海一体化网络的结合是一个重要的研究趋势。遵循这一方向,基于悬停无人机的辅助通信系统具有巨大潜力,可以实现各种应用,如海上搜救、计算卸载和作为移动基站的无人机集群通信覆盖。当前,人们在海洋资源的观测、获取和利用上日益活跃,迫切需要在恶劣的海洋环境中开发可靠、稳健的通信系统,以加快对海洋的探索。然而,现有的以卫星主导的通信方法存在成本高、难以实现等问题;固定部署的传感器节点又具有缺乏灵活性,效率低等特点。为了解决这个问题,建立高质量、长距离、可靠的传输链路,将水下传感器网络收集的海洋数据传输到海上或岸上基站具有重要意义。

近几年,无人机和自由空间光通信技术得到了快速发展。一方面,无人机具有很强的机动性和灵活性,尤其是四旋翼无人机,具有较好的悬停能力。此外,配备传感器和通信设备的无人机可以充当中继器,在两个独立节点之间建立通信。另一方面,与其他通信技术相比,自由空间光通信技术具有部署快、无频谱许可、安全保密性强、带宽高、能耗低和数据速率高等优点。这种通信方式为快速传输大量海洋数据提供了可能。因此,以无人机为中继的多跳自由空间光通信已成为传输海洋数据的一种很有前景的解决方案。

发明内容

针对现有技术中存在的上述技术问题,本发明提出了一种基于多智能体强化学习的海上无人机光链数据传输方法,设计合理,克服了现有技术的不足,具有良好的效果。

为了实现上述目的,本发明采用如下技术方案:

一种基于多智能体强化学习的海上无人机光链数据传输方法,采用水下自主航行器和无人水面艇,无人水面艇作为中央基站,具体包括如下步骤:

步骤1:多个无人机通过射频导引至各自的部署区域,形成一条长链,建立初步的光通信连接;

步骤2:无人机将自身观测状态通过射频信号发送给中央基站,中央基站接收所有无人机的观测信息并进行协同操作;进而自主完成动作决策和维持稳定的光通信连接;

步骤3:中央基站将动作决策通过射频信号发送给每个无人机,所有无人机协同地做出相应的动作稳定自身飞行状态,保持稳定的光通信连接;

步骤4:海上无人机光链进行数据传输,通过重复执行步骤2~3,使无人机之间协同抵抗海风的扰动,实时地保持稳定的数据传输。

优选地,所述步骤1的具体过程为:

一个无人机集群

采用光/射频混合通信来实现无人机集群之间的信息共享,光通信主要用于传输收集的数据,而射频用于辅助通信,传输必要的状态信息和控制命令,如无人机定位和任务分配命令。在海洋环境中,无人水面艇作为中央基站,负责接收所有部署的无人机的信息,并通过控制命令对其进行操控,实现环境自适应控制。

优选地,所述步骤2中,四旋翼无人机的飞行状态受多种因素的影响;其中,海风作为主要影响因素,会导致无人机的位置漂移,从而影响无人机光链路的通信性能;因此,在面对海风等环境干扰,无人机会将自身观测状态通过射频信号发送给中央基站,进而自主完成动作决策和维持稳定的光通信连接;第i个无人机的状态空间为s

无人机的行为决策只与当前的环境状态有关,并且每个无人机都无法获得有关环境的所有信息,用o

o

其中,x

优选地,所述步骤3中,中央基站采用多智能体深度确定性策略梯度算法进行动作决策,无人机的动作集表示为

其中,m是无人机的质量;

F

其中,ρ表示空气密度;M是螺旋桨面积;v是无人机速度;w表示风速。

优选地,所述步骤3中,在执行一步动作后,设置奖励函数r

r

其中,c1和c2是超参数,以平衡个人和集体奖励之间的重要性,r

个体奖励r

其中||·||称为欧几里得范数;

集体奖励r

r

其中,BER

每架无人机的目标是最大限度地提高其期望的累积折扣奖励,如下所示:

其中,γ是折扣因子。

优选地,所述步骤3中,中央基站获得无人机返回的奖励后,需要不断更新网络参数,每个智能体中使用四个神经网络:一个策略网络

策略网络负责与环境交互,并根据当前状态做出行为决策;策略网络的更新策略如下:

其中,

评价网络是用来帮助决策网络判断动作的好与差,它以联合观察X和联合动作(a

目标网络用于降低训练的不稳定性,采用软更新的方法对目标网络的参数进行更新,如公式(12)所示:

其中,τ是软更新因子。

优选地,所述步骤4中,在一轮更新完成之后,为更好地满足数据传输要求,进行如下优化过程:

步骤4.1:计算整条链路的比特误码率BER

其中,第i段链路的比特误码率由BER(d

步骤4.2:T时间内所有无人机的总能耗表示为:

其中,P

本发明所带来的有益技术效果:

本发明基于无人机集群,建立一条无人机光通信链路,充分利用了无人机的机动性和光通信安全性强、带宽高和能耗低等特点,为水下自主航行器和无人水面艇之间建立通信提供可能,有利于海上基站快速获取大量的海洋数据。

本发明利用无人机的机动性抵抗海风干扰并协同维护光学链路稳定性;基于多智能体强化学习的新方法,使多个无人机构成的无人机集群能够通过协作最大限度地提高通信链路的性能,同时降低能耗;另外,考虑了海风扰动,确保端到端通信的可靠性;与基于独立深度确定性策略梯度(IDDPG)的方法相比,本发明通过无人机问的协同实现了更稳定的通信链路和更小的能耗;在该方案中,多架无人机在复杂的风场下实时控制自身状态,通过协作保持稳定性,并动态保持光链路的可靠性,最大限度地提高通信性能,实现可靠的端到端光通信,同时能够降低能耗从而延长服务时间。

附图说明

图1为本发明基于无人机的光通信链路示意图。

图2为本发明海上无人机光链在风场环境下的示意图。

图3为本发明仿真实验中基于多智能体强化学习算法的平均回报收敛性示意图。

图4为本发明仿真实验中不同风速和不同数量智能体下端到端光通信链路的BER

图5为本发明仿真实验中不同风速和波束宽度下端到端光通信链路的BER

图6为本发明仿真实验中基于MADDPG和IDDPG算法在不同风速下的链路维持时间对比图。

图7为本发明仿真实验中基于MADDPG和IDDPG算法的能耗对比图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明:

本发明中,多架无人机在复杂的风场下实时控制自身状态,通过协作保持稳定性,并动态保持光链路的可靠性,最大限度地提高通信性能,实现可靠的端到端光通信,降低能耗。首先,将该问题建模为部分观测马尔可夫决策过程(POMDP)。然后,提出一种基于多智能体深度确定性策略梯度(Multi Agent Deep Deterministic Policy Gradient,MADDPG)的学习算法寻找最优策略。

本发明方法的主要过程为:多个无人机通过射频导引至各自的部署区域,形成一条长链,建立初步的光通信连接;面对海风等环境干扰,无人机将自身观测状态通过射频信号发送给中央基站,中央基站接收所有无人机的观测信息并进行协同操作;中央基站将动作决策通过射频信号发送给每个无人机,所有无人机协同地做出相应的动作稳定自身飞行状态,保持稳定的光通信连接;海上无人机光链进行数据传输,无人机之间协同抵抗海风的扰动,实时地保持稳定的数据传输。

本发明实施的详细步骤如下:

步骤1:多个无人机通过射频导引至各自的部署区域,形成一条长链,建立初步的光通信连接。

如图1所示,一个无人机集群

该方法采用光/射频混合通信来实现无人机集群之间的信息共享。光通信主要用于传输收集的数据,而射频用于辅助通信,传输必要的状态信息和控制命令,如无人机定位和任务分配命令。在海洋环境中,无人水面艇作为中央基站,负责接收所有部署的无人机的信息,并通过控制命令对其进行操控,实现环境自适应控制。

步骤2:面对海风等环境干扰,无人机将自身观测状态通过射频信号发送给中央基站,中央基站接收所有无人机的观测信息并进行协同操作。

如图2所示,四旋翼无人机的飞行状态受多种因素的影响。其中,海风作为主要影响因素,会导致无人机的位置漂移,从而影响无人机光链路的通信性能。因此,在面对海风等环境干扰,无人机会将自身观测状态通过射频信号发送给中央基站,进而自主完成动作决策和维持稳定的光通信连接。

第i个无人机的状态空间为s

无人机的行为决策只与当前的环境状态有关,并且每个无人机都无法获得有关环境的所有信息,用o

它由三部分组成,分别为第i个无人机与第i-1个无人机的相对位置,第i个无人机与参考位置的相对位置和第i个无人机与第i+1个无人机的相对位置。其中,参考位置

其中,x

步骤3:中央基站将动作决策通过射频信号发送给每个无人机,所有无人机协同地做出相应的动作稳定自身飞行状态,保持稳定的光通信连接。

中央基站采用多智能体深度确定性策略梯度算法进行动作决策,无人机的动作集被表示为

其中,m是无人机的质量;

F

其中,ρ表示空气密度;M是螺旋桨面积;v是无人机速度;w表示风速。

进一步地,步骤3中,在执行一步动作后,设置奖励函数如下:

r

其中,c1和c2是超参数,以平衡个人和集体奖励之间的重要性,r

个体奖励r

其中||·||称为欧几里得范数。

集体奖励r

r

每架无人机的目标是最大限度地提高其期望的累积折扣奖励,如下所示:

其中,γ是折扣因子。

进一步地,步骤3中,中央基站获得无人机返回的奖励后,需要不断更新网络参数。每个智能体中使用四个神经网络:一个策略网络

策略网络负责与环境交互,并根据当前状态做出行为决策。策略网络的更新策略如下:

其中,

评价网络是用来帮助决策网络判断动作的好与差。与传统的单一智能体不同,它以联合观察X和联合动作(a

目标网络用于降低训练的不稳定性。采用软更新的方法对目标网络的参数进行更新,可以写成:

其中,τ是软更新因子。

步骤4:海上无人机光链进行数据传输,通过重复执行步骤2-3,使无人机之间协同抵抗海风的扰动,实时地保持稳定的数据传输。

在一轮更新完成之后,为更好地满足数据传输要求,进行如下优化过程:

步骤4.1:计算整条链路的比特误码率BER

其中,第i段链路的比特误码率由BER(d

步骤4.2:T时间内所有无人机的总能耗可表示为:

其中,P

本发明最主要的目的是使海上无人机光链在风场环境中保持稳定的数据传输,这需要多个无人机根据当前环境状态自适应完成动作决策,本发明的仿真实现过程如下:

(1)利用编程软件搭建基于多智能体深度强化学习的多个无人机协同移动控制仿真系统,通过仿真训练得到最优决策策略,具体步骤如下:

(1.1)确定无人机的状态,建立环境模型;

(1.2)确定多个无人机的初始位置和光束指向,初始化当前t时刻环境状态等算法参数;

(1.3)根据当前状态及检测到的风数据选择动作,确定调整速度变量;

(1.4)执行动作集a中的一个动作,得到奖励值r

(1.5)保存经验到经验池,并随机采样小批量经验训练神经网络;

(1.6)通过最小化损失函数来更新评价网络参数w

(1.7)软更新目标评价网络参数w′

(1.8)判断当前时刻比特误码率是否超过要求,若未超过,转(1.3);否则转(1.9);

(1.9)判断是否完成数据传输回合迭代,若是,终止并输出结果,否则转(1.2);

(2)利用基于多智能体深度确定性策略梯度的控制器控制无人机完成调整进而输出动作,具体步骤如下:

(2.1)初始化参数,如决策网络参数δ

(2.2)进行外部回合循环:

(2.2.1)进行内部时间步循环:

(2.2.1.1)运行多智能体深度确定性策略梯度算法,输出动作集a中一个动作;

(2.2.1.2)执行动作,根据奖励策略获取奖励值,具体计算方式为公式(5);

(2.2.1.3)通过最小化损失函数更新评价网络参数w

(2.2.1.4)执行梯度下降更新决策网络参数δ

(2.2.1.5)更新目标网络参数,具体计算方式为公式(12);

(2.2.1.6)若数据传输时间超时,结束内部时间步循环;

(2.2.2)若达到外部循环步数,结束外部回合循环。

(2.3)输出无人机光链的比特误码率和总能耗。

本发明的效果可以通过如下仿真实验进一步说明:

仿真条件如下:

使用四个全连接的神经网络,每个网络有两层64个单元的隐藏层。评价网络的输出层被线性激活,tanh函数被用来激活策略网络的输出层,使生成的动作更符合无人机的物理运动特性。ReLU函数用于激活网络的隐藏层。该算法基于Python3.6,采用Pytorch,运行在Nvidia3060处理器上。

考虑在一个1000米×1000米的正方形区域里部署无人机集群。首先,多架无人机分布在参考位置上,参考位置是无人机的初始位置,也是最大化通信性能的理想位置。而风场数据由Dryden模型生成。相关参数的数值设置如下:

前向纠错限制BER

仿真结果如下:

为了验证所提出的多智能体强化学习算法在风扰动下维护光链路的有效性,将该算法运行了1000次,每次1000步。当无人机个数N=5时,训练结果如图3所示,其中横轴表示回合数,纵轴表示每个智能体的平均回合奖励。可以看出,在270回合之前,每个智能体的平均奖励迅速增加,270回合之后,奖励逐渐收敛。

基于所提出的算法,测试了在不同风速扰动下,不同数量智能体的端到端光链路的通信性能。如图4所示,在1000步的测试时间内,BER

当无人机数量为5时,测试了不同风速和波束宽度的端到端光通信链路的BER

大气中的风是流动的,无人机探测到的风会随着时间和位置的变化而变化。这就要求无人机针对不同的情况采取适当的措施。MADDPG是一种通过协作来完成智能体之间任务的方法。相反,IDDPG是一种智能体独立完成自己任务的方法。对于每个风速,测试了30次,每次1000步。如图6所示,比较了基于5个智能体的MADDPG算法和IDDPG算法在不同风速下的平均链路维持时间。链路维持时间是在1000步中,当BER

如图7所示,在1000步的测试中,与基于IDDPG的方法相比,基于MADDPG算法的5个智能体的能耗显著降低。这主要是因为通过无人机之间的协作来稳定多跳光链路,降低了单架无人机的速度和飞行路径,由此抵抗风扰动而产生的能耗也相应降低。

上述仿真验证结果表明,本发明方案具有良好的性能,可以在海风等干扰下有效保证光学数据传输可靠性,同时降低能量消耗。

当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

技术分类

06120116580899