掌桥专利:专业的专利平台
掌桥专利
首页

基于强化学习的无人机辅助电力线巡检视频传输优化方法

文献发布时间:2024-04-18 19:59:31


基于强化学习的无人机辅助电力线巡检视频传输优化方法

技术领域

本发明涉及一种基于强化学习的无人机辅助电力线巡检视频传输优化方法。

背景技术

由于无人机具有灵活机动、视距传输信道、低成本等优势,已被广泛应用于输电线路的巡检。无人机通过拍摄输电线路沿线情况或架空设备状态的视频,将其传输给地面站,可以帮助技术人员了解输电走廊和设备的具体情况,合理安排维修计划。

为了减轻无人机有限存储和计算能力的压力,在传输链路带宽有限的情况下,无人机拍摄的大量视频数据需先经过压缩编码再进行传输。量化参数是视频压缩编码中的一个重要参数,控制了视频压缩过程中的量化步长,它的大小设置可以影响视频的压缩质量和处理时延。现有的无人机视频压缩编码方案通常采用恒定的量化参数或者依据已知的率失真模型选择量化参数,无法适应无人机高度动态环境的变化以及电力线巡检任务中不同优先级场景的需求。

在视频传输过程中,无人机发射功率的大小也将影响视频传输的信噪比和无人机的能量损耗。现有的无人机功率控制方案要么将发射功率设置为恒定参数,要么基于用户需求尽量设置最小的发射功率值来降低能量损耗,这些方法都无法实现在动态的无人机网络中进行动态的功率控制。还有一些功率控制方法采用机器学习和深度学习算法调整发射功率的大小,但是这些方法依赖于对环境的精确建模,且需要从环境中获取足够多的训练数据,在实际场景数据难以获得、模型难以精确构建的情况下,很难取得较好的训练效果。

现有技术具体分析如下:

1、现有无人机应用于电力线巡检未考虑不同优先级业务场景下的视频传输优化。例如,应急故障巡检、输电线路通道巡检、输电通道山火监控等场景需要将现场情况实时传给地面,以便快速安排检修任务,此时视频传输的目标更多考虑的是时延,以时延小传输快为目的。而日常巡检时,比如拍摄杆塔绝缘子及金具串,用于后续绝缘子、金具等附件运行状态识别以及判断其是否完好无损,此类场景的主要目的是为了看清楚绝缘子串、均压环、线夹等附件,判断其是否具有金具锈蚀,螺栓螺帽松弛或缺失等微小缺陷的时候,视频传输的目标更多考虑的是视频质量,传输需要更加清晰。

2、现有的无人机压缩编码技术对量化参数的设置方法难以适应无人机高度动态的网络环境和电力线巡检任务中对视频质量和传输时延有不同需求的业务场景。

3、现有的无人机功率控制方法要么无法实现动态控制,要么需要依赖于已知环境和建模,泛化性不强。

4、无人机辅助电力线巡检场景中,视频质量、传输时延、无人机能量损耗,是三个重要指标,现有方案很难在高度动态的无人机环境中动态设置合适的压缩编码量化参数和发射功率的大小,能同时获得较高的视频质量,较低的时延和能耗。

发明内容

本发明要解决的技术问题是:如何对无人机电力线巡检的视频传输进行优化,提供一种基于强化学习的无人机辅助电力线巡检视频传输优化方法。

为解决上述技术问题,本发明采用以下技术方案:

一种基于强化学习的无人机辅助电力线巡检视频传输优化方法,包括无人机侧和地面站侧;

其中,无人机侧包括智能学习计算模块,智能学习计算模块接收来自时延测量模块的时延t、能耗测量模块的无人机能量损耗C和信道增益测量模块的信道增益g,智能学习计算模块分别向视频压缩编码模块和信号发射模块输出量化参数q和发射功率p至视频压缩编码模块,信号发射模块将视频信号发送至地面站侧;无人机侧还设置有信号接收模块,接收来自地面站侧的带有优先级的拍摄任务、重构视频质量γ;

地面站侧包括信号接收模块,信号接收模块从无人机侧接收视频信号,信号接收模块的输出端连接视频解码模块,视频解码模块连接视频质量评估模块,视频质量评估模块连接信号发射模块,信号发射模块将带有优先级的拍摄任务、重构视频质量γ发送至无人机侧;

其中,评估重构视频的峰值信噪比PSNR建模为

其中,w

时延t主要为视频压缩编码的时间和全部发送完视频数据的时间,建模为

其中,w

无人机能量损耗C为无人机内嵌或搭载的用于数据处理和传输的通信模块的能耗,建模为

C=w

其中,w

然后,对无人机辅助电力线巡检视频传输进行优化建模:采用马尔科夫决策过程:

1)状态:表示当前无人机辅助电力线巡检视频传输网络的环境特征:无人机在当前时刻接收地面站带有任务优先级l的巡检拍摄任务后,评估自身与地面站之间的信道增益g,并依据上一时刻地面站反馈的重构视频质量PSNRγ,上一时刻测量的传输时延t和自身能耗C,构建系统状态为s=[l,g,γ,t,C];

2)动作:定义为无人机视频编码和传输策略,包括视频压缩编码的量化参数q,以及无人机传输视频的发射功率p,即x=[q,p]∈X,X为动作空间;

3)奖励:无人机在完成视频拍摄、编码和传输任务后,地面站会反馈给无人机当前时刻的重构视频质量PSNRγ,无人机测量当前时刻的传输时延t和自身能耗C,使用r=γ-α

4)转移概率:无人机在当前环境状态s下选择了动作x,传输网络环境会变化到另一个状态s′,概率分布为P=(s′|s,x);

无人机在当前状态s下选择动作x,在完成任务后环境给予它奖励r,它再根据奖励来修正自己的动作选择,经过一段时间的迭代过程后,无人机探索学习到一个最优的动作,使得自身能获得的奖励最大化。

采用基于改进Q学习算法的无人机辅助电力线巡检视频传输优化方法:Q函数指当前状态s下选择动作x的长期累计折扣奖赏,即

Q(s,x)←(1-α)Q(s,x)+α(r+δV(s′)),公式(4)

步骤1:初始化算法的学习率α和折扣因子δ,初始状态s,初始Q函数Q(s,x)=0;

步骤2:接收任务优先级l,评估信道增益g,构建当前时刻系统状态为s=[l,g,γ,t,C];

步骤3:根据ε贪婪策略选择动作x=[q,p],即

ε的大小在前100次迭代中由0.9线性地退化为0.1,在之后迭代中保持不变;

步骤4:根据选择的量化参数q对拍摄的视频进行压缩编码,使用选择的发射功率p发射视频数据,构建下一时刻状态s′;

步骤5:接收地面站反馈的重构视频质量PSNRγ,测量传输时延t和自身能耗C,使用r=γ-α

步骤6:使用上述公式(4)贝尔曼方程更新Q函数;

步骤7:更新当前时刻的计数向量:

步骤9:更新模拟模型的奖励记录:

其中奖励记录r

步骤10:更新模拟环境的状态转移概率:

步骤11:存储历史的状态和动作为经验e,即

步骤12:依据所选模拟模型的状态和动作,使用公式(6)更新模拟模型的奖励记录

步骤13:重复步骤11和步骤12共J次;

步骤14:判断Q函数是否收敛,若是,则算法结束退出循环,若否,重复步骤2至步骤13。

采用基于深度神经网络算法的无人机辅助电力线巡检视频传输优化方法:深度神经网络的网络参数为θ,包含输入层、隐藏层和输出层,输入层有5个节点,隐藏层有f个节点,每个节点都使用一个修正的线性单元激活,输出层有NM个节点;

步骤1:初始化学习率β,网络参数θ;

步骤2:接收任务优先级l,评估信道增益g,构建当前时刻系统状态为s=[l,g,γ,t,C];

步骤3:将当前时刻的状态s输入深度神经网络,获得Q函数Q(s,·,θ),并根据Q函数和ε贪婪策略选择动作x=[q,p];

步骤4:根据选择的量化参数q对拍摄的视频进行压缩编码,使用选择的发射功率p发射视频数据,构建下一时刻状态s′;接收地面站反馈的重构视频质量PSNRγ,测量传输时延t和自身能耗C,使用r=γ-α

步骤5:将本次学习的经验存入经验池D,即D←D∪[s,x,r,s′];

步骤6:从经验池D中随机选择[s,x,r,s′];

步骤7:重复步骤6共B次,获取小批量经验数据;

步骤8:使用随机梯度下降的方法训练深度神经网络,更新网络参数θ,即使用小批量经验数据,计算能使目标Q值和估测Q值之间误差最小化的参数θ,如下公式所示:

步骤9:判断Q函数是否收敛,若是,则算法结束退出循环,若否,重复步骤2至步骤8。

采用上述技术方案的本发明,具有以下技术效果:

1.可实现针对电力线巡检的不同业务场景,对具有不同视频质量和时延需求的任务分别进行优化。

2.可在未知环境模型的情况下,动态调整无人机视频压缩编码的量化参数和视频信号发射功率,实现视频质量、传输时延和无人机能耗的多目标优化。

3.针对计算能力不同的无人机,分别提出两种复杂度和优化效果不同的算法,增强了算法实际应用的可行性。

附图说明

图1为本发明的总体框架图;

图2为基于改进Q学习算法的无人机辅助电力线巡检视频传输优化方案流程示意图;

图3为基于深度神经网络算法的无人机辅助电力线巡检视频传输优化方案流程示意图。

具体实施方式

首先,提出一种无人机辅助电力线巡检的视频传输通信机制的总架构图,如附图1所示,包括无人机侧和地面站侧。

其中,无人机侧包括智能学习计算模块,智能学习计算模块接收来自时延测量模块的时延t、能耗测量模块的无人机能量损耗C和信道增益测量模块的信道增益g,智能学习计算模块分别向视频压缩编码模块和信号发射模块输出量化参数q和发射功率p至视频压缩编码模块,信号发射模块将视频信号发送至地面站侧;无人机侧还设置有信号接收模块,接收来自地面站侧的带有优先级的拍摄任务、重构视频质量γ。

地面站侧包括信号接收模块,信号接收模块从无人机侧接收视频信号,信号接收模块的输出端连接视频解码模块,视频解码模块连接视频质量评估模块,视频质量评估模块连接信号发射模块,信号发射模块将带有优先级的拍摄任务、重构视频质量γ发送至无人机侧。

在无人机侧,无人机接收地面站工作人员关于电力线巡检任务的视频拍摄需求和任务的优先级等级,使用优先级l(1≤l≤L)来表示巡检任务的紧急程度,L为优先级被划分的级别数目,l越大,表示该巡检任务越紧急。无人机在拍摄相关输电线路沿线或铁塔金具的视频后,内嵌的视频压缩编码模块采用H.264视频压缩编码标准,根据设置的量化参数q∈{0,1,...,N}对拍摄的视频原始数据进行压缩编码,N为量化参数的最大值,量化参数q越大,表示在压缩编码的量化过程中使用更大的量化步长,压缩编码后的视频会具有更大的压缩损失和失真。无人机根据选择的发射功率p∈[P

接着,提出上述通信机制中无人机视频传输任务实现效果的衡量指标,主要有重构视频质量PSNRγ,传输时延t,无人机能量损耗C。PSNR主要与视频编码和传输过程中的失真相关,而失真主要来源有两个,一个是压缩编码过程中使用量化参数进行量化产生的失真,一个是在信道传输过程中由于丢包导致的失真。

故PSNR可建模为

其中,w

其中,w

C=w

其中,w

然后,对无人机辅助电力线巡检视频传输问题进行优化建模。由于无人机当前时刻的编码和传输策略决策只和上一时刻的决策以及当前时刻的环境状态有关,而与再之前的历史决策和环境状态无关,故本问题可建模为马尔科夫决策过程,具有四个关键要素,即状态、动作、奖励和转移概率。在本问题中这四个关键要素定义如下:

1)状态:表示当前无人机辅助电力线巡检视频传输网络的环境特征。无人机在当前时刻接收地面站带有任务优先级l的巡检拍摄任务后,评估自身与地面站之间的信道增益g,并依据上一时刻地面站反馈的重构视频质量PSNRγ,上一时刻测量的传输时延t和自身能耗C,构建系统状态为s=[l,g,γ,t,C]。

2)动作:本发明中相关问题的动作定义为无人机视频编码和传输策略,包括视频压缩编码的量化参数q,以及无人机传输视频的发射功率p,即x=[q,p]∈X,X为动作空间。

3)奖励:无人机在完成视频拍摄、编码和传输任务后,地面站会反馈给无人机当前时刻的重构视频质量PSNRγ,无人机测量当前时刻的传输时延t和自身能耗C,使用r=γ-α

4)转移概率:无人机在当前环境状态s下选择了动作x,传输网络环境会变化到另一个状态s′,概率分布为P=(s′|s,x)。

本发明要解决的优化问题为:无人机在当前状态s下选择动作x,在完成任务后环境给予它奖励r,它再根据奖励来修正自己的动作选择,经过一段时间的迭代过程后,无人机探索学习到一个最优的动作,使得自身能获得的奖励最大化。

最后,基于上述优化问题建模和优化目标,提出基于强化学习的无人机辅助电力线巡检视频传输优化技术。该技术针对具备不同计算能力的无人机,以及对视频质量和时延等性能要求程度不同的巡检任务,又主要分为两部分,一个是在无人机计算能力相对较弱,且对巡检任务视频质量和时延要求不太高的情况下,提出一种基于改进Q学习算法的方案。另一个是在无人机具备较强计算能力,且对巡检任务视频质量和时延要求较高的情况下,提出一种基于深度神经网络算法的方案。

算法1:基于改进Q学习算法的无人机辅助电力线巡检视频传输优化方案

如附图2所示,无人机作为智能体,根据观测的环境系统状态确定最优编码和传输策略,在未知网络模型的情况下,实现最大化Q函数。Q函数指当前状态s下选择动作x的长期累计折扣奖赏,即

Q(s,x)←(1-α)Q(s,x)+α(r+δV(s′)),公式(4)

值函数在此为给定状态s′下所有可能策略的最大Q值,即V(s′)=max

本发明所提方案的算法1流程如下:

步骤1:初始化算法的学习率α和折扣因子δ,初始状态s,初始Q函数Q(s,x)=0;

步骤2:接收任务优先级l,评估信道增益g,构建当前时刻系统状态为s=[l,g,γ,t,C];

步骤3:根据ε贪婪策略选择动作x=[q,p],即

ε的大小在前100次迭代中由0.9线性地退化为0.1,在之后迭代中保持不变;

步骤4:根据选择的量化参数q对拍摄的视频进行压缩编码,使用选择的发射功率p发射视频数据,构建下一时刻状态s′;

步骤5:接收地面站反馈的重构视频质量PSNRγ,测量传输时延t和自身能耗C,使用r=γ-α

步骤6:使用上述公式(4)贝尔曼方程更新Q函数;

步骤7:更新当前时刻的计数向量:

步骤9:更新模拟模型的奖励记录:

其中奖励记录r

步骤10:更新模拟环境的状态转移概率:

步骤11:存储历史的状态和动作为经验e,即

步骤12:依据所选模拟模型的状态和动作,使用公式(6)更新模拟模型的奖励记录

步骤13:重复步骤11和步骤12共J次;

步骤14:判断Q函数是否收敛,若是,则算法结束退出循环,若否,重复步骤2至步骤13。

无人机在经过上述步骤的不断迭代学习后,可学习至最优动作x

算法2:基于深度神经网络算法的无人机辅助电力线巡检视频传输优化方案。

如附图3所示,在前述算法1的基础上,针对计算能力较强的无人机,以及对电力线巡检视频传输任务性能要求更高的场景,并加快无人机算法的学习速度,提出算法2。引入了三层全连接层的深度神经网络,可以更大地压缩无人机的状态空间,更精准地近似Q函数值。该网络的参数为θ,包含输入层、隐藏层和输出层,输入层有5个节点,隐藏层有f个节点,每个节点都使用一个修正的线性单元激活,输出层有NM个节点。

本发明所提方案的算法2流程如下:

步骤1:初始化学习率β,网络参数θ等;

步骤2:与算法1的步骤2相同;

步骤3:将当前时刻的状态s输入深度神经网络,获得Q函数Q(s,·,θ),并根据Q函数和ε贪婪策略选择动作x=[q,p];

步骤4:与算法1的步骤4至步骤5相同;

步骤5:将本次学习的经验存入经验池D,即D←D∪[s,x,r,s′];

步骤6:从经验池D中随机选择[s,x,r,s′];

步骤7:重复步骤6共B次,获取小批量经验数据;

步骤8:使用随机梯度下降的方法训练深度神经网络,更新网络参数θ,即使用小批量经验数据,计算能使目标Q值和估测Q值之间误差最小化的参数θ,如下公式所示:

步骤9:判断Q函数是否收敛,若是,则算法结束退出循环,若否,重复步骤2至步骤8。

无人机在经过上述步骤的不断迭代学习后,可学习至最优动作x

相关技术
  • 数据映射表的存储方法、计算机存储介质以及显示装置
  • 存储器的数据读取方法、显示装置及计算机可读存储介质
  • 控制增强现实显示装置的显示的方法、装置、存储介质
  • 显示方法、装置、VR显示装置及存储介质
  • 显示控制方法和装置、显示装置和存储介质
  • 控制显示装置的方法、显示装置、电子设备及存储介质
  • 目标图像的显示方法、显示装置、电子设备和存储介质
技术分类

06120116516043