掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的两阶段红外图像湍流抑制方法及系统

文献发布时间:2024-05-31 01:29:11


一种基于深度学习的两阶段红外图像湍流抑制方法及系统

技术领域

本发明属于红外图像恢复技术领域,具体涉及一种基于深度学习的两阶段红外图像湍流抑制方法及系统。

背景技术

受温度、密度和压力等物理性质的影响,空气折射率随着时间和空间的改变也发生不规则变化。此外,气溶胶和尘埃等也在空气中不停发生随机运动,这使得红外辐射发生任意的折射而无法到达原来的位置,这就造成了湍流现象。从视觉上来看,在湍流介质中拍摄的红外图像发生了畸变和模糊。湍流现象严重影响了远距离红外成像质量,进而影响了目标检测、目标跟踪等下游领域。

现有技术中,有部分研究采用基于光流的湍流抑制方法,该方法能够缓解视频中的模糊现象,但并无法有效改变图像的畸变,并且运行时需要消耗大量资源。还有部分研究釆用光流技术对图像序列进行配准,以消除图像的畸变,同时通过构造图拉普拉斯正则化项对图像进行约束,使恢复后的图像能够保持大量的细节和纹理,但该方法需要消耗时间和物力成本。

因此,现有的红外图像湍流抑制方法存在对红外湍流图像的恢复效果不佳或者消耗资源较多的问题。

发明内容

为了解决现有技术中所存在的上述问题,本发明提供了一种基于深度学习的两阶段红外图像湍流抑制方法及系统。

本发明要解决的技术问题通过以下技术方案实现:

第一方面,本发明提供了一种基于深度学习的两阶段红外图像湍流抑制方法,包括:

获取待恢复红外湍流图像;

将待恢复红外湍流图像输入预训练的去湍流模型,预测得到去湍流图像;预训练的去湍流模型包括:一阶段去模糊模型和二阶段去畸变模型,一阶段去模糊模型为基于Transformer的U型神经网络,在多个尺度上通过多头注意力机制和前馈神经网络对待恢复红外湍流图像进行特征提取,并映射得到待识别畸变图像;二阶段去畸变模型针对待识别畸变图像进行通道打乱的混洗处理得到待识别混洗图像,并将待识别混洗图像与待恢复红外湍流图像做像素叠加处理,得到去湍流图像。

可选地,一阶段去模糊模型包括:输入映射模块、编码块、解码块、第一下采样层、第一上采样层以及第一输出映射模块;二阶段去畸变模型包括:第二下采样层、第二上采样层、混洗模块以及第二输出映射模块。

可选地,编码块中包括多个子编码块,解码块中包括多个子解码块;

多个子编码块并行连接,多个子解码块并行连接;

每个子编码块对应与一个子解码块串联连接,每个子编码块之后对应连接一个第一下采样层,每个子解码块之后对应连接一个第一上采样层;

其中,子编码块用于将上一个子编码块输入的之前编码数据信息做编码处理得到当前节点子编码信息,并将当前节点子编码信息输入与其连接的子解码块以及下一个子编码块;

每个子解码块用于将上一个子解码块输入的之前解码数据信息做解码处理后得到当前节点子解码信息,并将当前节点子解码信息与当前节点子编码信息做特征拼接处理得到拼接特征;将拼接特征输入与其连接的下一个子解码块。

可选地,子编码块和子解码块均由多个Transformer层级联构成;

沿着数据处理方向,多个子编码块所处理数据的特征维度逐渐增大,多个子解码块所处理数据的特征维度逐渐减小,相连的子编码块和子解码块所处理数据的特征维度相同;

多个子编码块和多个子解码块共同构成基于Transformer的U型神经网络。

可选地,混洗模块中设置有多个混洗单元;每个混洗单元串联连接。

可选地,Transformer层包括:依次连接的第一层归一化、多头通道注意力层、第二层归一化以及前馈神经网络;

多头通道注意力层包括:初始卷积层和深度可分离卷积分组;

初始卷积层用于将获取的层归一化信息进行特征升维,得到升维信息;

深度可分离卷积分组用于对升维信息进行卷积操作得到升维卷积信息;通过通道分离操作将升维卷积信息分离为查询特征、键特征以及值特征;

利用查询特征、键特征、值特征以及归一化函数处理,得到单头注意力特征输出;

将单头注意力特征输出进行特征拼接处理,得到多头通道注意力层的输出结果。

可选地,预训练的去湍流模型的训练过程包括:

获取训练红外图像,每组训练红外图像均包括:训练无湍流图像、训练畸变图像以及训练湍流图像;

根据训练红外图像对初始去湍流模型进行训练;初始去湍流模型与预训练的去湍流模型结构相同;

根据训练红外图像和预设的损失函数,确定当前训练轮次训练后的初始去湍流模型是否达到收敛条件。

可选地,根据训练红外图像和预设的损失函数,确定当前训练轮次训练后的初始去湍流模型是否达到收敛条件,包括:

在未达到收敛条件时,调整初始去湍流模型中的参数,并再次根据训练红外图像进行训练;

在达到收敛条件时,将当前训练轮次训练后的初始去湍流模型作为预训练的去湍流模型;或,

在训练轮次达到训练轮次上限时,将当前训练轮次训练后的初始去湍流模型作为预训练的去湍流模型。

可选地,预设的损失函数表示为:

loss=α*smooth

smooth

其中,loss表示预设的损失函数,input1表示训练数据集中的畸变图像,input2表示训练数据集中的无湍流图像,output1表示模型一阶段输出的畸变图像,output2表示模型二阶段预测输出的去湍流图像,α表示预设权重值,

第二方面,本发明提供了一种基于深度学习的两阶段红外图像湍流抑制系统,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当基于深度学习的两阶段红外图像湍流抑制系统运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行如上述第一方面方法的步骤。

本发明提供了一种基于深度学习的两阶段红外图像湍流抑制方法及系统。其中,一种基于深度学习的两阶段红外图像湍流抑制方法,包括:获取待恢复红外湍流图像;将待恢复红外湍流图像输入预训练的去湍流模型,预测得到去湍流图像;预训练的去湍流模型包括:一阶段去模糊模型和二阶段去畸变模型,一阶段去模糊模型为基于Transformer的U型神经网络,在多个尺度上通过多头注意力机制和前馈神经网络对待恢复红外湍流图像进行特征提取,并映射得到待识别畸变图像;二阶段去畸变模型针对待识别畸变图像进行通道打乱的混洗处理得到待识别混洗图像,并将待识别混洗图像与待恢复红外湍流图像做像素叠加处理,得到去湍流图像。在本发明中,将红外湍流图像的恢复问题解耦为去模糊和去畸变两部分任务,基于不同任务设计复杂程度不同的网络进行处理。针对一阶段去模糊,设计基于Transformer的U型神经网络,在多个尺度上通过多头注意力机制和前馈神经网络对图像进行特征提取,提升了模糊恢复效果;针对二阶段去畸变,设计基于混洗处理的轻量化网络,通过通道打乱,增强网络非线性拟合能力,提高了对红外湍流图像的恢复效果,同时降低了红外湍流图像恢复过程中的资源消耗。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于深度学习的两阶段红外图像湍流抑制方法的流程示意图;

图2是本发明实施例提供的一种基于深度学习的两阶段红外图像湍流抑制方法的整体处理流程图;

图3是本发明实施例提供的编码器和解码器的结构示意图;

图4是本发明实施例提供的多头通道注意力层的结构示意图;

图5是本发明实施例提供的前馈神经网络的结构示意图;

图6是本发明实施例提供的混洗单元的结构示意图;

图7是本发明实施例提供的红外湍流图像处理结果示意图;

图8为本发明实施例提供的一种基于深度学习的两阶段红外图像湍流抑制系统的示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。

为了解决现有技术对红外湍流图像恢复效果不佳以及恢复过程消耗资源较多的问题,本发明实施例提供了一种基于深度学习的两阶段红外图像湍流抑制方法。图1为本发明实施例提供的一种基于深度学习的两阶段红外图像湍流抑制方法的流程示意图。如图1所示,包括:

S101、获取待恢复红外湍流图像。

S102、将待恢复红外湍流图像输入预训练的去湍流模型,预测得到去湍流图像。

预训练的去湍流模型包括:一阶段去模糊模型和二阶段去畸变模型,一阶段去模糊模型为基于Transformer的U型神经网络,在多个尺度上通过多头注意力机制和前馈神经网络对待恢复红外湍流图像进行特征提取,并映射得到待识别畸变图像;二阶段去畸变模型针对待识别畸变图像进行通道打乱的混洗处理得到待识别混洗图像,并将待识别混洗图像与待恢复红外湍流图像做像素叠加处理,得到去湍流图像。

大气湍流模型是一个时变系统,可将其量化为一个光学传播函数(OpticalTransfer Function,简称OTF)。从统计学角度看有短曝光OTF和长曝光OTF。短曝光OTF表示某一瞬间的大气模型对成像系统的影响,随时间改变每时每刻发生无法预知的变化,短曝光OTF导致光线穿过大气时发生随即折射,图像上表现为畸变现象;长曝光OTF指的是在相机曝光时间内的大气OTF模型,存在一个平均值,长曝光OTF导致图像发生模糊。

本申请人在研究中发现,从成像角度来看,受湍流影响的图像生成过程分为两部分:1、某一瞬间探测器接收到红外辐射,此时的图像呈现畸变现象,但由于未达到曝光时间,无法响应生成真正的红外图像;2、在曝光时间内不断接受红外辐射,但每一瞬间的红外辐射产生畸变不同,使相机曝光时间内畸变叠加产生的红外图像变得模糊。

因此,本申请人研究确定,抑制湍流效应为一个逆过程:因此先对模糊进行去除,生成畸变图像;再对畸变图像进行处理,生成去湍流图像。

本发明实施例提供的一种基于深度学习的两阶段红外图像湍流抑制方法,包括:获取待恢复红外湍流图像;将待恢复红外湍流图像输入预训练的去湍流模型,预测得到去湍流图像;预训练的去湍流模型包括:一阶段去模糊模型和二阶段去畸变模型,一阶段去模糊模型为基于Transformer的U型神经网络,在多个尺度上通过多头注意力机制和前馈神经网络对待恢复红外湍流图像进行特征提取,并映射得到待识别畸变图像;二阶段去畸变模型针对待识别畸变图像进行通道打乱的混洗处理得到待识别混洗图像,并将待识别混洗图像与待恢复红外湍流图像做像素叠加处理,得到去湍流图像。在本发明实施例中,将红外湍流图像的恢复问题解耦为去模糊和去畸变两部分任务,基于不同任务设计复杂程度不同的网络进行处理。针对一阶段去模糊,设计基于Transformer的U型神经网络,在多个尺度上通过多头注意力机制和前馈神经网络对图像进行特征提取,提升了模糊恢复效果;针对二阶段去畸变,设计基于混洗处理的轻量化网络,通过通道打乱,增强网络非线性拟合能力,提高了对红外湍流图像的恢复效果,同时降低了红外湍流图像恢复过程中的资源消耗。

可选地,一阶段去模糊模型包括:输入映射模块、编码块、解码块、第一下采样层、第一上采样层以及第一输出映射模块;二阶段去畸变模型包括:第二下采样层、第二上采样层、混洗模块以及第二输出映射模块。

可选地,编码块中包括多个子编码块,解码块中包括多个子解码块;

多个子编码块并行连接,多个子解码块并行连接;

每个子编码块对应与一个子解码块串联连接,每个子编码块之后对应连接一个第一下采样层,每个子解码块之后对应连接一个第一上采样层;

其中,子编码块用于将上一个子编码块输入的之前编码数据信息做编码处理得到当前节点子编码信息,并将当前节点子编码信息输入与其连接的子解码块以及下一个子编码块;

每个子解码块用于将上一个子解码块输入的之前解码数据信息做解码处理后得到当前节点子解码信息,并将当前节点子解码信息与当前节点子编码信息做特征拼接处理得到拼接特征;将拼接特征输入与其连接的下一个子解码块。

可选地,子编码块和子解码块均由多个Transformer层级联构成;

沿着数据处理方向,多个子编码块所处理数据的特征维度逐渐增大,多个子解码块所处理数据的特征维度逐渐减小,相连的子编码块和子解码块所处理数据的特征维度相同;多个子编码块和多个子解码块共同构成基于Transformer的U型神经网络。

可选地,混洗模块中设置有多个混洗单元;每个混洗单元串联连接。

可选地,Transformer层包括:依次连接的第一层归一化、多头通道注意力层、第二层归一化以及前馈神经网络;

多头通道注意力层包括:初始卷积层和深度可分离卷积分组;

初始卷积层用于将获取的层归一化信息进行特征升维,得到升维信息;

深度可分离卷积分组用于对升维信息进行卷积操作得到升维卷积信息;通过通道分离操作将升维卷积信息分离为查询特征、键特征以及值特征;

利用查询特征、键特征、值特征以及归一化函数处理,得到单头注意力特征输出;

将单头注意力特征输出进行特征拼接处理,得到多头通道注意力层的输出结果。

本发明实施例对多头通道注意力层进行了改进,将多头通道注意力层复杂度降低至线性,计算不同通道的协方差,以生成隐式编码全局上下文的注意力图,同时引入深度可分离卷积,在计算特征协方差生成全局注意力图之前强调局部上下文。具体包括:输入任意Transformer层的特征

q

其中,DW表示深度可分离卷积层。

此外,需要说明的是,在本申请实施例中在前馈网络中加入了门控单元。通过加入门控单元可以减少非线性操作,使模型更容易拟合,深度可分离卷积对来自空间相邻像素位置的信息进行编码,有助于学习有效恢复的局部图像结构。具体而言,先使用1*1卷积和深度可分离卷积对Transformer中归一化层2输出特征

可选地,在本实施例中,第一下采样层使用3*3的卷积将输入特征维度增加为原来的两倍,并将尺寸下降为原来的一半,达到下采样的目的;第一上采样层通过转置卷积将输入特征维度减小为原来的二分之一,并将尺度扩大为原来的两倍。

需要说明的是,由于湍流图像任意两点之间具有一定的空间相关性,并且相关性随距离增大而逐渐减弱,而Transformer相比CNN感受野不受卷积核限制,可以聚集湍流图像区域之间的信息捕捉上下文相关的全局交互特征,因此本发明实施例中采用Transformer进行特征提取。但因为Transformer的计算过程会带来巨大的计算量,因此引入深度可分离卷积,在多头注意力层中代替原来的全连接层产生token,可以增加通道之间的交互的同时减少参数量,使图像内容和注意力权重之间进行交互,让生成的注意力图跨通道生成湍流的统计特征,丰富上下文湍流信息。在前馈网络中,通过门控单元和深度可分离卷积对信息进行编码,恢复局部受湍流破坏的图像结构,使各层互补细节,使得最终能够恢复得到效果较好的去湍流图像。

将一阶段输出的畸变图像

需要说明的是,在本申请实施例中,一个混洗单元由1*1大小的组卷积、通道混洗层、归一化层和ReLU激活函数以及3*3深度可分离卷积构成;输入特征被不同的组卷积捕获,然后被通道混洗层进行通道打乱,再融合在一起。此外,在本实施例中,还增加了组卷积和深度可分离卷积的数量,增强了全局特征分组。深度可分离卷积由于其对称填充的特性可以减少填充0对图像边缘的影响。

可选地,预训练的去湍流模型的训练过程包括:

获取训练红外图像,每组训练红外图像均包括:训练无湍流图像、训练畸变图像以及训练湍流图像;

需要说明的是,在本申请实施例中,训练无湍流图像为50000幅,并全部设置大小为256×256。

训练畸变图像以及训练湍流图像的生成过程基于《Simulating AnisoplanaticTurbulence by Sampling Inter-modal and Spatially Correlated ZernikeCoefficients》提出的湍流图像模拟方法,输入训练无湍流图像,分别得到对应的训练畸变图像以及训练湍流图像。其中参数设置包括:红外辐射波长λ取6μm,传播距离L取2000m,折射率结构参数

根据训练红外图像对初始去湍流模型进行训练;初始去湍流模型与预训练的去湍流模型结构相同;

根据训练红外图像和预设的损失函数,确定当前训练轮次训练后的初始去湍流模型是否达到收敛条件。

可选地,根据训练红外图像和预设的损失函数,确定当前训练轮次训练后的初始去湍流模型是否达到收敛条件,包括:

在未达到收敛条件时,调整初始去湍流模型中的参数,并再次根据训练红外图像进行训练;

在达到收敛条件时,将当前训练轮次训练后的初始去湍流模型作为预训练的去湍流模型;或,

在训练轮次达到训练轮次上限时,将当前训练轮次训练后的初始去湍流模型作为预训练的去湍流模型。

可选地,预设的损失函数表示为:

loss=α*smooth

smooth

其中,loss表示预设的损失函数,input1表示训练数据集中的畸变图像,input2表示训练数据集中的无湍流图像,output1表示模型一阶段输出的畸变图像,output2表示模型二阶段预测输出的去湍流图像,α表示预设权重值,

为了整体说明基于深度学习的两阶段红外图像湍流抑制方法的处理流程,本发明实施例以编码块中包括三个子编码块以及解码块中包括三个子解码块为例,对数据处理过程做详细说明。图2是本发明实施例提供的一种基于深度学习的两阶段红外图像湍流抑制方法的整体处理流程图;图3是本发明实施例提供的编码器和解码器的结构示意图;图4是本发明实施例提供的多头通道注意力层的结构示意图;图5是本发明实施例提供的前馈神经网络的结构示意图;图6是本发明实施例提供的混洗单元的结构示意图。图7是本发明实施例提供的红外湍流图像处理结果示意图,其中,图7的(a)图为待恢复红外湍流图像,图7的(b)图为去模糊后的畸变图像,图7的(c)图为恢复后的去湍流图像。

(1)、将通道数为1的待恢复红外湍流图像

(2)、将

(3)、由于子解码块为3个,则第三个子编码块的下采样结果为

(4)、将

(5)、将

本发明实施例通过从大气湍流成像模型出发,首先分析湍流成因,将红外成像设备接受大气湍流影响的光线而产生退化图像的过程解耦为产生畸变和产生模糊两阶段,针对这两阶段成像特点分别使用改进的Transformer模型和卷积神经网络,通过改进多头注意力机制中token的生成方式和在前馈网络中加入门控单元,以及卷积神经网络中通道混洗单元的使用,分步对场景下红外湍流图像进行恢复,将单帧红外湍流图像恢复为清晰红外图像。

本发明实施例提供的方法可以应用于电子设备。具体的,该电子设备可以为:台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定,任何可以实现本发明的电子设备,均属于本发明的保护范围。

基于同一发明构思,本发明实施例还提供了一种基于深度学习的两阶段红外图像湍流抑制系统。图8为本发明实施例提供的一种基于深度学习的两阶段红外图像湍流抑制系统的示意图,包括:处理器710、存储介质720和总线730,存储介质720存储有处理器710可执行的机器可读指令,当基于深度学习的两阶段红外图像湍流抑制系统运行时,处理器710与存储介质720之间通过总线730通信,处理器710执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。

存储介质可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是,术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与本公开的一些方面相一致的装置和方法的例子。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图以及公开内容,可理解并实现所述公开实施例的其他变化。在本发明的描述中,“包括”一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,相互不同的实施例中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

相关技术
  • 一种基于深度学习的两阶段Logo图像检测方法及系统
  • 一种物理信息驱动的红外图像湍流效应抑制方法及系统
技术分类

06120116627010