掌桥专利:专业的专利平台
掌桥专利
首页

基于自注意力和卷积神经网络的红外可见光图像融合方法

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及图像融合领域,尤其涉及基于自注意力和卷积神经网络的红外可见光图像融合方法。

背景技术

红外图像(Infrared Image)是红外摄像机在红外波段的辐射所得到的影像,此图像一般为灰度图像;可见光图像(Visible Image)是摄像机在人眼可见的可见光波段中所得影像,一般为彩色图像。红外图像在恶劣的天气下仍能正常工作,比如夜间和可见度不高的极端天气中;而可见光图像则可以提供与人类视觉相适应的图片纹理和细节,但是一般只能工作在良好的环境下。所以,我们通过提取红外图像的显著性信息,以及可见光图像的细节信息,将两张图片的有用信息集中在一张图片上,最后的融合结果是具有突出目标和丰富细节的红外图像,即融合结果综合两种类型图像的优点。

红外可见光图像融合技术实际上是一种图像增强技术,其最终目的是将不同传感器获取的图像进行组合,生成信息量大的图像,便于后续处理或帮助决策。如本发明中的红外和可见光图像融合技术所得的结果可以用于提高人类视觉感知、目标检测和目标识别等方面的性能。这两种类型的图像可以从不同方面提供具有互补性质的场景信息,而且它们在所有的物体中都是存在的。图像融合主要涉及3个主要的步骤:活动水平测量、图像变换和融合规则设计。现有的融合方法通常对不同类型的源图像在融合过程中使用相同的变换或表示。然而,这种方式不适用于红外和可见光图像,因为红外图像中的热辐射区域和可见光图像中的细节内容是两种截然不同的表现。此外,现有方法中的融合规则大多采用人工设计的方式,融合过程越来越复杂,存在实现难度大和计算成本高的问题。这种传统的方法对提取的特征建模和设计融合规则非常费时费力,因此,其性能在很大程度上受到限制。

在过去十几年的发展中,深度学习的方法已经逐步超越了传统方法。与传统的红外可见光图像融合方法相比,基于深度学习的图像融合方法有两个优点:(1)利用大量已知样本作为训练集,可以分别从两类图片中提取出更多具有特定的特征信息。(2)基于深度学习的端到端框架,能够自动提取关键信息和重构源图像的特征,不需要后处理,大大降低了程序复杂度。现有的深度学习方法虽然在红外可见光图像融合中已经取得了一些进展,但现今仍存在一些需要改进的问题。首先,现在所用的深度学习方法基本上都是卷积神经网络方法,卷积神经网络虽然效率很高,但是这种方法打断了图像的相关性,不能很好地提取图像中的长相关信息,对后续的图像融合造成一定的影响。其次,现有网络框架中的损失函数大多是计算融合图像和原图像的损失函数,这种像素级的损失函数会过分强调融合图像和原图像完全相同,但是还是希望融合得到的图像和原图像在结构上相似,显著信息也相似。

发明内容

为了克服上述问题,本申请提出了一种基于视觉自注意力和卷积神经网络的红外可见光图像融合网络。所提出的网络由3个模块组成:卷积神经网络模块(CNN-Module)、视觉自注意力模块(ViT-Module)和特征损失模块(Feature Loss)。卷积神经网络模块主要用来预处理两张不同类型的图像,并且初步提取图像中的显著信息和细节信息,但是如果仅仅使用这种模块,就会造成上述的依赖性不足的问题,从一张图像提取的信息没有相关性,对后续的结果造成很大的影响。所以本申请不仅使用了传统的卷积神经网络模块,还在这个模块后面串联了一个视觉自注意力模块,用来保存和提取原图像中的常相关性,弥补了卷积神经网络的这一缺陷,使得图像的长相关性得以保存,并且所得的融合结果也更具自然性,最终得到理想的融合结果。特征损失模块主要用计算融合图像的特征损失,本网络中的损失函数包括了基础的像素损失,比如SSIM损失和MSE损失等,但是仅仅只有这些损失函数会出现上述的问题。所以本网络新增了一个特征损失模块,通过提取融合图像和原图像的特征图来计算对应的损失,用不同层的损失可以计算出图像的细节损失和结构损失,弥补了像素损失函数的缺陷。

具体的说,本发明提供的一种基于自注意力和卷积神经网络的红外可见光图像融合方法,包括以下步骤:

S1:构建图像融合网络;所述图像融合网络包括:卷积神经网络模块、视觉自注意力模块和损失计算模块;

S2:训练所述图像融合网络;将红外图像和可见光图像分别输入至卷积神经网络模块,得到特征图;将特征图输入至自注意力模块,得到特征图的长相关性;利用特征图的长相关性信息,将特征图输入至图像重建单元,得到初始融合图像;在训练过程中,利用损失计算模块对初始融合图像进行损失计算,最终得到训练完毕的图像融合网络;

S3:利用训练完毕的图像融合网络进行图像融合,得到融合图像。

进一步地,所述卷积神经网络模块采用双分支结构,包括:密集连接网络和快速下采样网络。

进一步地,所述密集连接网络具体指:网络中所有层的输入与之前所有层的输出连接,如下式:

X

其中,F

进一步地,步骤S2中得到特征图的具体过程为:

S21:将红外图像和可见光图像进行配准处理,得到预设尺寸的输入图像;

S22:将输入图像经过一个卷积层,得到初始特征图;

S23:将初始特征图分别输入至密集连接网络和快速下采样网络,分别得到图像的细节特征和结构特征;

S24:将所述细节特征和结构特征进行连接,得到特征图。

进一步地,所述卷积神经网络模块采用MISH函数作为激活函数。

进一步地,所述视觉自注意力模块包括:通道视觉自注意力单元和空间视觉自注意力单元。

进一步地,所述损失计算模块包括:像素损失函数和特征损失函数。

进一步地,像素损失函数具体为:

L=αL

其中α、β和γ分别是三个损失函数分量的常系数;L

所述特征损失函数通过预先训练好的VGG19网络,分别处理可见光图像和初始融合图像,在VGG19网络不同特征层中计算损失,具体如下式:

其中,MAE(X,Y)表示特征损失函数,N为训练集样本总个数;X

本发明提供的有益效果是:。

附图说明

图1是本发明方法流程示意图;

图2是图像融合网络的结构图;

图3是卷积神经网络模块结构图;

图4是视觉自注意力模块结构图;

图5是VisionTransformer的主体框架示意图;

图6为空间视觉自注意力单元的处理流程图;

图7为通道视觉自注意力单元的处理流程图;

图8是第一组实验对比结果;

图9是第二组实验对比结果;

图10是EN定量实验结果;

图11是MI定量实验结果;

图12是SSIM定量实验结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。

请参考图1,图1是本发明方法流程示意图;

基于自注意力和卷积神经网络的红外可见光图像融合方法,包括以下步骤:

所提出的网络由3个模块组成:卷积神经网络模块(CNN-Module)、视觉自注意力模块(ViT-Module)和特征损失模块(Feature Loss)。卷积神经网络模块主要用来预处理两张不同类型的图像,并且初步提取图像中的显著信息和细节信息,但是如果仅仅使用这种模块,就会造成上述的依赖性不足的问题,从一张图像提取的信息没有相关性,对后续的结果造成很大的影响。所以本申请不仅使用了传统的卷积神经网络模块,还在这个模块后面串联了一个视觉自注意力模块,用来保存和提取原图像中的常相关性,弥补了卷积神经网络的这一缺陷,使得图像的长相关性得以保存,并且所得的融合结果也更具自然性,最终得到理想的融合结果。特征损失模块主要用计算融合图像的特征损失,本网络中的损失函数包括了基础的像素损失,比如SSIM损失和MSE损失等,但是仅仅只有这些损失函数会出现上述的问题。所以本网络新增了一个特征损失模块,通过提取融合图像和原图像的特征图来计算对应的损失,用不同层的损失可以计算出图像的细节损失和结构损失,弥补了像素损失函数的缺陷。

具体的说,本发明提供的一种基于自注意力和卷积神经网络的红外可见光图像融合方法,包括以下步骤:

S1:构建图像融合网络;所述图像融合网络包括:卷积神经网络模块、视觉自注意力模块和损失计算模块;

请参考图2,图2是图像融合网络的结构图;

需要说明的是,本申请中,卷积神经网络模块(CNN-Module)的作用是预处理输入图像,且提取输入图像的细节信息和结构信息,再输入给视觉自注意力模型以做进一步处理。红外图像和可见光图像包含了不同的信息,本申请需要做的便是从不同的图像中提取不同的信息。通过卷积神经网络模块,可以有效地从原图像中获取结构性信息和细节纹理信息。卷积神经网络的双分支结构所生成的特征图大小和特征图层数一致,方便送入下一模块中进一步操作。

视觉自注意力模块(ViT-Module)的作用进一步处理卷积神经网络模块所送入的特征图,特征图所包含的信息是卷积神经网络提取的。经过上述分析,这类特征图没有长依赖性,所以为了规避这个问题,本申请使用视觉自注意力模块做进一步的处理。从通道角度和空间角度分别处理所送入的特征图,最大程度地提取原图像中的长相关性信息。然后将所得到的特征图送入图像重建模块,即可以得到初始的融合图像。

损失计算模块的作用是弥补像素损失的缺点,像素损失追求目标图片和原图片完全相同,但是融合任务的结果并不能追求百分之百完全相同,需要在细节上和结构上与原图像保持类似。所以通过特征损失,可以规避掉像素损失带来的后果。

S2:训练所述图像融合网络;将红外图像和可见光图像分别输入至卷积神经网络模块,得到特征图;将特征图输入至自注意力模块,得到特征图的长相关性;利用特征图的长相关性信息,将特征图输入至图像重建单元,得到初始融合图像;在训练过程中,利用损失计算模块对初始融合图像进行损失计算,最终得到训练完毕的图像融合网络;

需要说明的是,所述卷积神经网络模块采用双分支结构,包括:密集连接网络和快速下采样网络。

请参考图3,如图3所示,本申请所提出的卷积神经网络模块CNN-Module采用双分支卷积神经网络进行图像预处理和图像特征提取,这对于基于无监督学习的高质量图像恢复任务是有效的。

双分支卷积神经模块拥有细节支路和结构支路。输入到视觉自注意力模块处理之前,需要对所有待处理的图像先进行卷积操作,得到初始的特征图。然后把初始特征图分别送入细节支路和结构支路。

其中,上方支路是密集连接网络,有利于充分利用浅层特征,避免训练时梯度消失,主要用于提取图像中的细节信息;下方支路是快速下采样网络,缩小特征图大小的同时,增加特征图的数量,主要用于提取图像中的结构信息。两个卷积网络支路相辅相成,做图像预处理的同时,也提取了两幅图像的不同信息。两个支路最终输出的特征图大小一致,通道数也一致。连结过后,方便送入下一步处理。

所述密集连接网络具体指:网络中所有层的输入与之前所有层的输出连接,如下式:

X

其中,F

需要说明的是,细节支路的作用是在输入图像中尽量多地抽取图像的纹理信息。所以本申请把网络上方的细节支路修改为密集块结构(也即密集连接网络),并把层数设计成4层。参考图3细节支路所示,所有层的输入与之前所有层的输出连接。

即第p层的输出为X

另一方面,对于输入图像不仅需要细节信息,还需要利用结构支路提取图像的结构信息。为了得到图像的全局信息,本申请设计了一个快速下采样网络结构,也被叫作结构支路。具体结构如图3下方支路所示,对输入得到的特征图进行快速下采样,并且在进行这个操作的同时,增加特征的通道数,一共有三层。最后再将特征图上采样到原始尺寸,方便与细节支路的特征相对接。原始图像经过并联网络后,可以得到两组特点不同的特征图,然后将两组特征图连结,送入下一个模块做进一步处理。

步骤S2中得到特征图的具体过程为:

S21:将红外图像和可见光图像进行配准处理,得到预设尺寸的输入图像;

S22:将输入图像经过一个卷积层,得到初始特征图;

S23:将初始特征图分别输入至密集连接网络和快速下采样网络,分别得到图像的细节特征和结构特征;

S24:将所述细节特征和结构特征进行连接,得到特征图。

作为一种实施例,训练阶段,红外图像和可见光图像首先做配准处理,然后将其尺寸设置为256×256,预设图片大小的好处是方便后续ViT-Module的进一步操作。然后,将输入图像送入初始的卷积层,最终得到16幅特征图。再然后,把这些特征图分别拷贝,将他们放入细节支路和结构支路里。在细节支路里,包含了四个卷积层,配合密集连接进行操作。让最终的特征图大小和输入图大小保持不变,中间的特征图通道数分别为8,16,24和32;在结构支路里,我们同样先是使用了四个卷积层,此时的步长设计为2。中间的特征图通道数分别为32,16和8,最后通过上采样,再把通道数变成32,让通道数与前者的细节支路保持一致,达到快速下采样的目的。结构分支的最后层,最后利用图像处理的双线性结构对特征图进行上采样操作,将其大小扩大8倍。

所述卷积神经网络模块采用MISH函数作为激活函数。

需要说明的是,在图像处理领域,ReLU经常作为激活函数。但是普通ReLU函数负半轴是0,即直接不使用负激活,也就丢失了一半的信息。这样丢弃信息的ReLU函数,更适用于图像分类和分割任务,但是在图像重建领域不适宜这样做。

于是本申请使用LeakyReLU激活函数类似的MISH函数来弥补这个缺陷,其负半轴保留了负激活。在本网络中所使用的MISH函数特点是对误差有抑制作用,相比LeakyReLU激活函数,它的曲线更光滑,更适合图像重建。公式如下:

Mish(x)=x·tanh(ln(1+e

上式中,x为特征图中的像素点,经过MISH函数处理,保留了负半轴的激活信息。

请参考图4,图4是视觉自注意力模块结构图;所述视觉自注意力模块包括:通道视觉自注意力单元和空间视觉自注意力单元。

需要说明的是,从上一个卷积神经网络模块模块所输出的特征图大小256×256,层数为64层。

将这组特征图输入到视觉自注意力模块中,分别进行通道视觉自注意力(ChannelTransformer)操作和空间视觉自注意力(SpatialTransformer)操作。这一操作所输出的64层VisionTransformer权重图(Map)再分别与原特征图进行点乘操作,再将计算所得结果输入给图像重建模块,最终可以得到融合图像。

请参考图5,图5是VisionTransformer的主体框架示意图;

请参考图6和图7,图6为空间视觉自注意力单元的处理流程图;图7为通道视觉自注意力单元的处理流程图;

需要说明的是,图5中现有的Vision Transformer应用于分类任务中,使用了一个分类符号(CLS Token),目的是用于输出最终的图片分类结果,但是本任务中更倾向于生成融合图像,所以本申请直接舍去了增加CLS Token操作,避免了不必要的计算。除此之外,本申请不仅使用了传统的空间视觉自注意力(Spatial Transformer)操作,还加上了通道视觉自注意力(Channel Transformer)操作,进一步提取图像中的多层信息。

参考图6,Spatial Transformer是对每一层的特征图进行自注意力操作,其结果代表的是特征图上的相互关系,提取每张特征图的长相关性;

参考图7,Channel Transformer是对所有特征图之间做自注意力操作,其代表的是所有特征图之间的相互关系。加上了Channel Transformer,本申请能够关注到特征图间的相互联系,确保了长相关信息被完整提取到。

所述损失计算模块包括:像素损失函数和特征损失函数。

需要说明的是,图像融合网络的损失函数,主要包括两大部分:其中一项为常规的像素级损失,另外一项为特征图损失。

像素损失函数总体为:

L=αL

其中α、β和γ分别是三个损失函数分量的常系数,用来控制其大小,根据具体的实验来定。MSE损失函数公式如下:

MSE损失函数用来计算均方差,计算输入和输出的平方误差。损失函数MSE可以获得输入图像和重构图像的细节信息损失。但是如果仅仅计算MSE,会导致输出图像过于平滑,丢失了高频的梯度信息,所以,本申请加入了梯度损失函数:

L

其中Gradient(x)是使用拉普拉斯算子对图像进行锐化以获得梯度图。拉普拉斯算子执行数学卷积运算。SSIM计算结构损失,公式如下:

上述为常规的像素损失,而特征损失是通过预训练的VGG19网络,分别处理原图像和融合图像,在不同特征层中计算损失,可以避免像素损失带来的问题。损失函数为绝对值损失函数,公式如下:

S3:利用训练完毕的图像融合网络进行图像融合,得到融合图像。

作为一种实施例,本申请方法与现有先进的红外可见光融合的方法进行定性比较,结果如图8和图9所示;图8是第一组实验对比结果;图9是第二组实验对比结果。

由图8和图9可以看出本申请方法较其他融合方法保留了更多的细节信息,同时具有更多的显著性信息,即表现在图片上的效果为:细节信息保留更多,目标显著性较强。另外,本申请选取了一些定量指标EN、MI和SSIM,结果如下列图10-图12所示;图10是EN定量实验结果;图11是MI定量实验结果;图12是SSIM定量实验结果;

定量结果中,除了EN略逊于第一名之外,其他两项指标较为理想。表明了本方法在保留结构信息和亮度信息上具有优势。

上述实验结果表明,本发明中的网络框架设计合理,通过引入VisionTransformer模型规避了传统卷积神经网络所存在的缺点,最终得到比较理想的融合结果。

本发明的有益效果是:能够生成信息丰富且效果理想的融合图像,融合图像包含更多的细节信息和显著性信息。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120114722325