掌桥专利:专业的专利平台
掌桥专利
首页

一种基于改进U形网络的红外与可见光图像融合模型

文献发布时间:2024-04-18 19:59:31


一种基于改进U形网络的红外与可见光图像融合模型

技术领域

本发明涉及图像融合技术领域,具体涉及一种基于改进U形网络的红外与可见光图像融合模型。

背景技术

现有基于深度学习的红外与可见光图像融合模型普遍为单一尺度模型,存在信息提取不全面的缺点。U形网络基于多尺度视角对源图像进行分析,可充分提取图像不同尺度的特征,相较单一尺度模型信息提取更全面。此外,现有模型普遍采用卷积神经网络,局部特征提取能力较强而全局特征提取能力较弱,反映到融合图像则是容易保留小范围细节纹理而丢失大范围连续纹理。而ConvNext的感受野较大,更擅长保留大范围连续纹理,但其提取小范围细节纹理的能力较弱。

发明内容

为解决进一步丰富融合图像的语义信息,克服单一分支编码器某一层次特征提取能力不足的困难,将卷积块与ConvNext结合并运用于U形网络中,克服现有模型特征提取不全面的缺点,本发明提供一种基于改进U形网络的红外与可见光图像融合模型。

本发明的技术方案:

一种基于改进U形网络的红外与可见光图像融合模型,为自编码器网络,由编码器、解码器和融合层构成;编码器共有两个,分别分析红外图像和可见光图像,生成各自的特征图,两个编码器共享权值,权值在训练时由同一个编码器得到,融合层采用基于L1Norm和灰度控制的融合策略,接受两组特征图并分别计算出权值,最后求两组特征图的加权平均和实现融合。

优选的,编码器采用三层结构,第一层由DA模块构成,作为网络的主分支使用,第二层和第三层分别是两个ConvNeXt阶段,组成具有两层结构的辅助分支,从低层到高层,每一层输入均由上一层的输出下采样2倍得到,下采样方式是最大池化。

优选的,编码器DA模块采用了DenseNet结构,并在DenseNet里的每一个卷积块后面都加入了CBAM模块,DenseNet是一种特征提取网络,每一层采用3×3卷积块,且每一层都连接,用于提取图像的低层特征,CBAM模块从通道和空间上拉开特征之间的差异,也加入到DenseNet当中使用。

优选的,编码器中一个ConvNeXt阶段由一个1×1卷积层和两个ConvNeXt子块构成。具体过程就是ConvNext的子块数量从1增加到2。

优选的,解码器中除第一层外,每一层都需要上采样,并与上一层特征图进行通道串联,实现信息交流,上采样方式是最近邻插值法,包括CB块。

优选的,解码器CB块由两个卷积层构成,第一个卷积层使用3×3卷积,输出通道数为输入通道数的一半,第二个卷积层使用1×1卷积。

优选的,权值在训练时,不加入融合层,且只使用一个编码器和一个解码器,训练编码器的图像分析能力和解码器的图像重建能力。

优选的,融合策略为:如果在两组特征图同一通道同一位置的两个元素中取它们的最大值,那么输出的将是两组特征图同区域灰度最高的部分,公式(1)是取两幅特征图各通道各位置元素最大值的公式;

Φ

其中Φ

优选的,带有灰度调整的L1 Norm融合策略:取最大值算法作为灰度调整因子,与L1 Norm融合策略按照权值相加,L1 Norm融合策略是在特征图的空间域上赋予二维活动水平矩阵,由二维活动水平矩阵得到特征图的权值矩阵,最后对红外特征图和可见光特征图计算加权平均和得到融合图像的特征图。活动水平矩阵可由公式(2)得到:

其中C

其中C

Φ

其中Φ

其中Φ

优选的,为了网络模型能够正确地对源图像进行分析和重建,对融合后的模型进行修订,引入损失函数,损失函数的定义如公式(7):

L=L

其中L

L

其中O表示网络模型输出的图像,I表示输入到网络模型当中的图像;结构相似度损失L

L

其中SSIM(·)表示结构相似度算子。结构相似度的简化计算公式如公式(10):

其中μ

本发明的有益效果:

本发明一种基于U形神经网络的红外与可见光图像融合模型,将源图像的特征分为低层特征和高层特征,并分别针对不同层次的特征,设计了不同的编码器结构。相较于单一分支的编码器,本发明提出的网络模型在保证强大的低层特征提取能力的基础上,还可以进一步丰富融合图像的语义信息,一定程度上克服了单一分支编码器网络的某一层次特征提取能力不足的困难。在融合策略上,本发明增加了灰度调整因子,能够针对不同的测试图像数据集进行灰度上的补偿或者抑制,进一步将源图像里最有意义的部分突显。此外,由于本发明提出的网络模型仍然以卷积神经网络为主,因此计算开销也较低,大大提高了效率。实验结果表明,本发明提出的网络模型能够较好地完成红外与可见光图像融合的任务。

附图说明

图1为本发明基于U形神经网络的红外与可见光图像融合整体模型图;

图2为本发明编码器模型图;

图3为本发明解码器模型图;

图4为本发明DA模块结构图;

图5为本发明ConvNeXt一个阶段的结构图;

图6为本发明CB块结构图;

图7为本发明ConvNeXt子块的结构图;

图8为本发明网络训练时的结构图;

图9为本发明实施例不同灰度调整方式在TNO数据集“房屋入口”场景的融合图像;

图10为本发明实施例不同灰度调整方式在M3FD数据集“被烟雾挡住的人和车”场景的融合图像;

图11为本发明实施例不同编码器网络在TNO数据集“湖畔”场景的融合图像;

图12为本发明实施例不同编码器网络在M3FD数据集“被烟雾挡住的人和车”场景的融合图像;

图13为本发明实施例7种图像融合算法在TNO数据集“房屋前”场景里的融合图像;

图14为本发明实施例7种图像融合算法在M3FD数据集“被烟雾挡住的人和车”场景里的融合图像。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。

本发明所采用的网络模型为两阶段模型,因此整体的网络结构是用于测试时的模型。本发明所采用的网络模型如图1所示。该网络是一种自编码器网络,网络由编码器、解码器和融合层构成。编码器共有两个,分别分析红外图像和可见光图像,生成各自的特征图。两个编码器共享权值,权值可在训练时由同一个编码器得到。融合层采用基于L1 Norm和灰度控制的融合策略,接受两组特征图并分别计算出权值,最后求两组特征图的加权平均和实现融合。

图2是该网络的编码器结构。受TransUNet的启发,基于本发明前言所述情况,编码器采用三层结构。第一层由DA模块构成,作为网络的主分支使用。第二层和第三层分别是两个ConvNeXt阶段,组成具有两层结构的辅助分支。从低层到高层,每一层输入均由上一层的输出下采样2倍得到,下采样方式是最大池化。

图3是解码器结构。解码器端采用与UNet++类似的模型结构。解码器中除第一层外,每一层都需要上采样,并与上一层特征图进行通道串联,实现信息交流。上采样方式是最近邻插值法。

图4是DA模块的结构示意图。DA模块是本发明网络编码器的主要分支,采用DenseNet结构,并在DenseNet里的每一个卷积块后面都加入了CBAM模块。DenseNet已经被证明是一种性能强大的特征提取网络,每一层都采用3×3卷积块,且每一层都密集连接,非常适合提取图像的低层特征。CBAM模块可以从通道和空间上拉开特征之间的差异,因此也适合加入到DenseNet当中使用。

图5是本发明所使用的ConvNeXt一个阶段的示意图。依次由一个1×1卷积层和两个ConvNeXt子块构成。

图6是本发明所使用的ConvNeXt子块的示意图。依次由一个7×7深度可分离卷积、一个LN层、一个全连接层、一个GeLU单元和一个全连接层构成。

图7是CB块的结构。CB块由两个卷积层构成,第一个卷积层使用3×3卷积,输出通道数为输入通道数的一半,第二个卷积层使用1×1卷积。

图8是训练时的网络结构。在训练时,不加入融合层,且只使用一个编码器和一个解码器。训练编码器的图像分析能力和解码器的图像重建能力。

本发明训练时的网络结构如表1所示。

表1本发明训练时的网络结构

实施例

1.1实验设备和评价方法

1.1.1实验设备

本发明实验使用的硬件设备是Intel Core i5 12400 CPU和NVIDIA GeForceRTX3060显卡,操作系统是Windows 11 Professional 22H2版,编程语言是Python 3.9,采用PyTorch 1.10.1深度学习框架。客观评价指标在Matlab R2021b软件上计算得到。

1.1.2实验数据集和参数设置

本发明实验的训练数据集采用MS-COCO 2014图像数据集,训练时选取该数据集里的20000张图片,并将图片的尺寸缩减至256×256进行训练。在模型训练过程中使用自适应动量优化器(Adaptive Momentum Optimizer,Adam)对网络参数进行优化。损失函数里的结构相似度损失权值λ设置为100。训练时的批大小(Batch Size)设置为4,训练轮次(Epoch)设置为100。

本发明实验的测试数据集采用TNO数据集和M3FD数据集。TNO数据集和M3FD数据集均包含了不同场景之下已配准的红外图像和可见光图像数据。测试时从TNO数据集里选取21对图像,尺寸从360×270到768×576不等,从M3FD数据集里选取10对图像进行测试,尺寸均为1024×768。融合图像尺寸与源图像尺寸保持一致。进行客观评价时,对TNO数据集的21张融合图像和M3FD数据集的10张融合图像全部进行计算,并分别求出平均值。5个评价指标的值均越大越好。

1.1.3图像评价方法

本发明实验对测试图像进行主观评价和客观指标评价。主观评价挑选若干张具有代表性的融合图像进行。客观评价使用以下5个评价指标:图像信息熵(En)、无参考图像结构相似度(SSIM

1.2消融实验

1.2.1灰度调整策略的研究

本发明将研究融合策略中的灰度调整因子权值α对融合图像产生的影响,即采用灰度补偿、不调整灰度和灰度抑制方式对融合图像产生的效果。本实验将在两个测试数据集上进行测试。实验时,使用带有CBAM的DA模块作为编码器的主分支,辅助分支使用两层ConvNeXt块,以控制变量。

本次实验选取了TNO数据集里的“房屋入口”场景图像和M3FD数据集里的“被烟雾挡住的人和车”场景图像作为融合图像主观评价的代表图像。

如图9所示,采取灰度补偿的方式对图像整体的效果提升要好于不调整和灰度抑制。α=1时,树根旁的叶子,保留了更多的可见光图像纹理,房屋入口旁的牌子的目标更明显。

如图10所示,采取灰度抑制的方式对图像整体的效果提升要好于灰度补偿和不调整。α=-1时,整幅图像的纹理细节最丰富,尤其是左下角的草地和左侧被烟雾挡住的山脚的纹理,天空的细节也最多。采用灰度补偿方式时,左下角草地和左侧山脚的纹理变得比较模糊,天空的细节也较少,显得比较混沌。

下面是不同灰度调整方式在两个测试数据集上的客观指标平均值对比,字体加粗为最优值,加下划线为次优值。

表2不同的灰度调整方式在TNO 21对图片上的客观指标平均值

表3不同的灰度调整方式在M3FD 10对图片上的客观指标平均值

如表2所示,对于TNO测试数据集而言,采用灰度补偿方式取得了4个最优值。说明TNO测试数据集的多数源图像纹理细节不够突出,或者某一源图像的场景亮度较低。虽然采用灰度补偿方式导致了SSIM

如表3所示,对于M3FD测试数据集而言,采用灰度抑制方式取得了3个最优值和1个次优值。说明M3FD测试数据集的多数源图像可能存在比较强烈的强光或者烟雾等灰度值较高的干扰。结合主观评价来看,虽然采用灰度抑制方式导致了SD指标的下降,在主观上也对应了融合图像对比度的降低,但融合图像的细节更丰富。因此M3FD测试数据集更适合采用灰度抑制的调整方式。

1.2.2编码器网络的研究

本发明将研究不同的编码器网络主分支和辅助分支对融合图像产生的影响。在进行编码器网络研究的时候,对TNO测试数据集采用带有灰度补偿的L1 Norm融合策略,对M3FD测试数据集采用带有灰度抑制的L1 Norm融合策略以控制实验变量。

本实验将对比只有DA主分支、只有ConvNeXt主分支、主辅分支全部采用CB块、采用DA主分支与CB块辅助分支、采用DA主分支与ConvNeXt辅助分支时的融合图像效果。

本次实验选取了TNO数据集里的“湖畔”场景图像和M3FD数据集里的“被烟雾挡住的人和车”场景图像作为融合图像主观评价的代表图像。

如图11所示,仅有ConvNeXt主分支的融合图像效果是最差的,远处长椅与背景植被的纹理对比不如其他编码器明显,湖中水草和远处岸边矮树的纹理比较模糊。这是因为ConvNeXt不擅长保留小尺寸的特征,灰度调整因子不能正确提高小尺寸物体的灰度,反而使融合图像的视觉效果变差。主分支和辅助分支全部使用CB块时,湖中水草和远处岸边矮树的纹理比较模糊,整幅图像泛白。将主分支改为DA之后,泛白现象消除。采用DA主分支和ConvNeXt辅助分支,水草和矮树纹理的亮度进一步提高,与其周围物体的对比也更明显。

如图12所示,仅有ConvNeXt主分支的融合图像效果也是最差的,原因也是ConvNeXt对局部信息的提取能力不足,导致在应用灰度抑制策略的时候,红外图像纹理的灰度也一起被降低了,使得图中山脚到山顶的植被纹理变得一片漆黑。对比其他四种结构的融合图像,全CB块消除烟雾干扰的能力较弱,仅有DA主分支的消除烟雾干扰的能力较强,但天空纹理的对比度不够高,另外两种结构能够较好地消除烟雾的影响,也能提高天空纹理的对比度。说明天空纹理的正确识别更依赖于编码器的高层特征提取能力。

下面是不同的编码器网络在两个测试数据集上的客观指标平均值对比,字体加粗为最优值,加下划线为次优值。

表4不同的编码器网络在TNO 21对图片上的客观指标平均值

表5不同的编码器网络在M3FD 10对图片上的客观指标平均值

如表4和表5所示,带有2层ConvNeXt辅助分支的DA模块主分支在TNO测试数据集上取得了3个最优值,在M3FD测试数据集上取得了2个最优值和1个次优值。虽然在SSIMa和Q

1.3对比实验

本发明将本发明提出的图像融合方法与已有的6种融合方法进行对比。参与对比的6种其他融合方法分别是RP、CVT、FusionGAN、IFCNN、DeepFuse和SDNet。

本次实验选取了TNO测试数据集里的“房屋前”场景图像和M3FD测试数据集里的“被烟雾挡住的人和车”场景图像作为融合图像主观评价的代表图像。

图13是7种图像融合算法生成的“房屋前”场景的融合图像。RP算法的融合图像噪点多,视觉干扰严重,对比度偏低,场景背景的天空无云处不仅发暗,且噪点密布,图像下方几乎看不出道路与路牌下地面的交界。CVT算法的融合图像伪影多,对比度偏低,场景背景的天空和屋顶的交界处有明显的伪影,道路与路牌下地面的交界也比较模糊。FusionGAN算法的融合图像整体亮度偏低,图像不清晰,已经无法看出道路与路牌下地面的交界。IFCNN算法的融合图像整体泛白情况严重,对比度偏低,道路与路牌下地面的交界比较模糊,但可以看出图像左上窗户玻璃的纹理与旁边玻璃纹理的不同。SDNet算法融合图像的天空色彩不正常。DeepFuse和本发明算法的视觉效果相较于前5种融合算法的融合图像来说较好。相较于DeepFuse算法,本发明算法的融合图像中背景天空的无云处更通透,天空下方远处的房顶纹理细节更丰富,左上窗户玻璃纹理与旁边玻璃纹理的不同也可以看出来。

图14是7种图像融合算法生成的“被烟雾挡住的人和车”场景的融合图像。RP算法的融合图像纹理细节较多,但不够清晰,左下角草地的轮廓比较模糊。CVT算法的融合图像伪影较多,且整个图像的对比度偏低,也无法看出左下角草地的轮廓。FusionGAN算法的融合图像保留了较多的红外图像纹理细节,可以看到左下角草地的样貌,但整幅图像非常模糊。IFCNN算法受烟雾干扰比较严重,其融合图像已经无法看到左下角草地的样貌,中间汽车的轮廓也被烟雾遮挡得比较严重。DeepFuse、SDNet保留的纹理细节较多,左下角草地的轮廓较为清晰。本发明算法受烟雾干扰较小,左下角草地的轮廓也比较清晰,且整幅图像的色调并没有因保留较多红外图像的纹理而变得异常(如背景的天空处),对比度也要高于其他方法的融合图像,融合图像的通透度很高。

下面是不同的融合方法在两个测试数据集上的客观指标对比。字体加粗为最优值,加下划线为次优值。

表6不同的融合方法在TNO 21对图片上的客观指标平均值

表7不同的融合方法在M3FD 10对图片上的客观指标平均值

如表6和表7所示,本发明的图像融合算法在两个测试数据集上均取得了大部分指标的最优值。结合主观评价来看,本发明的算法所能保留的纹理细节较多,除保留源图像的高层特征以外,还更多保留源图像的低层特征。综上可以认为本发明算法优于参与对比的其他算法。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

技术分类

06120116525778