掌桥专利:专业的专利平台
掌桥专利
首页

基于层分离和重参数的红外和可见光图像融合方法

文献发布时间:2024-04-18 19:54:28


基于层分离和重参数的红外和可见光图像融合方法

技术领域

本发明涉及计算机视觉领域,尤其是一种基于层分离和重参数的红外和可见光图像融合方法。

背景技术

图像融合作为计算机视觉领域的一项重要的研究,被广泛的应用于遥感、安防和医疗等各个领域。图像融合中尤其以红外和可见光图像融合因其源图像具有跨模态的互补特性而成为一项重要的研究。跨模态的互补特性具体表现为:红外光传感器捕获物体的热辐射信息且不受光照、天气等环境因素的影响,使得图像具有目标显著的优势但存在纹理细节不清晰的问题;与之相反,可见光传感器捕获物体表面的反射光信息,使得图像纹理细节清晰但易受到环境因素的影响而导致目标不显著,不易于检测的问题。目前,红外和可见光图像融合大致可分为传统方法和深度学习方法。传统的方法以多尺度变换和稀疏表示为代表,旨在寻找两种不同模态图像之间的共同特征,然后人为设计相应的融合规则。传统的方法往往需要进行多次耗时的迭代和针对不同的数据集来调整参数。近年来,因深度学习强大的特征表示能力,研究者们成功的将其引入红外和可见光图像融合领域来生成高质量的融合图像。深度学习方法在红外和可见光图像融合领域又可依据是否需要人为设计融合规则分为非端到端模型和端到端模型。非端到端的模型需要人为设计融合规则,而红外和可见光图像之间的融合规则又是一个复杂到人为难以设计的问题。而端到端模型则无需融合规则,通过网络自身的表征能力来融合图像。本发明以端到端模型为研究对象,针对红外和可见光图像的信息相互影响而导致的融合图像显著特征和纹理细节相较源图像退化的问题开展研究。

目前,端到端的红外和可见光图像融合模型主要是通过设计相应的网络结构和最小化融合图像和源图像的结构相似度损失或均方误差损失来实现融合。此类模型的设计能最大化的保留源图像的信息,但是仍然面临着两个问题:(1)如何解决红外和可见光图像的信息相互影响而导致融合图像的显著特征和纹理细节相较源图像退化的问题。(2)如何解决随着网络深度的不断增加导致融合模型部署到终端设备的推理精度和速度难以平衡的问题。

发明内容

本发明的目的在于提供一种基于层分离和重参数的红外和可见光图像融合方法,旨在解决红外和可见光图像的信息相互影响导致融合图像的显著特征和纹理细节相较源图像退化的问题和通过重参数的方式,将多分支的网络结构转换为单分支网络结构实现轻量化部署。

为实现上述目的,本发明提供如下技术方案:

一种基于层分离和重参数的红外和可见光图像融合方法,包括以下步骤:

步骤一、构建重参数融合网络;

步骤二、对重参数融合网络进行训练,其中对于重参数融合网络的训练阶段,设置层分离引导网络,层分离引导网络以红外光图像作为输入,通过自编码器分离出红外光图像中的显著特征并生成引导掩码;引导掩码作为后续的引导融合损失中的一部分,指导重参数融合网络的训练;

步骤三、部署训练好的重参数网络模型;

采用训练好的重参数网络模型对图像进行融合的方法,包括以下步骤:

步骤一、读取红外光图像和可见光图像:

步骤二、重参数融合网络生成灰度融合图像:

步骤三、灰度融合图像转换为RGB图像。

作为本发明进一步的方案:重参数融合网络经过结构转换,将其多分支结构转换为单分支结构后进行部署。

作为本发明进一步的方案:层分离引导网络中的自编码器包含编码器和解码器两部分;

层分离引导网络生成引导掩码的方法包括以下步骤:

步骤1,红外光图像输入到编码器来提取红外光图像的显著特征;

步骤2,将获取的显著特征输入到解码器来生成一张关注红外光图像显著信息的引导图像;

步骤3,通过二值化算法将引导图像转换为引导掩码。

作为本发明进一步的方案:层分离引导网络中的自编码器的编码器是基于RepVGG网络结构设计。

作为本发明进一步的方案:层分离引导网络中的自编码器的解码器是由3个网络层所组成,前2层是由核大小为3×3的卷积层、批归一化层和激活函数Leaky ReLU所组成,用于解码显著特征为解码后的特征;第3层是由核大小为3×3的卷积层、批归一化层和激活函数ReLU所组成,用于将解码后的特征还原为显著信息图像;最后通过图像二值化,生成引导掩码。

作为本发明进一步的方案:层分离引导网络的层分离损失的具体计算方式,包括以下步骤:

步骤1,计算数据集标签与红外光图像的乘积得到标签显著信息图;

步骤2,通过阈值分割获取伪显著信息标签并与红外光图像相乘得到伪标签显著信息图;

步骤3,将标签显著信息图和伪标签显著信息图求并集得到联合标签显著信息图;

步骤4,通过最小化引导图像和联合标签显著信息图的结构相似度损失、最小化引导图像与红外光图像的梯度的均方误差损失作为层分离损失。

作为本发明进一步的方案:训练阶段,重参数融合网络设计有纹理细节保持编码器,提取可见光图像中的纹理细节特征;在纹理细节保持编码器基础上增加重参数位置注意力模块,作为显著特征保持编码器;显著特征保持编码器用于提取红外光图像中的显著目标特征;将纹理细节特征和显著目标特征拼接,输入特征解码器中生成单通道的融合图像。

作为本发明进一步的方案:重参数融合网络的反向传播训练,通过引导融合损失进行约束。

作为本发明进一步的方案:重参数位置注意力模块,用于关注红外特征中的显著区域,对输入的红外光图像特征进行编码和解码。

作为本发明进一步的方案:重参数位置注意力模块,计算显著信息的权重,并将权重和红外光图像特征做矩阵乘积得到显著通道特征,最后将显著通道特征和红外光图像特征进行特征拼接后输出。

作为本发明进一步的方案:重参数融合网络中的引导融合损失的函数包括:可见光纹理细节损失函数、红外光显著信息损失函数、隐藏层信息损失函数;

可见光纹理细节损失函数用于保留可见光图像的纹理细节信息;

红外光显著信息损失函数用于保留红外光图像中的显著目标信息;

隐藏层信息损失函数通过约束梯度细节的方式来保留隐藏层的细节信息。

与现有技术相比,本发明的有益效果是:提出了一个基于层分离和重参数的红外和可见光图像融合方法,将红外光图像输入到层分离引导网络中生成引导掩码;将生成的引导掩码加入到重参数融合网络中作为引导融合损失,来引导红外和可见光图像融合;通过重参数的方式,将多分支的网络结构转换为单分支网络结构实现轻量化部署。

层分离引导网络从红外光图像中分离出显著层并生成引导掩码。引导掩码作为后续的引导融合损失中的一部分,指导重参数融合网络的训练。缓解了融合过程中红外和可见光图像的信息相互影响而导致融合图像的显著特征和纹理细节相较源图像退化的问题,显著地提升了融合图像的质量。

重参数融合网络,部署时通过将多分支网络结构转换为单分支网络结构,能更好的实现推理精度和速度的平衡,满足轻量化部署的要求。

本发明的其他特点和优点将会在下面的具体实施方式、附图中详细的揭露。

附图说明

图1是本发明的基于层分离和重参数的红外和可见光图像融合方法的算法流程图;

图2是本发明的基于层分离和重参数的红外和可见光图像融合方法的算法框架图;

图3是本发明中的层分离引导网络的结构图;

图4是本发明中的层分离演示图;

图5是本发明中的RepVGG结构图;

图6是本发明中的重参数融合网络结构图;

图7是本发明中的基于重参数的位置注意力机制RPA结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参考图1所示,一种基于层分离和重参数的红外和可见光图像融合方法,包括以下步骤:

步骤一、构建重参数融合网络;

步骤二、对重参数融合网络进行训练;

步骤三、部署训练好的重参数网络模型。

其中,对于重参数融合网络的训练阶段,设置层分离引导网络,利用层分离引导网络生成引导掩码I

采用训练好的重参数网络模型对图像进行融合的方法,包括以下步骤:

步骤一、读取红外光图像和可见光图像:

步骤二、重参数融合网络生成灰度融合图像:

步骤三、灰度融合图像转换为RGB图像。

读取红外光图像I

参考图2,基于层分离和重参数的红外和可见光图像融合方法的算法框架图。算法以配准后的红外和可见光图像对作为输入。模型包括层分离引导网络和重参数融合网络两个部分。所有待融合的红外光图像、可见光图像都必须要配准。通过配准使红外光图像和可见光图像对齐。

引导掩码I

为了对本发明进行更好的说明,以下以公开的图像融合数据集M3FD为例进行阐述。

参考图3,层分离引导网络的结构图,展示了分离引导网络从红外光图像中分离出显著层并生成引导掩码的具体方法。针对红外和可见光图像的不同特性,在其融合过程中为其分配不同权重,能有效的缓解融合图像的显著特征和纹理细节相较源图像退化的问题。为此,本发明提出层分离引导网络,用于从红外光图像中分离出显著层并生成引导掩码。引导掩码I

层分离引导网络生成引导掩码的方法包括以下步骤:

步骤1,红外光图像I

步骤2,将获取的显著特征

步骤3,通过二值化算法将I

对于层分离引导网络的分离思想,参考图4,以红外光图像为基准可将其划分为显著层、模糊层、隐藏层。显著层以图中行人为例,指红外图像中目标亮度突出部分;模糊层以图中杂草为例,受红外传感器限制,捕获的场景信息天然有一种模糊的噪声,而模糊层是指覆盖在图像中的模糊核;隐藏层以图中山峰为例,指红外图像中的有别于显著层和模糊层的纹理细节特征,而这部分纹理细节特征又与显著层和模糊层耦合。为此,本发明中的层分离思想旨在分离出红外光图像中的显著层和隐藏层,并将这两者与可见光图像融合,实现生成高质量的融合图像。

参考图3和图5,层分离引导网络中编码器是基于RepVGG网络结构设计,用于提取红外光图像中的显著特征。参考图3,编码器是由步长stride均为1的一层DVB、2层TVB、一层DVB、3层TVB所组成。DVB和TVB的具体结构如图5所示,DVB是由核大小为3×3卷积层、批归一化层BN和1×1的卷积层、批归一化层BN并联,再输入到ReLU激活函数。TVB是在DVB的基础上增加一个批归一化的支路。其中,Identity是一个标识,没有具体的网络结构。

参考图3,层分离引导网络中解码器结构,是由3个网络层所组成,前2层是由核大小为3×3的卷积层、批归一化层BN和激活函数Leaky ReLU所组成,用于解码显著特征

层分离损失的具体计算方式,包括以下步骤:

步骤1,计算M3FD数据集标签Bin

步骤2,通过阈值分割获取伪显著信息标签Bin

其中,Bin

其中,针对M3FD训练集,设置T=2,为总迭代次数。τ表示当前的迭代轮次。W和H表示图像的宽和高。(i,j)表示像素坐标。

简单理解是针对具体训练集做循环迭代,来得到一个初始估计。使得层分解网络的反向传播,能够更接近我们需要的结果。

步骤3,将标签显著信息图Map

步骤4,通过最小化引导图像I

层分离损失L的具体公式为:

其中

L

上式中SSIM表示结构相似度,用于衡量两张图像的结构、亮度和对比度的相关性。其中,X,F分别表示两张图像;x,f分别对应X,F的像素值;σ

C

L

/>

上式中W,H分别表示图像的宽度和高度。

i,j表示序号,分别对应宽度和高度上的序号;(i,j)为坐标位置,X(i,j)为(i,j)处的像素值。

L

上式中W,H分别表示图像的宽度和高度;||·||

参考图6,重参数融合网络结构图。重参数融合网络是一个端到端的网络结构模型,以配准后的红外光图像I

参考图7重参数位置注意力模块RPA,用于关注红外特征中的显著区域。RPA用于对输入的红外光图像特征f

计算显著信息的权重w的编码阶段的步骤包括:

步骤1、编码阶段先对红外光图像特征f

步骤2、对通道特征

步骤3、通过依次通过步长stride为1的DVB、步长stride为2的DVB下采样、步长stride为1的TVB得到编码后的特征权重

计算显著信息的权重w的解码阶段的步骤包括:

步骤1、解码阶段先采用核大小为3×3的卷积层、上采样因子为2的像素重组PixleShullfer×2、激活函数Sigmoid对特征权重

步骤2、通过残差连接的方式将第一次DVB编码后的特征补充到

步骤3、对

其中,重参数融合网络中设计的引导融合损失具体细节如下:

重参数融合网络中的引导融合损失的函数包括:可见光纹理细节损失函数L

具体的损失函数为下面3个,其中引导掩码参与了红外光显著信息损失函数L

可见光纹理细节损失函数L

L

红外光显著信息损失函数L

隐藏层信息损失函数L

将重参数融合网络多分支结构转换为单分支结构的具体方法如下:

采用重参数的方式将重参数融合网络中DVB和TVB的多分支结构转换为SVB单路结构。其中DVB、TVB、SVB的结构分别参考图5中的(a)(b)(c)。

轻量化部署的具体细节如下:

受硬件设备的限制,复杂的端到端模型很难满足终端设备的快速推理要求。为此,采用轻量化部署方式。在训练阶段,层分离引导网络从红外光图像中分离出显著层并生成的引导掩码I

为验证本发明的有效性和鲁棒性,本发明在M3FD数据集上进行训练,在TNO数据集、RoadScene数据集、M3FD数据集上进行测试。训练样本是为了训练模型,使得模型的权重参数达到最优。但是,在机器学习中,在某个数据集达到最优,往往不一定能在其他数据中也表现良好,因为不同数据集的采集设备、时间地点都不一样,导致结果区别较大,即泛化性或者鲁棒性。为此,需要在多个数据集中进行测试。训练集样本和测试集样本,测试时候是没有区别的。

TNO数据集包含不同军事场景下的夜景图像,随机选择42对配准后的红外和可见光图像对进行测试。RoadScene数据集来自FLIR视频中的街道场景,选择全部的221对配准后的红外和可见光图像对进行测试。M3FD数据集拥有4200对大小为1024×768配准的红外和可见光图像对,选择300对有代表性的场景的配准后的红外和可见光图像对进行测试。场景风格包含四种类型:白天、阴天、夜间、具体挑战性的场景,具体还可细分为十个子场景:自然、街景、海景、校园、十字路口、公共散步场所、伪装场景、烟雾场景、恶劣天气、强光。M3FD数据集还对行人、汽车、公共汽车、摩托车、交通灯、卡车进行了人工标注。

表1是M3FD数据集在实验过程中的参数设置,包括训练样本数、验证样本数、图片大小。

表1 M3FD数据集实验参数设置

表2和表3为本发明提出的一种基于层分离引导和重参数的红外和可见光图像融合方法,在TNO测试集、RoadScene测试集、M3FD测试集上指标的结果。其中,表2是模型未轻量化的测试结果。表3是模型轻量化后的测试结果。表2和表3说明本发明在TNO、RoadScene、M3FD数据集均取得较高的融合结果,这表明本发明提出的融合方法拥有很好的图像融合能力。

表2重参数融合网络未轻量化在TNO、RoadScene、M3FD上的测试结果

表3重参数融合网络轻量化后在TNO、RoadScene、M3FD上的测试结果

表4为重参数融合网络轻量化部署前后的网络结构的参数大小,和分别在TNO、RoadScene、M3FD数据集中处理一对配准后的红外和可见光图像所需的时间。

表4重参数融合网络轻量化前后在TNO、RoadScene、M3FD上的测试结果

/>

为了验证本发明在其他视觉任务的增益效果,分别在M3FD的300张测试集上验证目标检测任务的精确度、RegDB数据集上验证跨模态行人重识别任务的精确度。RegDB数据集包含412个行人身份,每个行人包含10对红外和可见光图像。表5和表6说明本发明在目标检测任务和行人重识别任务均取得较高的准确度,这表明本发明提出的融合框架对其他视觉任务具有增益作用。

表5重参数融合网络在M3FD数据集上的目标检测mAP@.5指标结果

表6重参数融合网络在RegDB数据集上的跨模态行人重识别的指标结果

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

相关技术
  • 细丝绕线机
  • 细丝绕线机
技术分类

06120116372127