掌桥专利:专业的专利平台
掌桥专利
首页

一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法

文献发布时间:2023-06-19 13:46:35


一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法

技术领域

本发明涉及计算机视觉领域,特别是涉及一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法。

背景技术

RGB-T图像是由RGB颜色图像和Thermal热红外图像组成。当RGB颜色图像的光线不足或者背景噪声太多,图像显著目标检测的效果往往不尽人意。然而热红外摄像机可以捕捉任何温度超过绝对零度的物体发出的红外辐射,因此Thermal热红外图像对光照条件不敏感,具有较强的抗噪声干扰能力。结合RGB颜色图像和Thermal热红外图像的优势,RGB-T图像显著目标检测逐渐成为研究的热点。

Transformer依靠多头自注意力及前向传播网络在自然语言处理、计算机视觉领域取得了突破性的进展,其在特征的远距离依赖特性提取方面的表现优异。最近SegFormer提出的使用重叠融合来保持切块周围的局部连续性,采用按比例缩减分辨率来减少多头自注意力的计算复杂度,并使用深度卷积来提供位置信息和减少参数量,因此,它可以方便地作为RGB-T图像显著目标检测的编码模型。

RGB-T图像显著目标检测的关键是有效挖掘颜色图像和热红外图像两种模式的信息并实现其融合,双流编码、联合解码是目前已有的RGB-T图像显著目标检测模型采用的主要方式,它偏向于考虑RGB颜色图像和Thermal热红外图像的融合,并没有考虑RGB颜色图像和Thermal热红外图像各自的独特性。

发明内容

本发明所需要解决的技术问题是提供一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性,并通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异,以提高检测性能。

本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,包括以下步骤:

S1、从RGB-T图像中提取RGB特征和Thermal特征,产生RGB初始显著图及Thermal初始显著图;

S2、通过RGB初始显著图及Thermal初始显著图分别对所述RGB特征和Thermal特征进行增强,形成RGB增强特征和Thermal增强特征;

S3、分别对RGB增强特征和Thermal增强特征进行独立解码,产生RGB独立解码特征和Thermal独立解码特征及独立解码显著图S

S4、对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征;

S5、对RGB-T融合特征进行联合解码,形成联合解码显著图S;

S6、利用显著图真值监督所述独立解码显著图S

S7、利用所述RGB-T图像显著目标检测模型检测任意一张RGB-T图像,经过步骤S1-S5,输出联合解码显著图为检测结果。

进一步地,在所述步骤S1中,提取RGB特征和Thermal特征的方法是分别使用两个在ImageNet上预训练的SegFormer神经网络模型提取RGB特征

所述l∈{c,t},表示RGB或者Thermal,Conv

进一步地,在所述步骤S2中,将RGB初始显著图及Thermal初始显著图

所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;

进一步地,在步骤S3中,使用传统的U-Net解码结构,分别对RGB增强特征和Thermal增强特征进行独立解码,具体操作是:第四层RGB独立解码特征和Thermal独立解码特征

所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,Concat(·)表示级联操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;

接着,使用第一层RGB独立解码特征

所述l∈{c,t},表示RGB或者Thermal,Conv

进一步地,在步骤S4中,对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征,具体步骤如下:所述RGB独立解码特征

所述“×”是指逐元素相乘操作,CA(·)操作是指论文《Coordinate Attentionfor Efficient Mobile Network Design》中所提出的通道注意力模块,SA(·)是指论文《CBAM:Convolutional Block Attention Module》中所提出的空间注意力模块,Concat(·)表示级联操作,Conv

进一步地,在步骤S5中,对RGB-T融合特征进行联合解码,形成联合解码显著图S,如图4所示,具体步骤如下:第四层RGB-T融合特征FF

所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,“×”是指逐元素相乘操作;

增强融合特征JF

所述Concat(·)表示级联操作,up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;

接着,通过上采样、3×3卷积、批归一化、ReLU操作、上采样、1×1卷积和Sigmoid激活函数产生联合解码显著图S,具体描述为:

S=Sig(Conv

所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,Conv

与已有技术相比,本发明有益效果体现在:

本发明提出一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,通过独立解码兼顾RGB颜色图像和Thermal热红外图像各自的独特性,并通过联合编码减少RGB颜色图像和Thermal热红外图像二者之间的差异,以提高检测性能。

附图说明

图1为本发明一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法的流程图;

图2为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述独立解码过程;

图3为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述独立解码特征形成RGB-T融合特征的过程;

图4为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法中所述联合解码过程;

图5为本发明实施例中一种独立解码和联合解码相结合的RGB-T图像显著目标检测模型图。

以下通过具体实施方式,并结合附图对本发明做进一步说明,但本发明的实施方式不限于此。

具体实施方式

下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

本实施例一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法,如图1所示,包括以下步骤:

S1、从RGB-T图像中提取RGB特征和Thermal特征,产生RGB初始显著图及Thermal初始显著图;

S2、通过RGB初始显著图及Thermal初始显著图分别对所述RGB特征和Thermal特征进行增强,形成RGB增强特征和Thermal增强特征;

S3、分别对RGB增强特征和Thermal增强特征进行独立解码,产生RGB独立解码特征和Thermal独立解码特征及独立解码显著图S

S4、对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征;

S5、对RGB-T融合特征进行联合解码,形成联合解码显著图S;

S6、利用显著图真值监督所述独立解码显著图S

S7、利用所述RGB-T图像显著目标检测模型检测任意一张RGB-T图像,经过步骤S1-S5,输出联合解码显著图为检测结果。

进一步地,在所述步骤S1中,提取RGB特征和Thermal特征的方法是分别使用两个在ImageNet上预训练的SegFormer神经网络模型提取RGB特征

所述l∈{c,t},表示RGB或者Thermal,Conv

进一步地,在所述步骤S2中,将RGB初始显著图及Thermal初始显著图

所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,“×”是指逐元素相乘操作,“+”是指逐元素相加操作;

进一步地,在步骤S3中,使用传统的U-Net解码结构,分别对RGB增强特征和Thermal增强特征进行独立解码,如图2所示,具体操作是:第四层RGB独立解码特征和Thermal独立解码特征

所述l∈{c,t},表示RGB或者Thermal,up(·)表示上采样操作,Concat(·)表示级联操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;

接着,使用第一层RGB独立解码特征

所述l∈{c,t},表示RGB或者Thermal,Conv

进一步地,在步骤S4中,对所述RGB独立解码特征和Thermal独立解码特征进行初步融合,形成RGB-T融合特征,如图3所示,具体步骤如下:所述RGB独立解码特征

所述“×”是指逐元素相乘操作,CA(·)操作是指论文《Coordinate Attentionfor Efficient Mobile Network Design》中所提出的通道注意力模块,SA(·)是指论文《CBAM:Convolutional Block Attention Module》中所提出的空间注意力模块,Concat(·)表示级联操作,Conv

进一步地,在步骤S5中,对RGB-T融合特征进行联合解码,形成联合解码显著图S,如图4所示,具体步骤如下:第四层RGB-T融合特征FF

所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,“×”是指逐元素相乘操作;

增强融合特征JF

所述Concat(·)表示级联操作,up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作;

接着,通过上采样、3×3卷积、批归一化、ReLU操作、上采样、1×1卷积和Sigmoid激活函数产生联合解码显著图S,具体描述为:

S=Sig(Conv

所述up(·)表示上采样操作,BConv3(·)表示3×3卷积、批归一化、ReLU操作,Conv

进一步地,在步骤S6中,利用显著图真值监督所述独立解码显著图S

进一步地,在步骤S7中,本实施例采用的测试数据集为VT5000数据集上除训练数据集之外的剩余图片及整个的VT821和VT1000数据集。

所述独立解码和联合解码相结合的RGB-T图像显著目标检测方法与7种RGB-T图像显著目标检测方法MTMR[1],M3S-NIR[2],SGDL[3],ADF[4],ECFFNet[5],MIDD[6],MMNet[7]进行对比,结果见表1。

表1实验结果

[1]G.Wang,C.Li,Y.Ma,A.Zheng,J.Tang,and B.Luo,“RGB-T saliencydetection benchmark:Dataset,baselines,analysis and a novel approach,”inChinese Conference on Image and Graphics Technologies.Springer,2018,pp.359–369.

[2]Z.Tu,T.Xia,C.Li,Y.Lu,and J.Tang,“M3S-NIR:Multi-modal multi-scalenoise-insensitive ranking for RGB-T saliency detection,”in 2019 IEEEConference on Multimedia Information Processing and Retrieval(MIPR).IEEE,2019,pp.141–146.

[3]Z.Tu,T.Xia,C.Li,X.Wang,Y.Ma,and J.Tang,“RGB-T image saliencydetection via collaborative graph learning,”IEEE Transactions on Multimedia,vol.22,no.1,pp.160–173,2019.

[4]Z.Tu,Y.Ma,Z.Li,C.Li,J.Xu,and Y.Liu,“RGBT salient object detection:A large-scale dataset and benchmark,”arXiv preprint arXiv:2007.03262,2020.

[5]W.Zhou,Q.Guo,J.Lei,L.Yu,and J.-N.Hwang,“ECFFNet:effective andconsistent feature fusion network for RGB-T salient object detection,”IEEETransactions on Circuits and Systems for Video Technology,2021.

[6]Z.Tu,Z.Li,C.Li,Y.Lang,and J.Tang,“Multi-Interactive Dual-Decoderfor RGB-Thermal Salient Object Detection,”IEEE Transactions on ImageProcessing,vol.30,pp.5678–5691,2021.

[7]W.Gao,G.Liao,S.Ma,G.Li,Y.Liang,and W.Lin,“Unifified InformationFusion Network for Multi-Modal RGB-D and RGB-T Salient Object Detection,”IEEETransactions on Circuits and Systems for Video Technology,2021.

如表1所示可知,本实施例一种独立解码和联合解码相结合的RGB-T图像显著目标检测方法在S-measure、自适应F-measure、自适应E-measure及MAE评价指标上均取得最优的结果。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术分类

06120113806584