掌桥专利:专业的专利平台
掌桥专利
首页

一种基于跨模态特征融合的RGB-D图像显著性目标检测方法

文献发布时间:2023-06-19 11:44:10


一种基于跨模态特征融合的RGB-D图像显著性目标检测方法

技术领域

本发明涉及深度学习图像处理技术领域,尤其涉及到一种基于跨模态特征融合的RGB-D图像显著性目标检测方法。

背景技术

显著性目标检测(SOD)旨在将图像中最显著的物体与背景分离出来。显著性目标检测已经应用在了各种计算机视觉任务中,比如图像理解,图像分割,目标追踪,图像压缩,等等。近些年,深度信息 (Depth)的普及使得RGB-D图像的显著性检测性能不断提升,人们通过互补Depth和RGB两种模态下不同的特征信息来提高显著性检测的性能。

早期的RGB-D显著性目标检测方法采用早期融合策略将外观信息和深度线索结合在一起。但RGB和Depth两种模态存在很大的差异性,传统的方法很难将它们很好的融合。随着卷积神经网络(CNN) 的兴起,人们越来越多的将深度学习技术应用在RGB-D显著性目标检测上,并取得了很好的结果。2019年,Zhao等人(J.Zhao,Y.Cao, D.Fan,et al.ContrastPrior and Fluid Pyramid Integration for RGBD Salient Object Detection,in:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2019,pp. 3922-3931)使用一种新型的流式金字塔结构,更好地利用多尺度跨模态特征。2020年,Fan等人(D.Fan,Y.Zhai,A.Borji,et al. BBS-Net:RGB-D SalientObject Detection with a BifurcatedBackbone Strategy Network.2020)利用RGB-D显著目标检测固有的多模态和多层次的特性来开发一种新的级联细化网络,以一种互补的方式融合了RGB和Depth模式。

尽管近些年基于CNN的RGB-D显著性检测方法与传统的RGB-D显著性检测方法相比有了很大的进步,但它们在跨模态特征融合及对 Depth的特征提取仍有不足之处。所存在的问题主要有:由于RGB和 Depth两种模态存在差异,直接级联或简单融合RGB和Depth跨模态策略并不能充分利用Depth提供的深度线索。

发明内容

针对现有技术不足,本发明的目的在于提供一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,解决背景技术中的问题。

本发明提供如下技术方案:

一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,包括:

步骤1、基于跨层连接方式的U-Net网络,将RGB和Depth分别输入到ResNet-50主干网络中提取图像特征,其中RGB图像提取出五个阶段的特征分别为R1、R2、R3、R4、R5;Depth图像提取出五个阶段的特征分别为D1、D2、D3、D4、D5;

步骤2、将两种模态下顶层特征R5和D5输入到跨模态通道细化模块中获取跨模态特征RD;将Depth模态下的D1~D5和RD通过跨模态引导模块引导RGB进行特征提取;

步骤3、将RGB模态下的R1~R5和RD通过残差自适应选择模块进一步保留图像的前景显著信息,丢弃有干扰的背景信息,得到U1、 U2、U3、U4、U5;通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。

优选的,所述跨模态通道细化模块通过充分提取和融合R5和 D5两种模态特征,获取具有丰富语义信息的跨模态综合特征RD,由于RGB和Depth输入源具有相同数量的通道,并且在主干网络中也具有相同的处理,所以顶层特征R5和D5具有相同的尺度大小。

优选的,所述相同空间尺度大小的R5和D5作为跨模态通道细化模块的输入特征,两个输入特征在经过简单的权重层编码操作之后,通过图像像素的乘法操作增强特征中的公共像素,减小模糊的像素,为了学习输入特征残差,将经过编码的输出和乘法操作的输出进行图像像素相加,公式如下:

其中,

优选的,在经过像素相乘和像素相加操作之后,得到丰富特征f

优选的,采用四个结构相似的跨模态引导模块,逐步引导 ResNet-50对RGB输入图像的特征提取;以最高层的跨模态引导模块为例,特征D4和特征RD作为跨模态引导模块的输入,每次得到跨模态引导模块的输出特征用于引导RGB图像特征提取和作为输入反馈给下一个跨模态引导模块,采用双线性插值法对RD上采样操作,使得D4和RD具有相同的尺度大小,采用乘法操作对两个输入特征进行相乘操作得到特征P,P作为跨模态融合模块的输入特征,先用 1×1卷积对输入特征P进行操作,降低输入特征的通道数,减少运算参数。整个跨模态融合模块分为五个分支,其中四个分支采用4种不同的扩张率r(r=1,2,4,8)的扩张卷积层

其中,up为双线性插值上采样操作,

优选的,另外一条分支采用通道注意力对特征P进行权重处理,得到输出特征U

其中,W、H分别为特征图的长、宽,f

优选的,残差自适应选择模块通过计算每个位置的选择注意权重来选择相互注意的权重,以最高层的残差自适应选择模块具体来说, RGB图像特征提取的顶层R5和跨模态通道细化模块得到的特征RD 作为残差自适应选择模块的输入特征,先分别采用卷积核大小为1×k 和k×1并联的卷积层来捕获高分辨率的空间关注点得到X1和X2,然后我们通过元素串联、sigmoid和1×1卷积处理RD和R5,并将其输出特征与X1和X2经过sigmoid的特征元素相乘,得到两组选择性的自适应特征,并将这两组特征分别与X1和X2经过sigmoid的特征元素相加,随后经过1×1得到特征Y1和Y2,最后我们通过残差连接将X1和X2的特征信息与Y1和Y2连接在一起,并得到输出特征 S1。

优选的,将五个残差自适应选择模块生成的S1~S5特征输入到网络的解码过程中,并分别与上一层的上采样输出进行元素相加操作,得到U1~U5特征,最终通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。

与现有技术相比,本发明具有以下有益效果:

(1)本发明一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,不仅能够充分利用Depth信息提供的深度线索,而且设计的跨模态通道细化模块能够增强RGB和Depth两种模态下的特征融合,增强模型对各个通道特征的辨别能力。

(2)本发明一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,设计的跨模态引导模块能够进一步将Depth模态的特征信息应用于RGB特征提取上,而且设计的残差选择注意模块能够增强不同模态特征之间的空间相互关注点,与现有的RGB-D显著性检测方法相比具有良好的性能。

附图说明

为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明的总体网络框图。

图2为本发明的跨模态引导模块。

图3为本发明的残差自适应选择模块。

图4为本发明的PR曲线对比图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

实施例一:

如图1-4所示,一种基于跨模态特征融合的RGB-D图像显著性目标检测方法:

步骤1、基于跨层连接方式的U-Net网络,将RGB和Depth分别输入到ResNet-50主干网络中提取图像特征,其中RGB图像提取出五个阶段的特征分别为R1、R2、R3、R4、R5;Depth图像提取出五个阶段的特征分别为D1、D2、D3、D4、D5;U-Net网络是在编解码器 U型架构上进行的,其中,编码器过程分为两条路径,分别为ResNet-50 处理RGB图像路径和ResNet-50处理RGB路径。

步骤2、将两种模态下顶层特征R5和D5输入到跨模态通道细化模块中获取跨模态特征RD;将Depth模态下的D1~D5和RD通过跨模态引导模块引导RGB进行特征提取;考虑到不同来源的Depth线索和RGB线索具有很强的互补性,首先设计一个跨模态通道细化模块将RGB和Depth两种模态下顶层特征R5和D5进行融合,获取具有丰富语义信息的跨模态综合特征。在以往的跨模态融合过程中,仅仅以编解码器的方式将RGB和Depth两种模态的特征进行聚合,往往会导致遗漏细节或引入模糊的特征,导致网络无法优化。本方案所设计的跨模态通道细化模块使R5和D5学习到了各个通道的权重系数,从而增强模型对各个通道特征的辨别能力。然后设计了跨模态引导模块应用于Depth模态下的D1~D4和RD特征上,用于引导RGB 图像的特征提取过程。本发明设计了四个结构类似的跨模态引导模块,每个模块的输入来自两个特征,分别为来自D1~D4,RD和上一跨模态引导模块生成的特征。利用跨模态引导模块引导RGB图像的特征提取,能够进一步将Depth模态的特征信息应用于RGB特征提取上,并且更加利用了通道中显著物体区域的权重信息。

步骤3、将RGB模态下的R1~R5和RD通过残差自适应选择模块进一步保留图像的前景显著信息,丢弃有干扰的背景信息,得到U1、 U2、U3、U4、U5;通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。考虑到不同模态特征之间的空间关注点不同,本方案设计了五个结构类似的残差自适应选择模块作用于RGB特征提取过程中的R1~R5和跨模态通道细化模块生成的 RD特征。该模块基于自注意力的有效性,通过计算每个位置的选择注意权重来选择相互注意的权重。每个残差自适应选择模块的输入来自两个特征,分别为来自R1~R5和上一残差自适应选择模块生成的特征S1~S4和RD。最终通过五个相同的交叉熵损失函数分别对U1~U5 进行监督学习,引导网络最终生成显著性结果图。损失函数表示为:

其中,H和W分别表示图像的高度和宽度,(x,y)表示图像像素(x,y)的基本真实标签,p

具体的,如图1所示,本发明提供了一种基于全局信息引导残差注意力的显著性检测方法,该方法的操作如下:

a.该方法的RGB图像和Depth图像特征提取部分都采用 ResNet-50网络,各包括五个阶段R1~R5和D1~D5,两种模态下 ResNet-50各个阶段的空间分辨率大小相同,分别为176×176×64、 88×88×128、44×44×256、22×22×512、11×11×1024;

b.在图1中的跨模态通道细化模块中,由于RGB和Depth输入源具有相同数量的通道,并且在ResNet-50主干网络中也具有相同的处理,所以顶层特征R5和D5具有相同的尺度大小。在ResNet-50特征提取过程中,RGB的顶层特征R5和depth的顶层特征D5作为跨模态通道细化模块的输入特征。两个输入特征在经过简单的权重层编码操作之后,通过图像像素的乘法来增强特征中的公共像素,减小模糊的像素。为了学习输入特征残差,将经过编码的输出和乘法操作的输出进行图像像素相加。公式如下:

其中,

在经过像素相乘和像素相加操作之后,得到丰富特征f

其中,W、H分别为特征图的长、宽,f

最终,经过元素串联操作将R5和D5经过简单卷积操作之后的特征与U

其中,

c.图2中,为了充分利用由跨模态通道细化模块得到的多语义信息的跨模态融合特征RD,本方案设计了四个结构相同的跨模态引导模块,逐步引导ResNet-50对RGB输入图像特征提取。在图1中最右端的跨模态引导模块中,Depth特征提取过程中的第四层特征D4和特征RD作为跨模态引导模块的输入,每次得到跨模态引导模块的输出特征用于引导RGB图像特征提取和作为输入反馈给下一个跨模态引导模块。

在跨模态引导模块中,采用双线性插值法对RD上采样操作,使得D4和RD具有相同的尺度大小。本方案采用乘法操作对两个输入特征进行相乘操作得到特征P,P作为跨模态引导模块的输入特征。先用1×1卷积对输入特征P进行操作,降低输入特征的通道数,减少运算参数。整个跨模态引导模块分为五个分支,其中四个分支采用 4种不同的扩张率r(r=1,2,4,8)的扩张卷积层

其中,up为双线性插值上采样操作,

为获取通道中显著物体区域的较大权重,另外一条分支采用通道注意力对特征P进行权重处理,得到输出特征U

其中,W、H分别为特征图的长、宽,f

d.为了考虑不同模态特征之间的空间关注点,本方案设计了五个结构类似的残差自适应选择模块。以图1中最右端的残差自适应选择模块具体来说,如图3所示RGB图像特征提取的顶层R5和由跨模态通道细化模块得到的特征RD作为残差自适应选择模块的输入特征。首先用卷积核大小为1×k和k×1并联的卷积层conv

X

X

另一方面,通过元素串联、sigmoid和1×1卷积处理RD和R5,并将其输出特征与X1和X2经过sigmoid的特征进行元素相乘处理。得到两组选择性的自适应特征之后,将他们分别与X1和X2经过sigmoid的特征进行元素相加。随后经过1×1得到特征Y1和Y2。操作过程如下公式:

最后通过残差连接将X1和X2的特征信息与Y1和Y2连接在一起,并得到输出特征S1。过程如下公式:

其中Trans表示conv1×1、批量归一化和Relu激活一系列操作。

e.通过五个相同的交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。

为了验证本方法的有效性,在两个公开的数据集(NJU2K、SSD) 上与多个最新的显著性目标检测方法进行了对比实验。实验采用深度学习框架Pytorch搭建网络,实验环境为Linux系统,使用NVIDIA Tesla T4 GPU16GB进行网络模型训练与测试。在两个公开数据集上与最新的方法进行了实验性能对比,如图4所示,本方法的PR曲线表现良好。本方法具有较强的显著性目标边缘分割、位置检测和细节分割能力。

实施例二

步骤1、基于跨层连接方式的U-Net网络,将RGB和Depth分别输入到ResNet-50主干网络中提取图像特征,其中RGB图像提取出五个阶段的特征分别为R1、R2、R3、R4、R5;Depth图像提取出五个阶段的特征分别为D1、D2、D3、D4、D5;

步骤2、将两种模态下顶层特征R5和D5输入到跨模态通道细化模块中获取跨模态特征RD;将Depth模态下的D1~D5和RD通过跨模态引导模块引导RGB进行特征提取;

步骤3、将RGB模态下的R1~R5和RD通过残差自适应选择模块进一步保留图像的前景显著信息,丢弃有干扰的背景信息,得到U1、 U2、U3、U4、U5;通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。

所述跨模态通道细化模块通过充分提取和融合R5和D5两种模态特征,获取具有丰富语义信息的跨模态综合特征RD,由于RGB和 Depth输入源具有相同数量的通道,并且在主干网络中也具有相同的处理,所以顶层特征R5和D5具有相同的尺度大小。

所述相同空间尺度大小的R5和D5作为跨模态通道细化模块的输入特征,两个输入特征在经过简单的权重层编码操作之后,通过图像像素的乘法操作增强特征中的公共像素,减小模糊的像素,为了学习输入特征残差,将经过编码的输出和乘法操作的输出进行图像像素相加,公式如下:

其中,

在经过像素相乘和像素相加操作之后,得到丰富特征f

采用四个结构相似的跨模态引导模块,逐步引导ResNet-50主干网络对RGB输入图像的特征提取;以最高层的跨模态引导模块为例,特征D4和特征RD作为跨模态引导模块的输入,每次得到跨模态引导模块的输出特征用于引导RGB图像特征提取和作为输入反馈给下一个跨模态引导模块,采用双线性插值法对RD上采样操作,使得D4 和RD具有相同的尺度大小,采用乘法操作对两个输入特征进行相乘操作得到特征P,P作为跨模态融合模块的输入特征,先用1×1卷积对输入特征P进行操作,降低输入特征的通道数,减少运算参数。整个跨模态融合模块分为五个分支,其中四个分支采用4种不同的扩张率r(r=1,2,4,8)的扩张卷积层

其中,up为双线性插值上采样操作,

优选的,另外一条分支采用通道注意力对特征P进行权重处理,得到输出特征U

其中,W、H分别为特征图的长、宽,f

残差自适应选择模块通过计算每个位置的选择注意权重来选择相互注意的权重,以最高层的残差自适应选择模块具体来说,RGB 图像特征提取的顶层R5和跨模态通道细化模块得到的特征RD作为残差自适应选择模块的输入特征,先分别采用卷积核大小为1×k和k×1并联的卷积层来捕获高分辨率的空间关注点得到X1和X2,然后我们通过元素串联、sigmoid和1×1卷积处理RD和R5,并将其输出特征与X1和X2经过sigmoid的特征元素相乘,得到两组选择性的自适应特征,并将这两组特征分别与X1和X2经过sigmoid的特征元素相加,随后经过1×1得到特征Y1和Y2,最后我们通过残差连接将 X1和X2的特征信息与Y1和Y2连接在一起,并得到输出特征S1。

优选的,将五个残差自适应选择模块生成的S1~S5特征输入到网络的解码过程中,并分别与上一层的上采样输出进行元素相加操作,得到U1~U5特征,最终通过五个交叉熵损失函数分别对U1~U5进行监督学习,引导网络最终生成显著性结果图。

通过上述技术方案得到的装置是一种基于跨模态特征融合的RGB-D图像显著性目标检测方法,不仅能够充分利用Depth 信息提供的深度线索,而且设计的跨模态通道细化模块能够增强RGB和Depth两种模态下的特征融合,增强模型对各个通道特征的辨别能力。本发明设计的跨模态引导模块能够进一步将 Depth模态的特征信息应用于RGB特征提取上,而且设计的残差选择注意模块能够增强不同模态特征之间的空间相互关注点,与现有的RGB-D显著性检测方法相比具有良好的性能。

以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化;凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于跨模态特征融合的RGB-D图像显著性目标检测方法
  • 一种基于特征细化的跨模态融合显著性检测方法
技术分类

06120113033788