掌桥专利:专业的专利平台
掌桥专利
首页

RGB-D协同显著物体检测方法

文献发布时间:2024-04-18 19:58:26


RGB-D协同显著物体检测方法

技术领域

本发明属于图像处理与计算机视觉技术领域,尤其涉及一种基于Transformer的跨模态共识学习网络的RGB-D协同显著物体检测方法。

背景技术

显著物体检测(SOD)模拟人类视觉系统,识别单一图像中最显著的区域。为了拓展这一任务,协同显著物体检测(Co-SOD)是从一组相关图像中检测共同出现的目标。协同显著物体检测通常作为计算机视觉任务的初始步骤,例如协同分割、语义分割、视频共定位以及弱监督语义分割等。近年来,为了应对复杂的现实场景,出现了RGB-D协同显著物体检测方法。RGB-D协同显著目标检测采用一组彩色RGB图和深度图作为多模态输入源来模拟人类的视觉感官,去观察组图像中所共有的显著目标。深度图可以为RGB图的提供一些空间距离信息以及显著对象的布局和边界。

早期的RGB-D协同显著物体检测方法大都利用现有的显著物体检测模型来生成显著性特征,之后基于内部显著性线索设计一些手工制作的特征,最后通过聚类、多约束匹配以及稀疏重建来得到预测结果。然而,早期方法在面对复杂的现实场景时,无法有效避免背景噪声的干扰,导致显著性结果预测定位准确度差。

发明内容

针对现有技术的不足,本发明提出一种RGB-D协同显著物体检测方法,该方法能够准确检测出RGB图像中的协同显著物体,所预测的结果准确且完整。

为了实现上述目的,本发明一方面提供一种RGB-D协同显著物体检测方法,基于Transformer的跨模态共识学习网络,所述方法包含:

获取待检测的RGB图像组与深度图像组;

将所述RGB图像组与所述深度图像组输送至骨干网络中,输出各层级的RGB特征与深度特征;

将骨干网络的最高层级的RGB特征与深度特征输送到共识感知模块,捕获最高层级的语义共识线索;

在所述最高层级的语义共识线索的指导下,将其余层级的RGB特征和深度特征输送到共识指导的跨模态交互模块进行跨模态共识学习,捕获其余层级的语义共识线索、以及融合的语义共识线索;

将所述最高层级的语义共识线索、以及所述其余层级的语义共识线索、融合的语义共识线索共同输送到解码器模块中,预测协同显著性映射。

在一些实施例中,所述共识感知模块包括:

一相互残差块,接收来自于最高层级的RGB特征与深度特征,将最高层级的所述RGB特征与所述深度特征进行初始交互,生成最高层级的RGB残差特征与深度残差特征;

一共识探索块,与所述相互残差块输出端连接,接收最高层级的所述RGB残差特征与深度残差特征,捕获最高层级的语义共识线索。

在一些实施例中,所述相互残差块将最高层级的所述RGB特征与所述深度特征进行初始交互,计算公式为:

其中,F

在一些实施例中,在所述共识探索块中,对最高层级的所述RGB残差特征和所述深度残差特征进行线性投影和特征重塑,获取模态内和模态间的多个全局注意力图,每一全局注意力图的特征尺寸为NHW×NHW;

对多个全局注意力图进行整合,生成模态内和模态间的一共识语义,所述共识语义的特征尺寸为NHW×NHW;

将所述共识语义的特征尺寸重塑为NHW×N×HW,并延最后维度取最大值,得到每个像素的N个最大相似值,每一最大相似值的尺寸为NHW×N;

对N个最大相似值进行求平均,并进行尺寸重塑,生成一共识概率图,所述共识概率图的特征尺寸为N×1×HW。

在一些实施例中,在所述共识探索块中,沿所述共识概率图的最后维度取最大值,并进行尺寸重塑,得到概率最高的一共识概率子图,所述共识概率子图的特征尺寸为N×1×1×1;

分别对最高层级的所述RGB残差特征和所述深度残差特征的通道维度进行归一化,得到最高层级的归一化RGB残差特征和归一化深度残差特征;

将概率最高的所述共识概率子图作用于最高层级的所述归一化RGB残差特征和所述归一化深度残差特征,生成初始原型;

延着所述初始原型的空间维度求和,得到第一卷积核、第二卷积核,并将所述第一卷积核和第二卷积核分别作为卷积核对最高层级的所述归一化RGB残差特征、所述归一化深度残差特征执行多尺度卷积,获得多尺度共识RGB响应图、共识深度响应图;

分别将所述共识RGB响应图和所述共识深度响应图的通道平均值作为最终的共识RGB掩膜和共识深度掩膜;

将所述共识RGB掩膜作用于最高层级的所述归一化RGB残差特征,所述共识深度掩膜作用于最高层级的所述归一化深度残差特征,并采用通道注意力增强通道方面的特征表示,分别获取最高层级的共识RGB特征和共识深度特征,所述最高层级的语义共识线索包含最高层级的共识RGB特征和共识深度特征。

在一些实施例中,所述共识指导的跨模态交互模块包括:

一模态对齐块,接收来自于除最高层级之外的其余层级的RGB特征与深度特征,对齐两种模态特征之间的特征差异,获取其余层级的语义共识线索;

一跨模态Swin Transformer块,与所述模态对齐块的输出端连接,接收其余层级的语义共识线索,进行融合交互,获取融合的语义共识线索。

在一些实施例中,在所述模态对齐块中,使用3×3卷积,减少其余层级的RGB特征和深度特征的通道数量;

利用所述共识RGB掩膜和所述共识深度掩膜过滤不相关特征,分别得到当前层的第一共识RGB特征、第一共识深度特征;

将当前层的第一共识RGB特征、第一共识深度特征分别与前一层的第一共识RGB特征、第一共识深度特征进行叠加,得到所述共识RGB特征表示、共识深度特征表示。

在一些实施例中,在所述模态对齐块中,进一步基于通道注意力,将所述共识RGB特征表示、共识深度特征表示两者相乘得到初始的融合特征;

基于空间注意力,将初始的融合特征分别与所述共识RGB特征表示、所述共识深度特征相乘,得到其余层级的第二共识RGB特征和第二共识深度特征,所述其余层级的语义共识线索包含其余层级的第二共识RGB特征和第二共识深度特征。

在一些实施例中,所述跨模态Swin Transformer块,基于窗口的多头自注意力、基于移动窗口的自注意力、多层感知器、归一化层和残差连接、以及通道维度上的拼接和分割组成;

在跨模态Swin Transformer块中,将前一层的所述第二共识RGB特征与前一层的所述第二共识深度特征归一化后进行通道维度上的拼接操作,并基于多头自注意力或移动窗口的自注意力,生成前一层级的融合特征;

将前一层级的融合特征进行通道维度上的分割操作,得到当前层的第三共识RGB特征与第三共识深度特征;

将当前层的所述第三共识RGB特征与前一层的所述第三共识RGB特征相加执行归一化与多层感知,生成下一层的第三共识RGB特征;

将当前层的所述第三共识深度特征与前一层的所述第三共识深度特征相加执行归一化与多层感知,生成下一层的所述第三共识深度特征;

融合的语义共识线索包含所述第三共识RGB特征、所述第三共识深度特征、以及各层级的融合特征。

在一些实施例中,将所述最高层级的语义共识线索、以及所述其余层级的语义共识线索、融合的语义共识线索共同输送到解码器模块中,预测协同显著性映射,包含:

将所述最高层级的语义共识线索、所述其余层级的语义共识线索、以及融合的语义共识线索共同作为输入,输入至解码器模块中,利用预先设定的真值图进行监督学习,计算总体网络损失函数,所述总体网络损失函数为解码器模块中各层输出损失函数的加权和,总体网络损失函数为:

L

其中,其中S

通过梯度反向传播的迭代优化方式来对网络参数进行调整;

通过网络的前向传播,从所述解码器模块中获取协同显著性检测结果作为最终预测结果。

本发明另一方面还提供了一种RGB-D协同显著物体检测装置,采取上述的RGBD协同显著物体检测方法,至少包含:

样本采集模块,用于获取待检测的RGB图像组与深度图像组;

层级特征提取模块,用于将所述RGB图像组与所述深度图像组输送至骨干网络中,输出各层级的RGB特征与深度特征;

共识感知模块,用于利用骨干网络的最高层级的RGB特征与深度特征,捕获最高层级的语义共识线索;

共识指导的跨模态交互模块,用于在所述最高层级的语义共识线索的指导下,利用其余层级的RGB特征和深度特征进行跨模态共识学习,捕获其余层级的语义共识线索、以及融合的语义共识线索;

解码器模块,用于利用所述最高层级的语义共识线索、所述其余层级的语义共识线索、以及融合的语义共识线索,预测协同显著性映射。

本发明另一方面还提供了一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述RGBD协同显著物体检测方法的步骤,且能达到相同的技术效果。

由以上方案可知,本发明的优点在于:

本发明提供的RGBD协同显著物体检测方法,其通过设计Transformer的跨模态共识学习网络,将待检测的RGB图像组与所述深度图像组输送至骨干网络中,输出各层级的RGB特征与深度特征;然后,将骨干网络的最高层级的RGB特征与深度特征输送到共识感知模块,捕获最高层级的语义共识线索;并在所述最高层级的语义共识线索的指导下,将其余层级的RGB特征和深度特征输送到共识指导的跨模态交互模块进行跨模态共识学习,捕获其余层级的语义共识线索、以及融合的语义共识线索;最后,将所述最高层级的语义共识线索、以及所述其余层级的语义共识线索、融合的语义共识线索共同输送到解码器模块中,预测协同显著性映射。该方法能够准确检测出RGB图像中的协同显著物体,所预测的结果准确且完整。

此外,本发明通过共识感知模块来聚合模态内和模态间的共识语义,共识感知模块包括相互残差块和共识探索块。相互残差块可以提供一些共识探索的模态交互先验。共识探索模块可以探索模态内和模态间的语义共识。

此外,本发明还通过共识指导的跨模态共识交互模块来推动模态间的融合交互。共识指导的跨模态共识交互模块包括模态对齐模块和跨模态Swin Transformer块。模态对齐块用于对齐两种模态特征之间的特征差异。跨模态Swin Transformer块用于模态内和模态间的融合交互,积累更多的共识线索。

附图说明

图1为本发明提供的RGBD协同显著物体检测方法的整体流程示意图;

图2为本发明提供的种基于Transformer的跨模态共识交互网络的RGB-D显著目标检测方法的网络结构意图;

图3为本发明中共识感知模块的结构图;

图4为本发明中共识指导的跨模态交互模块中模态对齐模块结构图;

图5为本发明中共识指导的跨模态交互模块中跨模态Swin Transformer块结构图;

图6为本发明提出方法和最优模型的定性视觉比较结果图;

其中:

S1-S5:步骤。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。

本发明实施例提供了一种基于Transformer的跨模态共识学习网络,用于检测RGB-D图像组中的协同显著物体。其通过构建基于Transformer的跨模态共识学习网络(TCCL),该网络通过共识感知模块(CAM)来探索模态内和模态间的语义共识,然后在语义共识的指导下各层级上的RGB特征和深度特征输送到共识指导的跨模态交互模块(CCIM)中来推动跨模态融合以及多层级别特征上的共识积累,最后通过解码器模块来预测定位准确的协同显著性结果。

下面将对本发明实施例提供的RGB-D协同显著物体检测方法进行详细说明。

如图1、图2中所示,图1示出了该RGB-D协同显著物体检测方法的总体流程图。图2提出了基于Transformer的跨模态共识交互网络的RGB-D显著目标检测方法的网络结构意图。

一种RGB-D协同显著物体检测方法,基于Transformer的跨模态共识学习网络,至少包含:

S1、获取训练所需要的图像组,包含待检测的RGB图像组与深度图像组、以及对应的真值图。

于本实施例中,本发明所涉及的RGB-D协同显著物体检测任务,训练图片包括RGB图像组、深度图像组以及对应的真值图。其中,RGB图像组和深度图像组作为网络输入,而真值图用于计算损失函数,对网络进行优化。

S2、将RGB图像组与深度图像组输送至骨干网络中,输出各层级的RGB特征与深度特征。

于本实施例中,在构建出训练所需要的图像组之后,将其中的RGB图像组与深度图像组输送至骨干网络中,输出各层级的RGB特征与深度特征,以便于后续通过共识感知模块(CAM)来聚合模态内和模态间的共识语义,以及通过共识指导的跨模态共识交互模块(CCIM)来推动模态间的融合交互。

S3、将骨干网络的最高层级的RGB特征与深度特征输送到共识感知模块,捕获最高层级的语义共识线索。

于本实施例中,在通过步骤S2获取各层级的RGB特征与深度特征之后,将其中的最高层级的RGB特征与深度特征输送到共识感知模块(CAM)中,以捕获最高层级的语义共识线索。

于具体实现中,如图3中所示,图3示出了共识感知模块的结构图,其包括:一相互残差块(MRB)、以及一共识探索块(CEB)。其中,相互残差块接收来自于最高层级的RGB特征与深度特征,将最高层级的RGB特征与深度特征进行初始交互,生成最高层级的RGB残差特征与深度残差特征,即为后续的共识探索增加先验知识。共识探索块与相互残差块输出端连接,接收最高层级的RGB残差特征与深度残差特征,捕获模态内和模态间的最高层级的语义共识线索,后续的跨模态融合交互提供强有力的指导。

具体的,对于相互残差块(MRB),其将最高层级的RGB特征与深度特征进行初始交互,即进行最高层级的RGB特征与深度特征之间的相互学习,为后续的共识探索提供先验知识,计算公式为:

其中,F

对于共识探索块(CEB),共识探索块通过全局注意力方式来整合最高层级的RGB残差特征F

此外,如果把共识概率图P直接作用于最高层级的RGB残差特征F

S4、在最高层级的语义共识线索的指导下,将其余层级的RGB特征和深度特征输送到共识指导的跨模态交互模块进行跨模态共识学习,捕获其余层级的语义共识线索、以及融合的语义共识线索。

于本实施例中,在通过步骤S3捕获最高层级的语义共识线索之后,进一步在最高层级的语义共识线索的指导下,将其余各层级的RGB特征和深度特征输送到共识指导的跨模态交互模块(CCIM)来输出各层级上的跨模态融合特征,即捕获其余层级的语义共识线索,生成融合的语义共识线索。

于本实施例中,共识指导的跨模态交互模块(CCIM)用于推动两种模态间特征的融合交互,同时积累更多的语义共识线索。具体的,跨模态交互模块包含一模态对齐块(MAB)、以及一跨模态Swin Transformer块(CSB),其中模态对齐块接收来自于除最高层级之外的其余层级的RGB特征F

具体的,如图4中所示,图4示出了模态对齐块(MAB)的结构图。对于模态对齐块(MAB),首先使用3×3卷积,减少其余层级的RGB特征F

其中,N

值得注意的是,在第三层的模态对齐块中,下一层的第一共识特征为最高层级的共识RGB特征F

进一步的,由于RGB图像组和深度图像组的共识特征会有差异,如果直接集成的话,容易发生错位,对此,本发明实施例进一步设计一种注意力指导的集成方式来缓解错位现象,推动跨模态融合。具体来说,本实施例模态对齐块进一步将共识RGB特征表示N

其中,F

对于跨模态Swin Transformer块,其接收模态对齐块输出的其余层级的第二共识RGB特征、第二共识深度特征

将归一化后的第一层的第二共识RGB特征与第二共识深度特征

将第一层级融合特征

将第一层的第三共识RGB特征的

将归一化后的第二层的第三共识RGB特征

将归一化第三层的第三共识RGB特征与第三共识深度特征

将第三层级的融合特征

将第四层的第三共识RGB特征

其中,F

于本实施例中,共识指导的跨模态交互模块(CCIM)设置了模态对齐块、跨模态Swin Transformer块,模态对齐块接收来自于除最高层级之外的其余层级的RGB特征与深度特征,对齐两种模态特征之间的特征差异,获取其余层级的语义共识线索。跨模态SwinTransformer块,接收模态对齐块输出的其余层级的语义共识线索,进行融合交互,生成融合的语义共识线索。该共识指导的跨模态交互模块在共识感知模块的基础上,进一步推动跨模态融合以及多层级别特征上的共识积累,来探索模态内和模态间的语义共识。

S5、将最高层级的语义共识线索、以及其余层级的语义共识线索、融合的语义共识线索共同输送到解码器模块中,预测协同显著性映射。

于本实施例中,在通过步骤S3的共识感知模块生成的最高层级的语义共识线索、以及步骤S4的共识指导的跨模态交互模块生成的其余层级的语义共识线索、以及融合的语义共识线索之后,进一步将最高层级的语义共识线索、以及其余层级的语义共识线索、融合的语义共识线索共同输送到解码器模块中共同作为输入,共同输入至解码器模块中,以预测准确、完整的协同显著性结果图。

于具体实现中,首先,设计总体网络损失函数,即本实施例中,总体网络损失函数为解码器模块中各层输出损失函数的加权和,总体网络损失函数为:

L

L

其中,其中S

然后,基于该总体网络损失函数,对网络进行训练优化,将最高层级的语义共识线索、以及其余层级的语义共识线索、融合的语义共识线索共同输送到解码器模块中共同作为输入,共同输入至解码器模块中,利用预先设定的真值图进行监督学习,计算总体网络损失函数,并通过梯度反向传播的迭代优化方式来对网络参数进行调整;最后,通过网络的前向传播,从解码器模块获取协同显著性检测结果图作为最终预测结果。

图6显示了本发明实施例的RGB-D协同显著性检测结果图。将本发明提供的RGB-D协同显著性检测方法与CTNET、DCFM-D、MCCL、GCoNet-D、SwinNet、BBSNet等进行对比,图中左侧第四列为本发明的效果图,对比可以发现,本发明能够准确检测出图中左侧第一列RGB图像组与第二列中深度图像组中的协同显著物体,所预测的结果准确且完整。

本发明提供的RGB-D协同显著物体检测方法,其通过设计Transformer的跨模态共识学习网络,将待检测的RGB图像组与深度图像组输送至骨干网络中,输出各层级的RGB特征与深度特征;然后,将骨干网络的最高层级的RGB特征与深度特征输送到共识感知模块,捕获最高层级的语义共识线索;并在最高层级的语义共识线索的指导下,将其余层级的RGB特征和深度特征输送到共识指导的跨模态交互模块进行跨模态共识学习,捕获其余层级的语义共识线索、以及融合的语义共识线索;最后,将最高层级的语义共识线索、以及其余层级的语义共识线索、融合的语义共识线索共同输送到解码器模块中,预测协同显著性映射。该方法能够准确检测出RGB图像中的协同显著物体,所预测的结果准确且完整。

此外,本发明通过共识感知模块来聚合模态内和模态间的共识语义,共识感知模块包括相互残差块和共识探索块。相互残差块可以提供一些共识探索的模态交互先验。共识探索模块可以探索模态内和模态间的语义共识。

此外,本发明还通过共识指导的跨模态共识交互模块来推动模态间的融合交互。共识指导的跨模态共识交互模块包括模态对齐模块和跨模态Swin Transformer块。模态对齐块用于对齐两种模态特征之间的特征差异。跨模态Swin Transformer块用于模态内和模态间的融合交互,积累更多的共识线索。

此外,本发明上述实施例可以应用于RGB-D协同显著物体检测方法功能的终端设备中,该终端设备可以包括个人终端、以及上位机终端等。

该RGB-D协同显著物体检测装置,其可实现通过如图1所示的RGB-D协同显著物体检测方法,能够实现上述RGB-D协同显著物体检测方法实现的各个过程。

一种RGB-D协同显著物体检测装置,至少包含:

样本采集模块,用于获取待检测的RGB图像组与深度图像组;

层级特征提取模块,用于将RGB图像组与深度图像组输送至骨干网络中,输出各层级的RGB特征与深度特征;

共识感知模块,用于利用骨干网络的最高层级的RGB特征与深度特征,捕获最高层级的语义共识线索;

跨模态交互模块,用于在最高层级的语义共识线索的指导下,利用其余层级的RGB特征和深度特征进行跨模态共识学习,捕获其余层级的语义共识线索;

解码器模块,用于利用最高层级的语义共识线索与其余层级的语义共识线索,预测协同显著性映射。

此外,应当理解,在根据本申请实施例的RGB-D协同显著物体检测装置中,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即RGB-D协同显著物体检测装置可划分为与上述例示出的模块不同的功能模块,以完成以上描述的全部或者部分功能。

此外,本申请实施例还提供了一种电子设备,包括处理器,存储器,存储在存储器上并可在处理器上运行的程序或指令,该程序或指令被处理器执行时实现上述RGBD协同显著物体检测方法的步骤,且能达到相同的技术效果。

此外,本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述RGBD协同显著物体检测方法的步骤,且能达到相同的技术效果。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以施加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

相关技术
  • 一种基于双边注意力机制的RGB-D显著性物体检测方法
  • 一种基于前景背景优化的RGB-D显著物体检测方法
技术分类

06120116495286