掌桥专利:专业的专利平台
掌桥专利
首页

一种基于跨层空间对齐的图像显著性检测方法

文献发布时间:2023-06-19 11:57:35


一种基于跨层空间对齐的图像显著性检测方法

技术领域

本发明涉及一种视觉显著性检测方法,尤其是涉及一种基于跨层空间对齐的图像显著性检测方法。

背景技术

视觉显著性可以帮助人类快速地过滤掉不重要的信息,让人们的注意力更加集中在有意义的区域,从而能更好地理解眼前的场景。随着计算机视觉领域的快速发展,人们希望电脑也能拥有和人类相同的能力,即在理解和分析复杂的场景时,电脑可以更加针对性地处理有用的信息,从而能更大的降低算法的复杂度,并且排除杂波的干扰。在传统做法中,研究人员根据观察到的各种先验知识对显著性对象检测算法进行建模,生成显著性图。这些先验知识包括对比度、中心先验、边缘先验、语义先验等。然而,在复杂的场景中,传统做法往往不够准确,这是因为这些观察往往局限于低级别的特征(例如:颜色和对比度等),所以不能准确反映出显著性对象本质的共同点。

近年来,卷积神经网络已广泛运用于计算机视觉的各个领域,许多困难的视觉问题都获得了重大的进展。不同于传统做法,深度卷积神经网络能够从大量的训练样本中建模并自动的端到端(end-to-end)地学习到更为本质的特性,从而有效地避免了传统人工建模和设计特征的弊端。最近,传感器的有效应用更加丰富了数据库,人们不但可以获得彩色图片,而且可以获取彩色图片对应的热图(Thermal)信息。热图信息在现实场景中能够在黑暗、遮挡等恶劣条件下辅助人眼视觉系统,这是在之前的传统做法中所完全忽略掉的一条重要的信息,但是现有的热图(thermal)通常会与RGB图存在一定的空间对齐问题,因此现在最重要的任务就是如何建立模型从而有效地利用好热图,并在一定程度上缓解热图与RGB图的对齐问题。

在RGB-T数据库中采用深度学习的显著性检测方法,直接进行像素级别端到端的显著性检测,只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。目前,基于RGB-T数据库的深度学习显著性检测模型主要用的结构为编码-解码架构,在如何利用热图信息的方法上有两种:第一种方法则是将在编码过程中对应的彩色图信息和热图信息利用跳层(skip connection)的方式相加或者叠加到对应的解码过程中,这类称为后融合;第二种方法则是分别利用彩色图信息和热图信息进行显著性预测,将最后的结果融合。上述第一种方法,由于彩色图信息和热图信息的分布有较大差异,因此直接在编码过程中加入热图信息会在一定程度上添加了噪声。上述第二种方法不仅避免了在编码阶段直接利用热图信息带来的噪声,而且在网络模型的不断优化中能够充分学习到彩色图信息和热图信息的互补关系。参考最近发表的显著性检测方案,RGB-T SalientObject Detection via Fusing Multi-level CNN Features(融合多层卷积神经网络特征的彩色热图显著物体检测),以下简称为 FMCF,FMCF主要针对的是多模态信息(彩色图信息和热图信息)的融合问题,首先在各自模型选取紧邻的特征来融合多尺度的特征,进行利用分组的融合方式进行多模态信息的融合。由于FMCF并没有考虑到彩色图信息和热图信息之间的对齐问题,这种方式进行多模态信息的融合必然会对最后结果造成影响。

发明内容

为了解决背景技术中存在的问题,本发明提出了一种基于卷积神经网络的显著性检测方法,其通过高效地利用热图信息和彩色图信息,从而提升了显著性检测准确率和效率。

本发明解决上述技术问题所采用的技术方案为:

总体实现框图如图2所示,包括训练阶段和测试阶段两个过程;

所述的训练阶段过程的具体步骤为:

步骤1_1:选取Q幅原始的彩色真实物体图像及每幅原始的彩色真实物体图像对应的热图像和真实显著性检测标签图像构成训练集,训练集中的第q幅原始的彩色真实物体图像及其对应的热图像和真实显著性检测标签图像分别记为{Iq(i,j)}、{Dq(i,j)}、{Gq(i,j)};

其中,Q为正整数,q为正整数,q的初始值为1,1≤q≤Q,1≤i≤W,1≤j≤H, W表示第q幅原始的彩色真实物体图像{I

本发明所述的物体通常为人眼比较关注的物体。

步骤1_2:构建卷积神经网络:

步骤1_3:将训练集中的每幅原始的彩色真实物体图像作为训练用RGB彩色图像,将训练集中的每幅原始的彩色真实物体图像对应的热图像作为训练用热图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的彩色真实物体图像对应的10幅显著性检测预测图,将第q幅原始的彩色真实物体图像 {I

步骤1_4:对训练集中每幅原始的彩色真实物体图像对应的真实显著性检测标签图利用最近邻插值进行5中不同尺寸大小的缩放处理,得到宽度为

步骤1_5:重复执行步骤1_3至步骤1_4共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量W

所述的测试阶段过程的具体步骤为:

将待显著性检测的彩色真实物体图像

如图1所示,所述的卷积神经网络包含输入层、隐层和输出层,输入层包括RGB图输入层和热图输入层,隐层包括5个RGB图神经网络块、5个热图神经网络块、4个跨层空间注意力块、4个自适应融合层、5个RGB上采样块、5 个热图上采样块、输出层包括5个RGB图显著性输出层和5个热图显著性输出层;

RGB图输入层和热图输入层分别输入RGB彩色图像和RGB彩色图像对应的热度图像,热图输入层的输出依次经第一个热图神经网络块、第二个热图神经网络块、第三个热图神经网络块、第四个热图神经网络块、第五个热图神经网络块后连接到第一个热图上采样块,RGB图输入层的输出依次经第一个RGB 图神经网络块、第二个RGB图神经网络块、第三个RGB图神经网络块、第四个RGB图神经网络块、第五个RGB图神经网络块后连接到第一个RGB上采样块;同时第一个RGB图神经网络块的输出经第一个跨层空间注意力块后相乘再输入到第二个热图神经网络块,第二个热图神经网络块的输出经第二个跨层空间注意力块后相乘再输入到第三个RGB图神经网络块,第三个RGB图神经网络块的输出经第三个跨层空间注意力块后相乘再输入到第四个热图神经网络块,第四个热图神经网络块的输出经第四个跨层空间注意力块后相乘再输入到第五个RGB图神经网络块;

第一个RGB上采样块和第一个热图上采样块的输出分别经第一个RGB显著性输出层、第一个热图显著性输出层处理后共同输入到第一个自适应融合层中,第一个自适应融合层的输出分为两路,第一路和第一个热图上采样块的输出相乘后再输入到第二个热图上采样块,第二路和第一个RGB上采样块的输出相乘后再输入到第二个RGB上采样块;

第二个RGB上采样块和第二个热图上采样块的输出分别经第二个RGB显著性输出层、第二个热图显著性输出层处理后共同输入到第二个自适应融合层中,第二个自适应融合层的输出分为两路,第一路和第二个热图上采样块的输出相乘后再输入到第三个热图上采样块,第二路和第二个RGB上采样块的输出相乘后再输入到第三个RGB上采样块;

第三个RGB上采样块和第三个热图上采样块的输出分别经第三个RGB显著性输出层、第三个热图显著性输出层处理后共同输入到第三个自适应融合层中,第三个自适应融合层的输出分为两路,第一路和第三个热图上采样块的输出相乘后再输入到第四个热图上采样块,第二路和第三个RGB上采样块的输出相乘后再输入到第四个RGB上采样块;

第四个RGB上采样块和第三个热图上采样块的输出分别经第四个RGB显著性输出层、第四个热图显著性输出层处理后共同输入到第四个自适应融合层中,第四个自适应融合层的输出分为两路,第一路和第四个热图上采样块的输出相乘后再输入到第五个热图上采样块,第二路和第四个RGB上采样块的输出相乘后再输入到第五个RGB上采样块;

第五个RGB上采样块、第五个热图上采样块分别连接到第五个RGB显著性输出层、第五个热图显著性输出层,由第五个RGB显著性输出层输出最终的显著性检测预测图结果。

如图2所示,五个跨层空间注意力块结构和处理均相同,包括依次连接的三个并列的最大池化层、相加层和连续两个卷积层,从各自对应的热图神经网络块/RGB图神经网络块输入的特征图分为三路,分别输入到三个最大池化层中,三个最大池化层的输出通过相加层相加操作后再经过连续两个卷积层输出。

如图3所示,五个自适应融合层结构和处理均相同,包括:将从各自对应的RGB显著性输出层、热图显著性输出层输入的两个特征图分别和利用反向传播自动更新的RGB标量参数W

所述的卷积神经网络中:

第一个RGB图神经网络块由依次设置的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层和第二激活层组成,第二个RGB图神经网络块由依次设置的第一最大池化层、第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层和第四激活层组成,第三个RGB图神经网络块由依次设置的第二最大池化层、第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层和第七激活层组成,第四个RGB图神经网络块由依次设置的第三最大池化层、第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层和第十激活层组成,第五个RGB 图神经网络块由依次设置的VGG-16bn的第四最大池化层、第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层和第十三激活层组成;

第一个到第五个热图神经网络块分别与第一个到第五个RGB图神经网络块的结构设置一致。

所述的卷积神经网络中:

对于第一个RGB上采样块由依次设置的第二十二卷积层,第二十二批标准化层、第二十二激活层、第二十三卷积层、第二十三批标准化层、第二十三激活层、第二十四卷积层,第二十四批标准化层、第二十四激活层组成;

对于第一个RGB显著性输出层由第二十五卷积层和第二十五激活层构成,第二十五激活层为sigmoid;

对于第一个热图上采样块、第一个热图显著性输出层分别与第一个RGB上采样块、第一个RGB显著性输出层的结构一致。

所述的卷积神经网络中:

对于第二个RGB上采样块由依次设置的第二十六卷积层,第二十六批标准化层、第二十六激活层、第二十七卷积层,第二十七批标准化层、第二十七激活层、第二十八卷积层,第二十八批标准化层、第二十八激活层和第一上采样层组成;

对于第二个RGB显著性输出层由第二十九卷积层和第二十九激活层构成,第二十九激活层为sigmoid;

对于第二个热图上采样块、第二个热图显著性输出层分别与第二个RGB上采样块、第二个RGB显著性输出层的结构一致。

所述的卷积神经网络中:

对于第三个RGB上采样块由依次设置的第三十卷积层,第三十批标准化层、第三十激活层、第三十一卷积层,第三十一批标准化层、第三十一激活层、第三十二卷积层,第三十二批标准化层、第三十二激活层和第二上采样层组成;

对于第三个RGB显著性输出层由第三十三卷积层和第三十三激活层构成,第三十三激活层为sigmoid;

对于第三个热图上采样块、第三个热图显著性输出层分别与第三个RGB上采样块、第三个RGB显著性输出层的结构一致。

所述的卷积神经网络中:

对于第四个RGB上采样块由依次设置的第三十四卷积层,第三十四批标准化层、第三十四激活层、第三十五卷积层,第三十五批标准化层、第三十五激活层、第三十六卷积层,第三十六批标准化层、第三十六激活层和第三上采样层组成;

对于第四个RGB显著性输出层由第三十七卷积层和第三十七激活层构成,第三十七激活层为sigmoid;

对于第四个热图上采样块、第四个热图显著性输出层分别与第四个RGB上采样块、第四个RGB显著性输出层的结构一致。

所述的卷积神经网络中:

对于第五个RGB上采样块由依次设置的第三十八卷积层,第三十八批标准化层、第三十八激活层、第三十九卷积层,第三十九批标准化层、第三十九激活层、第四十卷积层,第四十批标准化层、第四十激活层和第四上采样层组成;

对于第五个RGB显著性输出层由第四十一卷积层和第四十一激活层构成,第四十一激活层为sigmoid;

对于第五个热图上采样块、第五个热图显著性输出层分别与第五个RGB上采样块、第五个RGB显著性输出层的结构一致。

与现有技术相比,本发明的优点在于:

1)本发明方法构建的卷积神经网络,实现了端到端的显著性物体检测,易于训练,方便快捷;使用训练集中的彩色真实物体图像和对应的热图像输入到卷积神经网络中进行训练,得到卷积神经网络训练模型;再将待显著性检测的彩色真实物体图像和对应的热图像输入到卷积神经网络训练模型中,预测得到彩色真实物体图像对应的预测显著性检测图像,由于本发明方法在构造卷积神经网络的时候利用了扩张卷积,因此能够在不增加参数量的同时获得更大的感受野,同时能够提升最终的显著性检测效果。

2)本发明方法在利用热图信息的时候,考虑到了彩色图信息和热图信息的对齐问题,利用不同模态低维的信息来指导高维信息的空间对齐,并且构造了一种交互式的跨层的空间注意力机制模块,这样能够让卷积神经网络训练模型训练的时候能够更加关注到多模态信息的对齐问题,从而提升最终的检测效果。

3)本发明采用了多尺度监督的方式(multi-scale Supervision),通过对不同尺寸显著性物体的监督,能够指导卷积神经网络训练模型逐步地构建显著性检测预测图。

附图说明

图1为发明方法的总体实现框图;

图2a为跨层注意力机制的方案图;

图2b为自适应融合层;

图3a为第1幅原始的真实物体图像;

图3b为第1幅原始的真实物体图像的热图;

图3c为利用本发明方法对图3a所示的原始的真实物体图像进行预测,得到的预测显著性检测图像;

图4a为第2幅原始的真实物体图像;

图4b为第2幅原始的真实物体图像的热图;

图4c为利用本发明方法对图4a所示的原始的物体图像进行预测,得到的预测显著性检测图像;

图5a为第3幅原始的真实物体图像;

图5b为第3幅原始的真实物体图像的热图;

图5c为利用本发明方法对图5a所示的原始的真实物体图像进行预测,得到的预测显著性检测图像;

图6a为第4幅原始的真实物体图像;

图6b为第4幅原始的真实物体图像的热图;

图6c为利用本发明方法对图6a所示的原始的真实物体图像进行预测,得到的预测显著性检测图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明实施例的总体过程框图如图2所示,包括训练阶段和测试阶段两个过程;

所述的训练阶段过程的具体步骤为:

步骤1_1:选取Q幅原始的彩色真实物体图像及每幅原始的彩色真实物体图像对应的热图像和真实显著性检测标签图像构成训练集,训练集中的第q幅原始的彩色真实物体图像及其对应的热图像和真实显著性检测标签图像分别记为{I

其中,Q为正整数,q为正整数,q的初始值为1,1≤q≤Q,1≤i≤W,1≤j≤H, W表示第q幅原始的彩色真实物体图像{I

步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和热图输入层,隐层包括5个RGB图神经网络块、5 个热图神经网络块、4个跨层空间注意力块、4个自适应融合层、5个RGB上采样块、5个热图上采样块、输出层包括5个RGB图显著性输出层和5个热图显著性输出层;

对于RGB图输入层,其输入端接收一幅训练用RGB彩色图像的R通道分量、G通道分量和B通道分量,其输出端输出训练用RGB彩色图像的R通道分量、G通道分量和B通道分量给隐层;其中,要求训练用RGB彩色图像的宽度为W且高度为H;

对于热图输入层,其输入端接收RGB图输入层的输入端接收的训练用RGB 彩色图像对应的训练用热度图像,其输出端输出训练用热图像给隐层;其中,训练用热图像的宽度为W且高度为H;

对于第一个热图神经网络块,其输入端接收训练用的热图像,其输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为 TE

对于第一个RGB图神经网络块,其输入端接收RGB图输入层的输出端输出的训练用RGB彩色图像的R通道分量、G通道分量和B通道分量,其输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E

对于第一个跨层空间注意力块,其输入端接收E

对于第二个热图神经网络块,其输入端接收CS

对于第二个RGB图神经网络块,其输入端接收E

对于第二个跨层空间注意力块,其输入端接收TE

对于第三个热图神经网络块,其输入端接收TE

对于第三个RGB图神经网络块,其输入端接收CS

对于第三个跨层空间注意力块,其输入端接收E

对于第四个热图神经网络块,其输入端接收CS

对于第四个RGB图神经网络块,其输入端接收E

对于第四个跨层空间注意力块,其输入端接收TE

对于第五个热图神经网络块,其输入端接收TE

对于第五个RGB图神经网络块,其输入端接收CS

对于第一个RGB上采样块,其输入端接收E

对于第一个RGB显著性输出层,其输入端接收U

对于第一个热图上采样块,其输入端接收TE

对于第一个热图显著性输出层,其输入端接收TU

对于第一个自适应融合层,其输入端接收Out

对于第二个RGB上采样块,其输入端接收Fusion

对于第二个RGB显著性输出层,其输入端接收U

对于第二个热图上采样块,其输入端接收Fusion

对于第二个热图显著性输出层,其输入端接收TU

对于第二个自适应融合层,其输入端接收Out

对于第三个RGB上采样块,其输入端接收Fusion

对于第三个RGB显著性输出层,其输入端接收U

对于第三个热图上采样块,其输入端接收Fusion

对于第三个热图显著性输出层,其输入端接收TU

对于第三个自适应融合层,其输入端接收Out

对于第四个RGB上采样块,其输入端接收Fusion

对于第四个RGB显著性输出层,其输入端接收U

对于第四个热图上采样块,其输入端接收Fusion

对于第四个热图显著性输出层,其输入端接收TU

对于第四个自适应融合层,其输入端接收Out

对于第五个RGB上采样块,其输入端接收Fusion

对于第五个RGB显著性输出层,其输入端接收U

对于第五个热图上采样块,其输入端接收Fusion

对于第五个热图显著性输出层,其输入端接收TU

步骤1_3:将训练集中的每幅原始的彩色真实物体图像作为训练用RGB彩色图像,将训练集中的每幅原始的彩色真实物体图像对应的热图像作为训练用热图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的彩色真实物体图像对应的10幅显著性检测预测图,将{I

步骤1_4:计算训练集中的每幅原始的真实彩色物体图像对应的10幅显著性检测预测图构成的集合与对应的真实显著性检测图像处理成的10幅对应尺寸大小的编码图像构成的集合之间的损失函数值,将

步骤1_5:重复执行步骤1_3至步骤1_4共V次,得到卷积神经网络训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为W

所述的测试阶段过程的具体步骤为:

步骤2_1:令

步骤2_2:将待显著性检测的彩色真实物体图像

所述的步骤1_2中,第一个RGB图神经网络块,其由依次设置的VGG-16bn 的第一卷积层、第一批标准化层、第一激活层、第二卷积层、第二批标准化层、第二激活层组成,第一卷积层的输入端为其所在的神经网络块的输入端,第一批标准化层的输入端接收第一卷积层的输出端输出的所有特征图,第一激活层的输入端接收第一批标准化层的输出端输出的所有特征图,第二卷积层的输入端接收第一激活层的输出端输出的所有特征图,第二批标准化层的输入端接收第二卷积层的输出端输出的所有特征图,第二激活层的输入端接收第二批标准化层的输出端输出的所有特征图,第二激活层的输出端为其所在的神经网络块的输出端;其中,第一卷积层和第二卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为1,第一激活层和第二激活层的激活方式均为“Relu”,第一批标准化层、第二批标准化层、第一激活层、第二激活层各自的输出端输出 64幅特征图;

第二个RGB图神经网络块,其由依次设置的VGG-16bn的第一最大池化层、第三卷积层、第三批标准化层、第三激活层、第四卷积层、第四批标准化层、第四激活层组成,第一最大池化层的输入端为其所在的神经网络块的输入端,第三卷积层的输入端接收第一最大池化层的输出端输出的所有特征图,第三批标准化层的输入端接收第三卷积层的输出端输出的所有特征图,第三激活层的输入端接收第三批标准化层的输出端输出的所有特征图,第四卷积层的输入端接收第三激活层的输出端输出的所有特征图,第四批标准化层的输入端接收第四卷积层的输出端输出的所有特征图,第四激活层的输入端接收第四批标准化层的输出端输出的所有特征图,第四激活层的输出端为其所在的神经网络块的输出端;其中,第一最大池化层的池化尺寸pool_size为2、步长stride为2,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数均为1,第三激活层和第四激活层的激活方式均为“Relu”,第三批标准化层、第四批标准化层、第三激活层、第四激活层各自的输出端输出128幅特征图;

第三个RGB图神经网络块,其由依次设置的VGG-16bn第二最大池化层、第五卷积层、第五批标准化层、第五激活层、第六卷积层、第六批标准化层、第六激活层、第七卷积层、第七批标准化层、第七激活层组成,第二最大池化层的输入端为其所在的神经网络块的输入端,第五卷积层的输入端接收第二最大池化层的输出端输出的所有特征图,第五批标准化层的输入端接收第五卷积层的输出端输出的所有特征图,第五激活层的输入端接收第五批标准化层的输出端输出的所有特征图,第六卷积层的输入端接收第五激活层的输出端输出的所有特征图,第六批标准化层的输入端接收第六卷积层的输出端输出的所有特征图,第六激活层的输入端接收第六批标准化层的输出端输出的所有特征图,第七卷积层的输入端接收第六激活层的输出端输出的所有特征图,第七批标准化层的输入端接收第七卷积层的输出端输出的所有特征图,第七激活层的输入端接收第七批标准化层的输出端输出的所有特征图,第七激活层的输出端为其所在的神经网络块的输出端;其中,第二最大池化层的池化尺寸为2、步长为2,第五卷积层和第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为 256、补零参数均为1,第五激活层和第六激活层和第七激活层的激活方式均为“Relu”,第五批标准化层、第六批标准化层、第七批标准化层、第五激活层、第六激活层和第七激活层各自的输出端输出256幅特征图;

第四个RGB图神经网络块,其由依次设置的VGG-16bn的第三最大池化层、第八卷积层、第八批标准化层、第八激活层、第九卷积层、第九批标准化层、第九激活层、第十卷积层、第十批标准化层、第十激活层组成,第三最大池化层的输入端为其所在的神经网络块的输入端,第八卷积层的输入端接收第三最大池化层的输出端输出的所有特征图,第八批标准化层的输入端接收第八卷积层的输出端输出的所有特征图,第八激活层的输入端接收第八批标准化层的输出端输出的所有特征图,第九卷积层的输入端接收第八激活层的输出端输出的所有特征图,第九批标准化层的输入端接收第九卷积层的输出端输出的所有特征图,第九激活层的输入端接收第九批标准化层的输出端输出的所有特征图,第十卷积层的输入端接收第九激活层的输出端输出的所有特征图,第十批标准化层的输入端接收第十卷积层的输出端输出的所有特征图,第十激活层的输入端接收第十批标准化层的输出端输出的所有特征图,第十激活层的输出端为其所在的神经网络块的输出端;其中,第三最大池化层的池化尺寸为2,步长为2,第八卷积层和第九卷积层和第十卷积层的卷积核大小均为3×3、卷积核个数均为 512、补零参数均为1,第八激活层和第九激活层和第十激活层的激活方式均为“Relu”,第八批标准化层、第九批标准化层、第十批标准化层、第八激活层、第九激活层和第十激活层各自的输出端输出512幅特征图;

第五个RGB图神经网络块其由依次设置的VGG-16bn的第四最大池化层、第十一卷积层、第十一批标准化层、第十一激活层、第十二卷积层、第十二批标准化层、第十二激活层、第十三卷积层、第十三批标准化层、第十三激活层组成,第四最大池化层的输入端为其所在的神经网络块的输入端,第十一卷积层的输入端接收第四最大池化层的输出端输出的所有特征图,第十一批标准化层的输入端接收第十一卷积层的输出端输出的所有特征图,第十一激活层的输入端接收第十一批标准化层的输出端输出的所有特征图,第十二卷积层的输入端接收第十一激活层的输出端输出的所有特征图,第十二批标准化层的输入端接收第十二卷积层的输出端输出的所有特征图,第十二激活层的输入端接收第十二批标准化层的输出端输出的所有特征图,第十三卷积层的输入端接收第十二激活层的输出端输出的所有特征图,第十三批标准化层的输入端接收第十三卷积层的输出端输出的所有特征图,第十三激活层的输入端接收第十三批标准化层的输出端输出的所有特征图,第十三激活层的输出端为其所在的神经网络块的输出端;其中,第四最大池化层的池化尺寸为2,步长为2,第十一卷积层和第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为1,第十一激活层和第十二激活层和第十三激活层的激活方式均为“Relu”,第十一批标准化层、第十二批标准化层、第十三批标准化层、第十一激活层、第十二激活层和第十三激活层各自的输出端输出512幅特征图。

第一个到第五个热图神经网络块均与第一个到第五个RGB图神经网络块设置一致。

第一个跨层空间注意力块由平行设置的第五最大池化层、第六最大池化层、第七最大池化层、以及依次放置第十四卷积层、第十五卷积层组成,平行设置的第五最大池化层、第六最大池化层、第七最大池化层的输入端为其所在的神经网络块的输入端,将第五最大池化层、第六最大池化层、第七最大池化层的输出端的特征图进行相加操作得到输出的特征图,第十四卷积层的输入端接收此特征图,第十五卷积层输入端接收第十四卷积层输出端输出的所有特征图;其中,第五最大池化层、第六最大池化层、第七最大池化层的尺寸分别为4、5、 7,步长均为2,补零参数为1,2,3,第十四卷积层的卷积的卷积核大小为1×1、卷积核个数为16,第十五积层的卷积的卷积核大小为1×1、卷积核个数为128。

第二个跨层空间注意力块由平行设置的第八最大池化层、第九最大池化层、第十最大池化层、以及依次放置第十六卷积层、第十七卷积层组成,平行设置的第八最大池化层、第九最大池化层、第十最大池化层的输入端为其所在的神经网络块的输入端,将第八最大池化层、第九最大池化层、第十最大池化层的输出端的特征图进行相加操作得到输出的特征图,第十六卷积层的输入端接收此特征图,第十七卷积层输入端接收第十六卷积层输出端输出的所有特征图;其中,第八最大池化层、第九最大池化层、第十最大池化层的尺寸分别为3、5、 7,步长均为2,补零参数为1,2,3,第十六卷积层的卷积的卷积核大小为1×1、卷积核个数为32,第十七积层的卷积的卷积核大小为1×1、卷积核个数为256。

第三个跨层空间注意力块由平行设置的第十一最大池化层、第十二最大池化层、第十三最大池化层、以及依次放置第十八卷积层、第十九卷积层组成,平行设置的第十一最大池化层、第十二最大池化层、第十三最大池化层的输入端为其所在的神经网络块的输入端,将第十一最大池化层、第十二最大池化层、第十三最大池化层的输出端的特征图进行相加操作得到输出的特征图,第十八卷积层的输入端接收此特征图,第十九卷积层输入端接收第十八卷积层输出端输出的所有特征图;其中,第十一最大池化层、第十二最大池化层、第十三最大池化层的尺寸分别为3、5、7,步长均为2,补零参数为1,2,3,第十八卷积层的卷积的卷积核大小为1×1、卷积核个数为64,第十九积层的卷积的卷积核大小为1×1、卷积核个数为512。

第四个跨层空间注意力块由平行设置的第十四最大池化层、第十五最大池化层、第十六最大池化层、以及依次放置第二十卷积层、第二十一卷积层组成,平行设置的第十四最大池化层、第十五最大池化层、第十六最大池化层的输入端为其所在的神经网络块的输入端,将第十四最大池化层、第十五最大池化层、第十六最大池化层的输出端的特征图进行相加操作得到输出的特征图,第二十卷积层的输入端接收此特征图,第二十一卷积层输入端接收第二十卷积层输出端输出的所有特征图;其中,第十四最大池化层、第十五最大池化层、第十六最大池化层的尺寸分别为3、5、7,步长均为2,补零参数为1,2,3,第二十卷积层的卷积的卷积核大小为1×1、卷积核个数为64,第二十一积层的卷积的卷积核大小为1×1、卷积核个数为512。

对于第一个RGB上采样块,其由依次设置的第二十二卷积层,第二十二批标准化层、第二十二激活层、第二十三卷积层,第二十三批标准化层、第二十三激活层、第二十四卷积层,第二十四批标准化层、第二十四激活层组成;第二十二卷积层的输入端为其所在的融合神经网络块的输入端,第二十二批标准化层的输入端接收第二十二卷积层的输出端输出的所有特征图,第二十二激活层的输入端接收第二十二批标准化层的输出端输出的所有特征图,第二十三卷积层的输入端接收第二十二激活层的输出端输出的所有特征图,第二十三批标准化层的输入端接收第二十三卷积层的输出端输出的所有特征图,第二十三激活层的输入端接收第二十三批标准化层的输出端输出的所有特征图,第二十四卷积层的输入端接收第二十三激活层的输出端输出的所有特征图,第二十四批标准化层的输入端接收第二十四卷积层的输出端输出的所有特征图,第二十四激活层的输入端接收第二十四批标准化层的输出端输出的所有特征图,第二十四激活层的输出端为其所在的神经网络块的输出端;其中,第二十二卷积层和第二十三卷积层和第二十四卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数均为2,扩张参数为2,第二十二激活层和第二十三激活层和第二十四激活层的激活方式均为“Relu”,第二十二批标准化层、第二十三批标准化层、第二十四批标准化层、第二十二激活层、第二十三激活层、第二十四激活层各自的输出端输出512幅特征图。

对于第一个RGB显著性输出层,其由第二十五卷积层和第二十五激活层构成,其中第二十五卷积层卷积核大小为1×1、卷积核个数为1,第二十五激活层为sigmoid。

对于第一个热图上采样块以及第一个热图显著性输出层设置均与第一个 RGB上采样块和第一个RGB显著性输出层一致。

对于第一个自适应融合层,它由两个可以自动更新的标量参数W

对于第二个RGB上采样块,其由依次设置的第二十六卷积层,第二十六批标准化层、第二十六激活层、第二十七卷积层,第二十七批标准化层、第二十七激活层、第二十八卷积层,第二十八批标准化层、第二十八激活层和第一上采样层组成;第二十六卷积层的输入端为其所在的融合神经网络块的输入端,第二十六批标准化层的输入端接收第二十六卷积层的输出端输出的所有特征图,第二十六激活层的输入端接收第二十六批标准化层的输出端输出的所有特征图,第二十七卷积层的输入端接收第二十六激活层的输出端输出的所有特征图,第二十七批标准化层的输入端接收第二十七卷积层的输出端输出的所有特征图,第二十七激活层的输入端接收第二十七批标准化层的输出端输出的所有特征图,第二十八卷积层的输入端接收第二十七激活层的输出端输出的所有特征图,第二十八批标准化层的输入端接收第二十八卷积层的输出端输出的所有特征图,第二十八激活层的输入端接收第二十八批标准化层的输出端输出的所有特征图,第一个上采样层的输入端接收第二十八激活层的输出端输出的所有特征图,第一个上采样层的输出端为其所在的神经网络块的输出端;其中,第二十六卷积层和第二十七卷积层和第二十八卷积层的卷积核大小均为3×3、卷积核个数均为 512、补零参数均为4,扩张参数为4,第二十六激活层和第二十七激活层和第二十八激活层的激活方式均为“Relu”,第二十六批标准化层、第二十六批标准化层、第二十七批标准化层、第二十七激活层、第二十八激活层、第二十八激活层和第一上采样层各自的输出端输出512幅特征图,第一采样层的放大系数为2,采用的方法为双线性差值。

对于第二个RGB显著性输出层,其由第二十九卷积层和第二十九激活层构成,其中第二十九卷积层卷积核大小为1×1、卷积核个数为1,第二十九激活层为sigmoid。

对于第二个热图上采样块以及第二个热图显著性输出层设置均与第二个 RGB上采样块和第二个RGB显著性输出层一致。

对于第二个自适应融合层,它由两个可以自动更新的标量参数W

对于第三个RGB上采样块,其由依次设置的第三十卷积层,第三十批标准化层、第三十激活层、第三十一卷积层,第三十一批标准化层、第三十一激活层、第三十二卷积层,第三十二批标准化层、第三十二激活层和第二上采样层组成;第三十卷积层的输入端为其所在的融合神经网络块的输入端,第三十批标准化层的输入端接收第三十卷积层的输出端输出的所有特征图,第三十激活层的输入端接收第三十批标准化层的输出端输出的所有特征图,第三十一卷积层的输入端接收第三十激活层的输出端输出的所有特征图,第三十一批标准化层的输入端接收第三十一卷积层的输出端输出的所有特征图,第三十一激活层的输入端接收第三十一批标准化层的输出端输出的所有特征图,第三十二卷积层的输入端接收第三十一激活层的输出端输出的所有特征图,第三十二批标准化层的输入端接收第三十二卷积层的输出端输出的所有特征图,第三十二激活层的输入端接收第三十二批标准化层的输出端输出的所有特征图,第二个上采样层的输入端接收第三十二激活层的输出端输出的所有特征图,第二个上采样层的输出端为其所在的神经网络块的输出端;其中,第三十卷积层和第三十一卷积层和第三十二卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数均为6,扩张参数为6,第三十激活层和第三十一激活层和第三十二激活层的激活方式均为“Relu”,第三十批标准化层、第三十批标准化层、第三十一批标准化层、第三十一激活层、第三十二激活层、第三十二激活层和第二上采样层各自的输出端输出256幅特征图,第二采样层的放大系数为2,采用的方法为双线性差值。

对于第三个RGB显著性输出层,其由第三十三卷积层和第三十三激活层构成,其中第三十三卷积层卷积核大小为1×1、卷积核个数为1,第三十三激活层为sigmoid。

对于第三个热图上采样块以及第三个热图显著性输出层设置均与第三个 RGB上采样块和第三个RGB显著性输出层一致。

对于第三个自适应融合层,它由两个可以自动更新的标量参数W

对于第四个RGB上采样块,其由依次设置的第三十四卷积层,第三十四批标准化层、第三十四激活层、第三十五卷积层,第三十五批标准化层、第三十五激活层、第三十六卷积层,第三十六批标准化层、第三十六激活层和第三上采样层组成;第三十四卷积层的输入端为其所在的融合神经网络块的输入端,第三十四批标准化层的输入端接收第三十四卷积层的输出端输出的所有特征图,第三十四激活层的输入端接收第三十四批标准化层的输出端输出的所有特征图,第三十五卷积层的输入端接收第三十四激活层的输出端输出的所有特征图,第三十五批标准化层的输入端接收第三十五卷积层的输出端输出的所有特征图,第三十五激活层的输入端接收第三十五批标准化层的输出端输出的所有特征图,第三十六卷积层的输入端接收第三十五激活层的输出端输出的所有特征图,第三十六批标准化层的输入端接收第三十六卷积层的输出端输出的所有特征图,第三十六激活层的输入端接收第三十六批标准化层的输出端输出的所有特征图,第三个上采样层的输入端接收第三十六激活层的输出端输出的所有特征图,第三个上采样层的输出端为其所在的神经网络块的输出端;其中,第三十四卷积层和第三十五卷积层和第三十六卷积层的卷积核大小均为3×3、卷积核个数均为 128、补零参数均为8,扩张参数为8,第三十四激活层和第三十五激活层和第三十六激活层的激活方式均为“Relu”,第三十四批标准化层、第三十四批标准化层、第三十五批标准化层、第三十五激活层、第三十六激活层、第三十六激活层和第三上采样层各自的输出端输出128幅特征图,第三采样层的放大系数为2,采用的方法为双线性差值。

对于第四个RGB显著性输出层,其由第三十七卷积层和第三十七激活层构成,其中第三十七卷积层卷积核大小为1×1、卷积核个数为1,第三十七激活层为sigmoid。

对于第四个热图上采样块以及第四个热图显著性输出层设置均与第四个 RGB上采样块和第四个RGB显著性输出层一致。

对于第四个自适应融合层,它由两个可以自动更新的标量参数W

对于第五个RGB上采样块,其由依次设置的第三十八卷积层,第三十八批标准化层、第三十八激活层、第三十九卷积层,第三十九批标准化层、第三十九激活层、第四十卷积层,第四十批标准化层、第四十激活层和第四上采样层组成;第三十八卷积层的输入端为其所在的融合神经网络块的输入端,第三十八批标准化层的输入端接收第三十八卷积层的输出端输出的所有特征图,第三十八激活层的输入端接收第三十八批标准化层的输出端输出的所有特征图,第三十九卷积层的输入端接收第三十八激活层的输出端输出的所有特征图,第三十九批标准化层的输入端接收第三十九卷积层的输出端输出的所有特征图,第三十九激活层的输入端接收第三十九批标准化层的输出端输出的所有特征图,第四十卷积层的输入端接收第三十九激活层的输出端输出的所有特征图,第四十批标准化层的输入端接收第四十卷积层的输出端输出的所有特征图,第四十激活层的输入端接收第四十批标准化层的输出端输出的所有特征图,第四个上采样层的输入端接收第四十激活层的输出端输出的所有特征图,第四个上采样层的输出端为其所在的神经网络块的输出端;其中,第三十八卷积层和第三十九卷积层和第四十卷积层的卷积核大小均为3×3、卷积核个数均为64、补零参数均为10,扩张参数为10,第三十八激活层和第三十九激活层和第四十激活层的激活方式均为“Relu”,第三十八批标准化层、第三十八批标准化层、第三十九批标准化层、第三十九激活层、第四十激活层、第四十激活层和第四上采样层各自的输出端输出64幅特征图,第四采样层的放大系数为2,采用的方法为双线性差值。

对于第五个RGB显著性输出层,其由第四十一卷积层和第四十一激活层构成,其中第四十一卷积层卷积核大小为1×1、卷积核个数为1,第四十一激活层为sigmoid。

对于第五个热图上采样块以及第五个热图显著性输出层设置均与第五个 RGB上采样块和第五个RGB显著性输出层一致。

为了进一步验证本发明方法的可行性和有效性,进行实验。

使用基于python的深度学习库Pytorch1.0.1构建本发明方法提出的卷积神经网络的架构。采用真实物体图像数据库VT5000,VT800,VT1000作为测试集,来分析利用本发明方法预测得到的彩色真实物体图像(VT5000取2500幅真实物体图像,VT800取821幅真实物体图像,VT1000取幅真实物体图像)的显著性检测效果如何。这里采用评估视觉显著性检测方法的4个常用客观参量作为评价指标:S度量值(S-measure),E-mean度量值(Enhancedalignment measure), F-mean度量值(F-measure),MAE平均绝对误差(Mean AbsoluteError)。

利用本发明方法对真实物体图像数据库VT5000,VT800,VT1000测试集中的每幅彩色真实物体图像进行预测,得到每幅彩色真实物体图像对应的预测显著性检测图像。本发明的四项指标数值如表1所示。从表1所列的数据可知,按本发明方法生成结果与真实场景标签图的结果非常接近,实验证明本发明方法生成的最终显著性预测图在两个国际公开数据上精度较高且具有一定的鲁棒性,表明本发明在显著性检测中具有有效性。

表1利用本发明方法在三个国际公开数据集上的4个常用客观指标对比

相关技术
  • 一种基于跨层空间对齐的图像显著性检测方法
  • 基于空间-语义显著性约束的CT图像模态对齐方法
技术分类

06120113114866