掌桥专利:专业的专利平台
掌桥专利
首页

一种基于分组跨通道注意力可变形卷积网络的检测方法

文献发布时间:2024-04-18 19:58:26


一种基于分组跨通道注意力可变形卷积网络的检测方法

技术领域

本发明属于水下视觉智能感知领域,尤其涉及一种基于分组跨通道注意力可变形卷积网络的检测方法。

背景技术

随着水下机器视觉技术的不断进步,人们对高智能水下机器人在海洋养殖中自主捕捉底栖生物(如海胆、扇贝、海星和海参)的需求也不断增加。需要注意的是,在低对比度、光照不均匀和颜色失真等极其恶劣的水下环境中,自适应运动模糊、视角变化和遮挡等所引起的几何形变对底栖生物检测极具挑战性。在这种情况下,通过引入具有注意机制的可变形卷积神经网络,可提高底栖生物检测准确性。

需要注意的是,底栖生物检测任务在很大程度上依赖于所提取的有效特征。具体来说,传统的基于机器学习的方法(例如SIFT、SURF和HOG等)只能提取有限的低级特征,如颜色、纹理和边缘等,这些特征是通过预先定义的手工描述器获取。不幸的是,在前景和背景之间几乎具有相同颜色的情况下,很难获取有效的语义特征。幸运的是,基于卷积神经网络的高级语义特征提取框架,如VGG、GoogLeNet、ResNet和DenseNet等,已经得到了广泛的发展。相应地,相关学者提出了许多两阶段的目标检测器,其中包括Faster RCNN、SPPNet、FPN和Cascade RCNN等。具体而言,在结合生成对抗网络和白平衡技术的基础上,建立了基于Fast RCNN方法的底栖生物检测框架,可以有效补偿色偏和色差,从而显著提高检测和识别的准确性。本质上,上述方法的区域建议是通过外部的选择性搜索方法来实现,因此无法建立端到端的训练框架。并且,前述的两阶段底栖生物检测方法将区域建议作为一个中间步骤,这明显地增加了计算负担,并且很难提供高效的推理能力。

针对前述问题,SSD、YOLO、G-CNN和OverFeat等方法直接采用回归策略来计算坐标和预测类别。在这种情况下,基于单阶段的方法在底栖生物检测任务中具有明显优势,因此在水下机器人中得到广泛应用。具体而言,考虑到实际环境下极其有限的硬件计算资源,相关学者开发了基于深度可分离卷积的MobileNet-SSD框架,其将标准卷积分解为深度卷积和逐点卷积,从而显著减少了训练参数并且改善了非线性映射能力。为了进一步提高检测速度和减少冗余计算,通过使用卷积核剪枝技术剔除对检测性能贡献较低的神经元,研究人员提出了一种剪枝SSD方法,其检测速度和准确性分别可达到46.4FPS和89.54%。值得注意的是,基于SSD的底栖生物检测方法使用大量长宽比为定值的先验框,并未充分利用底栖生物的先验维度知识,从而不可避免地导致检测性能较差。为了解决上述问题,利用K-means维度聚类的方法,建立了基于YOLO的底栖生物检测框架,其使用不同尺度锚框来预测边界框的坐标,从而显著提高了底栖生物检测的准确性。

复杂多域场景下底栖生物检测技术主要存在如下缺陷:(1)标准卷积神经网络本身具有固定的几何采样结构,因此上述的检测框架难以正确地检测和识别由于遮挡、运动模糊和视角变化引起的几何形变物体;(2)由于只有偏移位置和整数位置之间的距离信息被线性利用,没有充分利用特征差异,这极其容易使得特征细节退化;(3)利用隐层维度降低的单隐层前馈网络方法会破坏通道与权重之间的直接对应关系,并且不可避免地引入大量的权重参数。另一方面,使用全局平均池化或全局最大池化操作很难综合性地提供极具表达能力的通道描述符来充分描述整个特征图的统计信息。

发明内容

为了解决上述问题,本发明采用的技术方案是:一种基于分组跨通道注意力可变形卷积网络的检测方法,包括以下步骤:

获取待识别底栖生物图片构成的数据集,将所述数据集按照比例划分成训练集和测试集;

构建用于识别图片上底栖生物的分组跨通道注意力可变形卷积神经网络模型;

基于训练集对分组跨通道注意力可变形卷积神经网络模型进行训练,得到训练好的分组跨通道注意力可变形卷积神经网络模型;

将测试集数据输入到训练好的分组跨通道注意力可变形卷积神经网络模型中,实现对图片上底栖生物种类的识别。

进一步地:所述分组跨通道注意力可变形卷积神经网络模型包括多个级联的分组跨通道注意力可变形卷积神经网络单元;

所述分组跨通道注意力可变形卷积神经网络单元包括第一卷积层、第二卷积层、双边滤波插值可变卷积神经网络模块和随机分组跨通道注意力模块;其中第一卷积层作用为增加非线性映射能力;第二卷积层作用为提取特征;双边滤波插值可变卷积神经网络模块作用为增加形变底栖生物特征构建能力;随机分组跨通道注意力模块的作用为抑制海底背景噪声。

第一卷积层、第二卷积层、双边滤波插值可变卷积神经网络模块和随机分组跨通道注意力模块依次级联。

进一步地:所述双边滤波插值可变卷积神经网络模块的构建如下:

3×3卷积核的标准采样位置表示为:

P={(u,v)|u,v∈{-1,0,1}} (1)

其中:P是采样位置(u,v)的集合;

卷积核内每个元素的形变偏移位置描述为:

其中:m=1,2,…,n,n=|P|,p

其中,w和h分别表示当前特征图的宽度和高度;

通过在X方向上使用线性插值,计算出特征值

其中p

特征值

沿Y方向的线性插值表示为:

其中

随后,空间相似度

其中,★∈{tl,tr,bl,br},p

特征相似度

其中σ

在这种情况下,偏移位置处的组合权重可表示为:

在这种情况下,偏移位置

其中,

最后,整个可变形卷积模块表示为:

其中,

进一步地:所述随机分组跨通道注意力模块的构建过程如下:

为了捕捉特定的语义响应,给定的X被分为g组,即

随后,使用信息熵技术统计每一个特征图信息,单个特征图中特征概率统计表示为:

其中,i=1,2,…,l,j=1,2,…,c/g,n=1,2,…,g,

相应地,单个特征图的信息熵可以表示为:

其中:

此外,基于1-D卷积技术,提出了随机分组跨通道注意力模块,确定最优的卷积核大小k通过如下方式确定:

其中,k代表1-D卷积中滤波器大小,即跨通道交互的覆盖范围,γ和b是超参数,高维和低维通道分别对应于较大和较小的滤波器,并且呈现非线性关系。此外,通道权重可表示为:

其中,

进一步地,第n组特征图中重新校准输出表示为:

其中,

为加强不同组之间的信息交流,采用通道混洗操作,其可表示为:

其中:

一种基于分组跨通道注意力可变形卷积神经网络的底栖生物检测装置,包括:

获取模块:用于获取待识别底栖生物图片构成的数据集,将所述数据集按照比例划分成训练集和测试集;

构建模块:用于构建用于识别图片上底栖生物的分组跨通道注意力可变形卷积神经网络模型;

训练模块:用于基于训练集对分组跨通道注意力可变形卷积神经网络模型进行训练,得到训练好的分组跨通道注意力可变形卷积神经网络模型;

实现模块:用于将测试集数据输入到训练好的分组跨通道注意力可变形卷积神经网络模型中,实现对图片上底栖生物种类的识别。

本发明提供的一种基于分组跨通道注意力可变形卷积网络的检测方法,具有以下优点:

通过利用偏移位置和整数位置之间的空间相似性和特征相似性,创建了双边滤波插值可变形卷积神经网络模块,能够有效保留高频特征和维持边缘特性,进而能够自适应地增强卷积核空间采样能力;

为分别增强底栖生物特征和抑制水下背景噪声,创新性地设计了混洗分组跨通道注意力模块,使用信息熵技术刻画子特征图信息量,借助1-D卷积技术,有助于从通道层面来增强底栖生物特征;

通过有机地集成BDC和SGCA模块,建立了SGCA-BDC框架,从空间和通道层面来增强底栖生物特征,最终有助于提高底栖生物检测的准确性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是3×3卷积核采样位置示意图;(a)标准采样位置(绿点);(b)形变采样位置(红点);

图2是双边滤波器插值图;

图3是SGCA模块组成图;

图4是SGCA-BDC模块图;

图5是特征采样位置可视化,(a)原始图像;(b)标准卷积采样位置;(c)BDC模块采样位置;

图6是预测性能与比较;(a)用于检测海胆的P-R曲线;(b)用于检测扇贝的P-R曲线;(c)用于检测海星的P-R曲线;(d)用于检测海参的P-R曲线;

图7是真实水下环境下检测结果对比图。

具体实施方式

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合,下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。

此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。

一种基于分组跨通道注意力可变形卷积网络(Shuffled Grouping Cross-Channel Attention-based Bilateral-Filter-Interpolation Deformable ConvNets,SGCA-BDC)的检测方法,包括以下步骤:

S1:获取待识别底栖生物图片构成的数据集,将所述数据集按照比例划分成训练集和测试集;

S2:构建用于识别图片上底栖生物的分组跨通道注意力可变形卷积神经网络模型;

S3:基于训练集对分组跨通道注意力可变形卷积神经网络模型进行训练,得到训练好的分组跨通道注意力可变形卷积神经网络模型;

S4:将测试集数据输入到训练好的分组跨通道注意力可变形卷积神经网络模型中,实现对图片上底栖生物种类的识别。

步骤S1/S2/S3/S4顺序执行;

进一步地:所述底栖生物检测网络包括多个级联的分组跨通道注意力可变形卷积神经网络单元;

所述分组跨通道注意力可变形卷积神经网络单元包括第一卷积层、第二卷积层、双边滤波插值可变卷积神经网络模块和随机分组跨通道注意力模块;其中第一卷积层作用为增加非线性映射能力;第二卷积层作用为提取特征;双边滤波插值可变卷积神经网络模块作用为增加形变底栖生物特征构建能力;随机分组跨通道注意力模块的作用为抑制海底背景噪声。

第一卷积层、第二卷积层、双边滤波插值可变卷积神经网络模块和随机分组跨通道注意力模块依次级联。

进一步地:所述双边滤波插值可变卷积神经网络模块的构建如下:

通过设计双边滤波插值可变卷积神经网络(Bilateral-Filter-InterpolationDeformable ConvNets,BDC)模块来增强常规卷积核在空间方面的采样能力。如图1所示,3×3卷积核的标准采样位置可表示为:

P={(u,v)|u,v∈{-1,0,1}}(1)

其中P是采样位置(u,v)的集合。

卷积核内每个元素的形变偏移位置可描述为:

其中m=1,2,…,n,n=|P|,p

其中,w和h分别表示当前特征图的宽度和高度。

此外,如图2所示,通过在X方向上使用线性插值,可以计算出特征值

其中p

类似地,特征值

相应地,沿Y方向的线性插值可表示为:

其中:

随后,空间相似度

其中,*∈{tl,tr,bl,br},p

特征相似度

其中:σ

在这种情况下,偏移位置处的组合权重可表示为:

在这种情况下,偏移位置

其中,

最后,整个可变形卷积模块可表示为:

其中,

进一步地:所述随机分组跨通道注意力模块的构建过程如下:

从通道的角度来看,抑制与海底背景噪声相关的特征图可以显著提高海底生物检测的准确性。在这种情况下,设计随机分组跨通道注意力模块来自适应地重新校准通道权重。如图3所示,为了捕捉特定的语义响应,给定的X被分为g组,即

随后,使用信息熵技术统计每一个特征图信息。单个特征图中特征概率统计可表示为:

其中,i=1,2,…,l,j=1,2,…,c/g,n=1,2,…,g,

相应地,单个特征图的信息熵可以表示为:

其中:

此外,基于1-D卷积技术,提出了局部跨通道注意力方法。需要注意的是,很难直接确定最优的卷积核大小k。为了增加非线性映射能力,可以通过如下方式确定:

其中,k代表1-D卷积中滤波器大小,即跨通道交互的覆盖范围,γ和b是超参数。从中可以清楚地看到,高维和低维通道分别对应于较大和较小的滤波器,并且呈现非线性关系。此外,通道权重可表示为:

其中,

进一步地,第n组特征图中重新校准输出可表示为:

其中,

为加强不同组之间的信息交流,采用通道混洗操作,其可表示为:

其中:

为了同时从空间和通道角度提高底栖生物检测准确性,增强底栖生物特征和抑制海底背景噪声是至关重要。如图4所示,通过顺序组合双边滤波插值可变卷积和随机分组跨通道注意力模块形成SGCA-BDC模块。

一种基于分组跨通道注意力可变形卷积神经网络的底栖生物检测装置,包括:

获取模块:用于获取待识别底栖生物图片构成的数据集,将所述数据集按照比例划分成训练集和测试集;

构建模块:用于构建用于识别图片上底栖生物的分组跨通道注意力可变形卷积神经网络模型;

训练模块:用于基于训练集对分组跨通道注意力可变形卷积神经网络模型进行训练,得到训练好的分组跨通道注意力可变形卷积神经网络模型;

实现模块:用于将测试集数据输入到训练好的分组跨通道注意力可变形卷积神经网络模型中,实现对图片上底栖生物种类的识别。

具体实施方案

3.1双边滤波可变形卷积网络性能

为有效说明所提出BDC模块的有效性和优越性,综合性的与DCNv1和DCNv2进行深入比较。为了方便比较,采用YOLOv3作为基准检测器,比较分辨率为416×416。使用AP和mAP作为量化指标,比较结果如表1所示。

表1

从表中可以清楚地看出,基于DCNv1或DCNv2的检测框架可实现比基准框架更高的检测精度,因为采用位置偏移技术可以提取更具代表性的语义信息。相比之下,基于DCNv2的框架可以实现比基于DCNv1检测方法更高的检测精度,因为DCNv2在采样位置处充分考虑了权重调制机制,从而显著减少了不相关因素所造成的影响。此外,需要注意的是,BDC框架的检测性能受到空间平滑参数σ

3.2信息熵统计性能

在信息熵统计评估方面,如表2所示,

表2

考虑GMP和GAP技术与所提出的方法进行比较。从表2中可以清楚地看到,无论使用GAP或者GMP技术来统计特征图信息,基于通道注意力的检测方法都可以同时提高mAP@.5、mAP@.75和mAP@[.5,.95]指标值。最重要的是,通过信息熵技术能够生成更符合实际的特征描述,因此基于信息熵统计方法可获得更优越的检测性能。因此,可以得出结论,所提出的信息熵统计方法对SGCA-BDC框架具有积极的促进作用。

3.3消融研究

为了全面研究SGCA-BDC框架中每个组件的作用,开展了相应的消融研究试验,包括不使用DCN模块(即W/O DCN)、不使用分组操作(即W/O grouping operation)、不使用信息熵统计(即W/O IES)、不使用跨通道注意力(即W/Ocross-channel attention)和不使用混洗操作(即W/O shuffle)。在576×576分辨率下开展综合性消融试验,表3总结相应的结果。

表3

从中可以清楚地观察到消除DCN模块会显著影响检测性能,从空间角度来看,这意味着卷积核的特征采样能力受到极大影响。需要注意的是,根据mAP@.5、mAP@.75和mAP@[.5,.95]指标值,移除跨通道注意力会导致检测性能下降,这是因为与底栖生物和海底背景相关的特征图无法在每个子组中分别得到增强和抑制。此外,移除混洗操作会导致检测精度降低。这表明在不同子组之间执行混洗操作可促进信息交流。此外,不使用分组操作和信息熵统计会导致检测精度下降,这表明很难捕捉到特定的语义响应和综合性的通道统计信息。

3.4注意力性能比较

为充分展示所提出的SGCA-BDC框架的优越性,考虑三种代表性的基于注意力的检测方法(即SENet、CBAM和SKNet,)来开展全面的比较。比较结果如表4所示,

表4

从中可以清楚地观察到,借助于任意一种注意力机制都可以显著提高检测精度,这意味着使用注意力策略可以自适应地增强底栖生物特征和抑制海底背景噪声。此外,基于SENet框架的检测性能明显不如其他同类方法,这是因为SENet框架仅利用了通道注意力策略。另外,尽管CBAM方法同时使用了通道和空间注意力,但其检测精度仍不如所提出的SGCA-BDC框架。主要原因可以总结如下:在通道注意力方面,采用两个维度降低的全连接层会严重破坏权重和隐层之间的对应关系;另外,使用单个卷积核很难同时生成大、中、小尺度的区域权重响应。值得注意的是,尽管选择性核网络可以有效调整感受野,但SKNet框架的检测性能仍然不如所提出的SGCA-BDC框架,这是因为SKNet采用了标准卷积策略,因此只提供了非常有限的空间建模能力。此外,由于BDC和SGCA模块在空间和通道方面具有强大的特征提取和通道依赖校准能力,所提出的SGCA-BDC框架在mAP@.5、mAP@.75和mAP@[.5,.95]指标上能够取得最优的检测精度。

相应地,准确率-召回率(P-R)曲线如图6所示,特别是对于海星和海参类别,可以直观地看到所提出的SGCA-BDC框架可以在准确率和召回率之间达到最优平衡。此外,在海参和扇贝类别检测方面,尽管SGCA-BDC框架的准确率比其他方法低,但SGCA-BDC方法可以获得更高的召回率,这表明SGCA-BDC方法可以检测到图像中更多的底栖生物。

3.5与最先进检测方法比较

为了全面展示所提出的SGCA-BDC框架的优越性,考虑了典型的两阶段检测方法Faster RCNN、基于锚框的单阶段检测方法SSD、YOLOv3、RetinaNet和YOLOv4,以及基于无锚框的单阶段检测框架CenterNet,比较结果如表5所示。

表5

从中可以明显看到,在608×608分辨率下,所提出的SGCA-BDC框架可获取最优越的mAP@.5、mAP@.75和mAP@[.5,.95]指标值。需要注意的是,通过结合空间金字塔池化和路径聚合网络,YOLOv4框架借助于强大的特征提取网络CSPDarkNet53可获得最佳的海参检测精度。虽然CenterNet实现了最具竞争力的检测速度,但由于缺乏底栖生物的先验尺度信息(即不使用锚框机制),CenterNet方法很难提供与SGCA-BDC框架相一致的检测精度。此外,在不使用注意力机制的情况下,特征提取过程中不可避免地引入无用噪声,因此YOLOv3和SSD框架很难实现与SGCA-BDC框架相一致的检测精度。需要注意的是基于MobileNet的SSD框架可在300×300分辨率下获得最具竞争力的49.04FPS检测速度。此外,Faster RCNN的mAP@.5、mAP@.75和mAP@[.5,.95]指标值比SGCA-BDC框架分别低21.52%、4.95%和6.8%,其主要原因是Faster RCNN仅使用最终的卷积层来检测底栖生物。此外,由于RPN生成大量与类别无关的候选区域,因此Faster RCNN框架只能实现5.95FPS的检测速度。

3.6真实环境验证

为了充分验证SGCA-BDC框架在真实环境下的检测优越性,考虑了四种典型水下场景,包括1)运动模糊(第一列),2)海胆遮挡(第二列),3)海参遮挡(第三列)和4)不同尺度的底栖生物(第四列),相应的检测结果如图7所示。从中可以清楚地看到,在运动模糊方面所提出的SGCA-BDC框架能够超过所比较的同类方法。此外,虽然SGCA-BDC框架并非能够正确检测和识别所有感兴趣底栖生物,得益于对几何形变底栖生物的鲁棒建模能力,SGCA-BDC框架可有效地检测类内遮挡的海胆和海参(即第二列和第三列)。Faster RCNN和CenterNet方法利用RPN和DCN技术能够分别提前生成候选边界框和增强卷积核采样位置,相比于所提出的SGCA-BDC框架,其仅能实现次优检测性能。通过联合使用BDC和SGCA模块,所提出的SGCA-BDC框架可以有效地保留小尺度底栖生物语义特征,从而显著提高检测能力(即第四列)。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 基于通道分组注意力机制的文本检测方法
  • 基于通道分组注意力机制的文本检测方法
技术分类

06120116492211