掌桥专利:专业的专利平台
掌桥专利
首页

一种基于注意力机制的E2CD-YOLO目标检测算法

文献发布时间:2024-04-18 20:00:50


一种基于注意力机制的E2CD-YOLO目标检测算法

技术领域

本发明涉及一种基于注意力机制的E2CD-YOLO目标检测算法,属于计算机视觉中的目标检测领域。

背景技术

近年来,得益于卷积神经网络(CNNs)的飞速发展,许多卓越的目标检测算法被提出,并在众多行业领域中得到应用,其中包括农业、畜牧业、军事、工业、医学等等。YOLOv5正是目前最受欢迎的目标检测算法之一。虽然其主干网络具有良好的特征提取能力,但是对于提取的特征在表达能力上仍存在不足,这将模型的检测性能将产生影响。其次,在颈部的FPN结构中,其利用最近邻插值的方法还原特征图,导致低分辨率特征图向高分辨特征图进行转化时存在信息丢失问题。在PANet中仅使用固定卷积核大小的卷积去整合特征,缺乏全局上下文信息的聚合,这不利于多尺度目标的检测。

发明内容

为了解决上述技术存在的问题,本发明提供了一种基于注意力机制的E2CD-YOLO目标检测算法。在主干网络中从空间维度和通道维度对特征表达进行增强,并添加可变形卷积使得网络在提取特征时可以获得更接近待检测目标的形状和尺寸。解决了在FPN结构中特征图还原转化时存在信息丢失的问题。在PANet中增加了缺失的全局上下文信息。

本发明提供了一种基于注意力机制的E2CD-YOLO目标检测算法,步骤如下:

步骤1:以YOLOv5目标检测模型为基础,设计了一种新的主干网络E2Backbone,应用于E2CD-YOLO主干网络,实现了增强的特征表示;

步骤2:在FPN结构中使用具有内容感知能力的特征重组模块(CARAFE),实现了比最近邻插值算法更准确的特征重组;

步骤3:在PANet中设计了一种双路径transformer模块去整合特征,提高模型的检测性能;

步骤4:设置模型训练超参数,将数据集送入模型进行训练;

步骤5:模型评估。

所述步骤1中包括如下步骤:

步骤1.1:设计了EM-BottleNet模块,并在E2Backbone主干网络中应用,使得网络在关注待检测目标所具有特征的同时,也会关注目标的位置信息,这将进一步增强网络的检测精度;

步骤1.2:EM-BottleNet模块中包含ECA通道注意力、空间注意力和BottleNeck模块;

步骤1.3:在E2Backbone中进一步设计了具有增强通道注意力的可变形卷积(ESE-DCN)模块,进一步提高了主干网络的特征表达能力;

步骤1.4:ESE-DCN模块中包含增强的通道注意力和可变形卷积。

所述步骤2中包括:

步骤2.1:使用具有内容感知能力的特征重组模块(CARAFE)在FPN结构中对特征图进行还原,实现特征上采样操作。

所述步骤3中包括如下步骤:

步骤3.1:设计了一种双路径transformer模块并将其应用于PANet中具有低分率的最后阶段;

步骤3.2:双路径分别是细节路径和语义路径,细节路径捕获输入特征的局部细粒度信息,语义路径捕获输入特征的全局语义信息。

所述步骤4中包括如下步骤:

步骤4.1:设置模型训练时的超参数,主要包括:输入图像分辨率、batch-size、初始学习率、循环学习率、优化器、动量、mosaic数据增强概率、图像翻转概率、模型训练轮数;

步骤4.2:将数据集分为训练集和测试集之后送入模型中进行训练。

所述步骤5中包括如下步骤:

步骤5.1:通过消融实验对EM-BottleNet模块、ESE-DCN模块、CARAFE上采样操作、双路径transformer模块进行实验分析,更清楚表示每个改进点对于模型性能所产生的影响,通过分析mAP指标以更好地评估模型性能。

有益效果:

本发明设计EM-BottleNet模块,并在E2Bcakbone中应用,通过调整通道和空间维度的权重,增强了模型对于提取特征的表达能力。通过在E2Backbone中使用ESE-DCN模块,使得网络在提取特征时可以获得更接近待检测目标的形状和尺寸。通过在FPN结构中使用CARAFE上采样操作实现了比最近邻插值还原度更高的特征图重塑。通过在PANet中使用双路径transformer模块,减少了局部细节信息的提取难度,并进一步丰富了全局语义信息。

附图说明:

图1为YOLOv5目标检测模型整体架构图;

图2为本发明设计的E2CD-YOLO目标检测模型整体架构图;

图3为本发明设计的EM-BottleNet模块结构图;

图4为本发明设计的ESE-DCN模块结构图;

图5为本发明设计的双路径transformer模块结构图;

图6为本发明具体实施方式中消融实验结果图;

具体实施方式:

为了使本发明的目的、技术方案以及有益效果更加清楚,下面结合本发明实施例中的附图,对本发明进行详细的阐述。应当注意,此处本发明实施例的详细描述并非旨在限制保护发明的范围。

本发明提供一种基于注意力机制的E2CD-YOLO目标检测算法,包括以下步骤:

步骤1:设计E2Backbone替换YOLOv5主干网络;

为了进一步提高模型的特征表达能力,本次发明设计了一个EM-BottleNet模块,如图3所示,并应用于E2Backbone中。EM-BottleNet模块中包含通道注意力、空间注意力和BottleNeck模块,这三个模块的执行方式都是并行的。通道注意力和空间注意力通过并行执行的方式起到了相辅相成的作用,使得网络在关注待检测目标所具有特征的同时,也会关注目标的位置信息,这将进一步增强网络的检测精度。

BottleNeck模块的作用是保证提取特征信息的同时避免由于加深网络而导致的梯度消失问题。

通道注意力采用的是ECA注意力机制,先通过全局平均池化在H和W维度将输入特征图

其中,

在执行空间注意力时,先对通道维度进行压缩,然后对于H和W维度取平均值,之后通过一个卷积核大小为7的

BottleNeck模块由一个1×1的卷积、一个3×3的卷积和一个shortcut结构组成。

在所设计的E2Backbone中,使用了具有增强通道注意力的可变形卷积(ESE-DCN)模块,进一步提高了主干网络的特征表达能力。ESE-DCN模块如图4所示。之所以使用ESE通道注意力而没有结合空间注意力,是因为在深层的网络中充斥着大量的语义信息,而空间位置信息是相对较少的,所以使用ESE通道注意力是为了最大限度的利用这些语义信息,同时,为了空间位置信息不被忽略,在BottleNeck中引入了可变形卷积,它跟标准卷积的区别在于采样位置处添加了二维偏移量,使得网络在提取特征时可以获得更接近待检测目标的形状和尺寸。

在SE注意力机制中存在升维和降维操作,这将不可避免的导致通道信息的丢失。而在ESE通道注意力机制中只使用一个通道C进行全连接操作,保持了通道的信息,提升了模型的性能。

ESE通道注意力的计算过程如下:

其中

步骤2:在FPN结构中使用具有内容感知能力的特征重组模块(CARAFE),实现特征上采样操作;

特征上采样操作主要是使低分辨率特征图转化为高分辨率特征图,为不同层次的特征图进行特征融合提供基础。YOLOv5中的最近邻插值主要通过考虑相邻像素区域去填充图像,这就导致在低分辨率特征图向高分辨特征图进行转化时语义信息存在丢失问题。

首先,CARAFE上采样操作具有较大的感受野范围,因此可以在大的感受野范围内聚合上下文语义信息。其次,CARAFE上采样操作还具备内容感知能力,可以根据每个待检测目标位置处的内容去预测出一个重组内核,然后利用预测出的重组内核去重新组合特征。

在CARAFE上采样操作中,对于一个给定的输入特征

其中,

步骤3:在PANet中设计一种双路径transformer模块;

在颈部PANet具有低分率的最后阶段使用了双路径transformer模块。双路径transformer模块如图5所示。双路径分别是细节路径和语义路径。细节路径的作用是捕获输入特征的局部细粒度信息,语义路径的作用是捕获输入特征的全局语义信息。双路径transformer模块克服了现有的transformer结构过度依赖基于滑动窗口的局部注意力,或是基于卷积的局部注意力。这种设计方式加深了细节信息和语义信息之间的相互依赖关系。在形式上,语义路径的输出信息作为细节路径中键和值的丰富先验经验,同时细节路径也为语义路径提供了补充信息,大大减少了局部细节信息的提取难度,并一步丰富了全局语义信息。

语义路径的计算公式如下:

其中,

其中,多头注意力(MHA)的计算公式如下:

其中,

在细节路径中通过将语义路径的输出

细节路径的计算公式如下:

其中

双路径transformer模块的计算公式如下:

考虑到梯度反向通过两条路径传播,因此双路径transformer模块通过细节到语义的交互能够补偿全局特征压缩时的信息损失,并通过语义到细节的交互,使用全局语义信息进一步增强了细粒度局部特征的提取。

步骤4:设置模型训练超参数,将数据集送入模型进行训练;

设置模型训练时的超参数,主要包括:输入图像分辨率为640×640、batch-size为8、初始学习率为0.01、循环学习率为0.01、优化器为SGD、动量为0.937、mosaic数据增强概率为100%、图像翻转概率为50%、模型训练轮数为100;

数据集使用VOC2007+2012,其中训练集选择VOC2007+2012的trainval,测试集选择VOC2007 test。

步骤5:模型评估。

本发明通过消融实验对EM-BottleNet模块、ESE-DCN模块、CARAFE上采样操作、双路径transformer模块进行实验分析,更清楚表示每个改进点对于模型性能所产生的影响,通过分析mAP指标以更好地评估模型性能,其实验结果如图6所示。E2CD-YOLO比YOLOv5在mAP上提升3.3%。

本发明的实施例结合附图进行了说明,但应当指出,上述实施例任意组合所构建的技术方案,包括本领域技术人员在不脱离本发明原理情况下的若干改进和变型,这些改进和变型均属于所附权利要求的限定范围之内。

技术分类

06120116541618