掌桥专利:专业的专利平台
掌桥专利
首页

基于多层次残差网络感知和注意力机制的小目标检测方法

文献发布时间:2023-06-19 16:11:11



技术领域

本发明涉及目标检测与识别领域,涉及基于多层次残差网络感知和注意力机制的小目标检测方法。

背景技术

当前不同场景对于小目标的定义各不相同,目前尚未形成统一的标准。现有的主流小目标定义方式主要分为以下两类,即基于相对尺度的定义与基于绝对尺度的定义。相对尺度一般定义为边界框面积与图像面积之比的中位数在0.08%到0.58%之间。绝对尺度一般定义为分辨率小于32像素×32像素的目标。现有算法的设计往往更为关注大、中尺度目标的检测性能。针对小目标特性的优化设计并不多,加之小目标缺乏充足的外观信息,定位困难,导致现有算法在小目标检测上普遍表现不佳。

小目标检测是目标检测下的一个分支,和目标检测一样,即找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的类别和位置。目前主流的目标检测算法主要是基于深度学习模型,大概可以分成两大类别:(1)One-Stage目标检测算法,这类检测算法不需要Region Proposal阶段,可以通过一个Stage直接产生物体的类别概率和位置坐标值,比较典型的算法有YOLO、SSD和CornerNet;(2)Two-Stage目标检测算法,这类检测算法将检测问题划分为两个阶段,第一个阶段首先产生候选区域(RegionProposals),包含目标大概的位置信息,然后第二个阶段对候选区域进行分类和确定位置,这类算法的典型代表有Fast R-CNN,Faster R-CNN,Cascade R-CNN等。目标检测模型的主要性能指标是检测准确度和速度,其中准确度主要考虑物体的定位以及分类准确度。一般情况下,Two-Stage算法在准确度上有优势,而One-Stage算法在速度上有优势。不过,随着研究的发展,两类算法都在两个方面做改进,均能在准确度以及速度上取得较好的结果。

目前小目标检测主要从四个方面入手:数据增强、多尺度学习、上下文学习、无锚框机制。小目标面临着分辨率低、可提取特征少、样本数量匮乏等诸多挑战,提高小目标检测精度需要引入多种策略,实际应用中,往往需要针对目标特性做出优化,设计不当的数据增强、上下文学习、多尺度学习测策略可能会引入新的噪声,损害特征提取的性能,大多方法在提高检测性能的同时也增加了额外的计算量,用牺牲时间的方式换取准确度的提升,或者牺牲准确度的方式换取时间,并且在特征融合过程中难以避免干扰噪声的影响,这些问题导致了小目标检测性能难以得到进一步提升。

发明内容

本发明提供了基于多层次残差网络感知和注意力机制的小目标检测方法,解决了传统目标检测方法中,小目标物体漏检,误检,分辨率导致低可利用特征少,训练样本少,对损失函数贡献少,定位困难等诸多问题。

该方法具体包含以下步骤:

1)选择性样本复制增强扩充训练集,具体操作如下:

预先统计好各类样本数量,选择性复制样本增强后所有样本保证比例统一,将缩放或放大图片随机放置任意图片任意位置并随机添加一种图像抖动,所述图像抖动包括小幅度旋转变换、高斯模糊、椒盐噪声,并添加对应位置和类别图片标注文件。

2)将训练集图像输入到骨干网络中,按照骨干网络结构顺序,使用多层残差卷积提取图像多维度特征,再将提取到多尺度特征输入到下采样层,生成待检测图像尺度依次减小的特征映射图。

3)将经过下采样层得到最小特征映射图输入到普通卷积层和上采样层,经过两次最近邻插值上采样,生成检测图像尺度依次增大的特征映射图。

4)利用注意力机制增强浅层特征图,将上采样得到最后一层特征图输入到空间和通道注意力层,放大空间和通道特征。

5)融合经过骨干网络得到的尺度特征图,得到尺度检测层,通过滑动窗口依次在不同检测层从左向右,从上到下检测特征图,将选中特征输入到全连接层中,给出目标预测框,使用非极大值抑制过滤预测框,最终给出目标位置信息、置信度、类别信息,再将得到的信息对比真实框信息,得到总的损失,通过反向传播的方式更新每层卷积权重和偏置。

6)采集待检测图像,将图像送入到已经训练好的模型中,进一步地生成大量预测框,接着采用非极大值抑制算法消除重叠框后生成最终的检测结果。

优选的,所述步骤一中目标样本面积缩放方式具体如下:将目标样本面积小于500像素随机放大到原图的1.5 - 2倍,样本面积在500到1000像素之间随机缩放至原图的0.9–1倍,样本面积在1000到1500像素之间随机缩放至原图的0.8–0.9倍,样本面积在1000到2000像素之间随机缩放至原图的0.7–0.8倍,样本面积在2000到3500像素之间随机缩放至原图的0.6–0.7倍,样本面积在3500到5500像素之间随机缩放至原图的0.5–0.6倍,样本面积在5500到7500像素之间随机缩放至原图的0.3 –0.4倍,样本面积大于7500像素目标图片随机缩放至原图的0.2–0.3倍。

优选的,所述使用多层残差卷积提取图像多维度特征具体步骤如下:

将采集到的待检测图像输入到卷积神经网络中,输入尺寸W×H像素,W为图片长度,H为图片宽度,单位是像素。

通过Focus切片操作,由原来的B×3×W×H变为B×64×W/2×H/2,其中B为Batchsize大小。

使用残差卷积将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层,x是自定义的参数。

第一层不经过卷积直接添加到x_空张量中,第二层至第x层由上一层切片加上本层切片经过卷积得到,将每一层特征图按列融合,得到经过多层残差卷积后的特征图变为B×1024×W/32×H/32。

优选的,所述利用注意力机制增强浅层特征图具体步骤如下:

将得到的特征图放入通道和空间注意力模块。

特征图在通道注意力中同时沿着通道方向分别做平均池化和最大池化操作,池化后的两个特征图按通道维度融合成一个特征图。

对融合后的特征图使用s×s卷积核卷积,得到特征图经过通道注意力的结果。

将经过通道注意力特征图放入空间注意力中,将图片中的空间域信息做空间变换,提取关键相对空间位置信息和绝对空间位置信息。

优选的,所述尺度检测层具体如下:

原始待检测图像经过Focus卷积和一层残差卷积后与高层特征图融合得到特征金字塔P2层,P2经过下采样与二层残差卷积融合得到特征金字塔P3层,P3层经过下采样与P2层之前第3层相结合得到P4层,P4层经过下采样与经过三层残差卷积和多次普通卷积融合得到P5层。

优选的,利用损失函数反向传播优化模型权重和偏置,所述损失函数具体如下:

式中:

其中,

其中

其中

本发明的优点和有益效果:

1)通过选择性样本复制生成,解决了训练数据集中小目标数据量少的问题,并且选取的困难样本有助于提高模型的泛化能力。

2)使用多层残差卷积提取多维度特征,提高小目标检测到概率同时不影响检测中、大目标的性能。

3)使用低维特征提取及注意力机制增强浅层特征图,可以提取到关键信息,放大小目标特征。

4)改变特征金字塔连接方式,增强语义信息和定位信息。

5)多损失函数联合训练,减少易分类样本的权重,使得模型在训练时更专注于难分类的样本。

6)多检测层预测,使各个尺度的锚框有合理的铺设间隔。不同尺度的锚框用来检测不同尺度的物体,检测效果更好。

7)本文发明的基于多层次残差网络感知和注意力机制的小目标检测方法,在相关的小目标数据集中达到了优异的效果。

附图说明

图1为本发明的简要结构图;图中:Cat表示特征拼接。

图2为本发明具体网络结构图;图中:Cat表示特征拼接。

图3为训练和验证loss(包括边框回归损失、分类损失、物体得分损失)下降图,x轴是epoch次数,y轴是loss值。

图4为原始图片与数据增强后的对比图,其中,(a)图是原始图片,(b)图是增强后的图片。

图5为原始YOLOv5l模型与改进后的模型检测效果对比图,其中,(a)图、(c)图、(e)图是原始YOLOv5l模型检测的图片;(b)图、(d)图、(f)图是改进后模型检测的图片。

图6为特征图可视化图,其中(a)为原模型第一次Concat后特征图,(b)为改进后模型第一次Concat后特征图。

图7为不同模块对模型性能的影响示意图;图中:mAP(0.5:0.95)表示在不同IoU阈值(从0.5到0.95,步长0.05)上的平均mAP;mAP0.5表示在不同IoU阈值0.5上的平均mAP;Params(M)表示参数个数,单位是兆字节;GFLOPs(640B)表示正向推理的计算量,表示模型复杂度,640B代表在图片大小为640×640情况下。

图8为原分类采用

具体实施方式

下面结合附图对本发明作进一步的描述。

实施例:

如图1所示,为本发明的基于多层次残差网络感知和注意力机制的小目标检测方法的操作流程图,该方法的实现步骤细节如下:

1)选择性样本复制增强扩充训练集,具体操作如下:

由于训练数据集样本数小目标较少,训练后会使得模型的泛化能力差,模型不能很好地拟合目标数据,选择性样本复制增强可以更好的解决上述问题;本发明设计选择性样本复制增强不同于以往Copy-Paste。本发明设计将目标样本面积小于500像素随机放大到原图的1.5 - 2倍,样本面积在500到1000像素之间随机缩放至原图的0.9 – 1倍,样本面积在1000到1500像素之间随机缩放至原图的0.8 – 0.9倍,样本面积在1000到2000像素之间随机缩放至原图的0.7 –0.8倍,样本面积在2000到3500像素之间随机缩放至原图的0.6– 0.7倍,样本面积在3500到5500像素之间随机缩放至原图的0.5 – 0.6倍,样本面积在5500到7500像素之间随机缩放至原图的0.3 – 0.4倍,样本面积大于7500像素目标图片随机缩放至原图的0.2 – 0.3倍,这样做可以得到多尺度样本,让模型泛化性能进一步提升。为了使样本平衡,避免出现某个样本因为数量少导致过拟合,本发明设计选择性复制样本增强会预先统计好各类样本数量,选择性复制样本增强后尽量让所有样本保证相同比例,将缩放或放大图片随机放置任意图片任意位置并添加适量抖动,减小每个图片之间的相似性,并添加相应的图片标注文件添加增加的目标信息。

具体公式如下:

式中:

2)将训练集图像输入到骨干网络中,按照骨干网络结构顺序,使用多层残差卷积提取图像多维度特征,再将提取到多尺度特征输入到下采样层,生成待检测图像尺度依次减小的特征映射图。

将原始模型采用的C3卷积替换为提取多尺度特征能力更强的残差卷积。将增强后的RGB图像输入到卷积神经网络中,输入尺寸W×H像素,W为图片长度,H为图片宽度,单位是像素。先经过Focus切片操作,由原来的B×3×W×H变为B×64×W/2×H/2,其中B为Batchsize大小。用残差卷积代替模型原先采用的C3卷积,残差卷积先将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层,x是自定义的参数,默认为4。第一层不经过卷积直接添加到x_空张量中,其余部分由上一层切片加上本层切片经过卷积得到,最终将每一层特征图按列融合,得到经过多层残差卷积后的特征图。经过3次多层残差卷积,最终得到B×1024×W/32×H/32特征图,具体流程可见图2。

3)将经过下采样层得到最小特征映射图输入到普通卷积层和上采样层,经过两次最近邻插值上采样,生成检测图像尺度依次增大的特征映射图。

原图经过步骤二得到B×1024×W/32×H/32特征图,在经过两次最近邻插值上采样,分别是2倍上采样和4倍上采样,会得到B×256×W/4×H/4特征图。

4)利用注意力机制增强浅层特征图,将上采样得到最后一层特征图输入到空间和通道注意力层,放大空间和通道特征。

将得到的特征图放入通道和空间注意力模块(CBAM, Convolution BlockAttention Module),注意力机制可以根据网络中每层不同的特征的重要性不同,注重其中重要的信息,抑制不重要的信息。其中通道维度计算公式如下:

其中

空间注意力计算公式如下:

其中

5)融合经过骨干网络得到的尺度特征图,得到尺度检测层。具体如下:

RGB图经过残差卷积提取到的浅层特征图与RGB图经过下采样和下采样双重操作后的特征图融合。图像的低层的特征语义信息比较少,但是目标位置准确,愈深层特征包含的高层语义性愈强、分辨能力也愈强,但目标定位信息不明确。图像经过上采样到与之相匹配浅层特征图同样大小,两者进行融合操作,保留定位信息的同时也保留了强语义信息。

原始模型只包含P3、P4、P5检测层,本发明中加入P2检测层。原始RGB图像经过Focus卷积和一层残差卷积后与高层特征图融合得到P2层,P3层由P2经过下采样与二层残差卷积融合而得,P4层由P3层经过下采样与P2层之前第3层相结合而得,P5层由P4层经过下采样与经过三层残差卷积和多次普通卷积融合而得。改变原模型浅层特征图与高层特征图连接方式,语义信息与定位信息相互结合,更好的检测到小目标。

通过滑动窗口依次在不同检测层从左向右,从上到下检测特征图,将选中特征输入到全连接层中,给出目标预测框,使用非极大值抑制过滤预测框,最终给出目标位置信息、置信度、类别信息,再将得到的信息对比真实框信息,得到总的损失,通过反向传播的方式更新每层卷积权重和偏置。

6)采集待检测图像,将图像送入到已经训练好的模型中,进一步地生成大量预测框,接着采用非极大值抑制算法消除重叠框后生成最终的检测结果。

特别的,原模型分类采用的是交叉熵损失函数,本发明发明的分类损失函数(Ultra Focal Loss)是基于焦点损失(Focal Loss)改进而来的。由于检测任务中小目标负样本数量往往比较大,占总的loss的大部分,而且多是容易分类的,因此使得模型的优化变得异常困难,使用改进后的函数可以通过减少易分类样本的权重,增加难分样本损失值,使得模型在训练时更专注于难分类的样本。不同于焦点损失的是,改进后的损失比焦点损更注重难分样本,损失函数变化更大,更加适合本发明模型。分类损失函数公式如下:

其中,

在本发明原模型边框回归采用的是CIoU损失,其公式如下:

其中

改进后的边框回归损失VIoU如下所示:

其中

物体得分损失采用原模型的二分类交叉熵逻辑(BCEWithLogitsLoss)损失,公式如下所示:

其中

为了证明本发明的有效性,在公开的小目标数据集VisDrone2019上进行了实验,GPU采用Tesla A100(40G),BatchSize设为16,epochs设为200,Conf-thres设为0.7(验证集得出的最佳结果),Iou-thres设为0.45(验证集得出的最佳结果),测试数据采用的是VisDrone2019-DET-test-dev。实验的评价指标采用的是mAP0.5:0.95和mAP0.5。其中,mAP0.5:0.95表示在不同IoU阈值(从0.5到0.95,步长0.05)(0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均准确率,mAP0.5表示IoU阈值设为0.5时的平均准确率。最终在640×640分辨率且不使用预训练模型的情况下mAP0.5:0.95可以到达36.8,mAP0.5可以达到51.3,在1536×1536分辨率下mAP0.5:0.95可以到达37.1,mAP0.5可以达到52.2。

不同模块对本发明方法的性能比较如图5所示,从图中可以看出,本发明提出的基于多层次残差网络感知和注意力机制的小目标检测方法具有优良的性能。

最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制;尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

相关技术
  • 基于多层次残差网络感知和注意力机制的小目标检测方法
  • 一种基于残差神经网络和注意力机制的微表情识别方法
技术分类

06120114730782