掌桥专利:专业的专利平台
掌桥专利
首页

一种基于改进RetinaNet的快速目标检测方法

文献发布时间:2024-01-17 01:24:51


一种基于改进RetinaNet的快速目标检测方法

技术领域

本发明属于计算机视觉领域,特别涉及一种基于改进RetinaNet的快速目标检测方法。

背景技术

随着目标检测任务中小目标的重要性日益凸显,FPN(Feature Pyramid Network)成为一种常用的技术,用于提升小目标的检测性能。然而,FPN的浅层特征图通常具有最大的尺度,这导致在进行特征提取和后续计算时,会产生较高的计算量。这样的计算负担可能限制了在实际应用中将FPN扩展到更大的图像尺寸或更深的网络结构。为了减小计算量,同时又不损害FPN的性能,研究人员提出了一些方法和技术。一种常见的方法是通过对浅层特征图进行下采样,降低其分辨率,从而减小计算量。这可以通过使用更大的步长或者池化操作实现。通过减小浅层特征图的分辨率,可以在一定程度上减少每个像素点上的计算量,尤其是针对小目标区域,因为小目标通常不需要高分辨率的特征。另一种方法是通过引入注意力机制,将计算资源更集中地分配给感兴趣的区域。例如,可以使用空间注意力机制或通道注意力机制,根据目标的重要性或区域的显著性,调整不同层次的特征图的权重。这样可以使网络更关注对小目标检测有贡献的特征图,从而减少不必要的计算量。此外,还有一些进一步的优化策略,如网络剪枝、参数量化、硬件加速等,可以进一步降低计算量,提高FPN的计算效率。

发明内容

本发明提供一种基于改进RetinaNet的快速目标检测方法,旨在改进算法的计算效率,并控制检测平均精度AP不会大幅下降。

为解决上述技术问题,本发明对于目标检测网络模型RetinaNet作出了针对性改进,包括以下步骤:

S1、从数据集获得待检测图像,输入到RetinaNet骨干网络,并获得输出P3、P4、P5、P6、P7特征图;

S2、在原有两个用于分类和回归的检测头外,训练额外目标位置查询检测头,设置大目标位置检测头,检测P7和P6特征图,设置中目标位置检测头,检测P6和P5特征图,设置小目标位置检测头,检测P5和P4特征图;

S3、大目标位置检测头训练为只检测目标尺寸大于64的目标,中目标位置检测头训练为只检测目标尺寸在32到64的目标,小目标位置检测头训练为只检测目标尺寸在32以下的目标;检测头输出当前检测特征图每个位置存在的概率,对位置进行阈值筛选,可获得存在目标的位置;

S4、使用大目标位置检测头检测P7特征图,获得存在大目标的位置,然后将这些位置还原到P6特征图,使用大目标位置检测头检测P6特征图,获得存在大目标的位置,并和P7传来的位置合并,然后将合并位置还原到P5特征图,并将还原的位置认为是P5特征图存在大目标的位置;

S5、使用中目标位置检测头检测P6特征图,获得存在中目标的位置,然后将这些位置还原到P5特征图,使用中目标位置检测头检测P5特征图,获得存在中目标的位置,并和P6传来的位置合并,然后将合并位置还原到P4特征图,并将还原的位置认为是P4特征图存在中目标的位置;

S6、使用小目标位置检测头检测P5特征图,获得存在小目标的位置,然后将这些位置还原到P4特征图,使用小目标位置检测头检测P4特征图,获得存在小目标的位置,并和P5传来的位置合并,然后将合并位置还原到P3特征图,并将还原的位置认为是P3特征图存在小目标的位置;

S7、使用原有的分类和回归检测头检测P7和P6特征图的全部位置,使用分类和回归检测头检测P5、P4、P3存在目标的位置;

S8、基于分类和回归检测结果进行目标检测。

优选地,在步骤S4、S5、S6中使用的位置还原方法为,对于一个位置坐标(x,y),位置还原后得到四个位置为(2x,2y)、(2x+1,2y)、(2x,2y+1)、(2x+1,2y+1)。

优选地,如果输入图像大小为H×W时,特征图的大小为

优选地,额外的检测头由四个 3×3 卷积层组成,然后是一个额外的 3×3 卷积层用于最终预测,输入步长为

本发明同时提供一种大中小目标位置检测头,其特征在于:训练模块和检测模块;所述训练模块,用于训练检测头检测特征图每个位置是否存在不同大小尺度的目标,对于Retinanet网络,FPN输出有P3、P4、P5、P6、P7,

与现有技术相比,本发明具有以下技术效果:

本发明提供的技术方案通过在低分辨率特征图检测目标位置,将位置还原到高分辨率特征图,从而避免在高分辨率特征图检测无关背景区域,节约检测目标的计算量,提高计算效率,同时高分辨率特征图检测到的目标位置和相邻低分辨率特征图目标位置基本一致,这样操作得到的检测平均精度AP和直接在高分辨率特征图检测得到的平均精度AP差别较小。

附图说明

图1是本发明提供的一种基于改进RetinaNet的快速目标检测方法的检测流程图;

图2是本发明提供的Retinanet输出特征图结构;

图3是本发明提供的大目标位置查询检测头检测示意图;

图4是本发明提供的中目标位置查询检测头检测示意图;

图5是本发明提供的小目标位置查询检测头检测示意图;

具体实施方式

本发明旨在提出一种基于改进RetinaNet的快速目标检测方法,通过额外的目标检测头,在低分辨率特征图上预测小物体的粗略位置,然后使用由这些粗略位置转换到高分辨率特征图,并计算准确的检测结果,从而在高分辨率特征图避免检测无关背景区域,节约大量计计算量,同时使得检测平均精度AP不会大幅下降。

对于本申请实施例提到的目标位置查询检测头,其训练过程为:

步骤一、从数据集获得待检测图像,输入到RetinaNet骨干网络,并获得输出P3、P4、P5、P6、P7特征图,保持分类头和回归头的训练与原始 RetinaNet中的相同;

步骤二、对于额外的大、中、小目标位置检测头,单独进行训练,大目标位置检测头使用P7和P6特征图进行检测,中目标位置检测头使用P6和P5特征图进行训练,小目标位置检测头使用P5和P4特征图进行训练;

步骤三、对于

步骤四、对于大目标检测头,需要检测的目标位置图为

步骤五、对于损失函数,除原有的分类和回归损失外,增加位置检测损失项,总损失为

请参见图 1所示,本申请实施例中的基于改进RetinaNet的快速目标检测方法的检测流程描述如下:

步骤S1:获得P3、P4、P5、P6、P7特征图;

如图2所示,从数据集获得待检测图像,输入到RetinaNet骨干网络,并获得输出P3、P4、P5、P6、P7特征图。

步骤S2:设置大、中、小三种目标位置查询检测头;

在原有两个用于分类和回归的检测头外,训练额外目标位置查询检测头,设置大目标位置检测头,检测P7和P6特征图,设置中目标位置检测头,检测P6和P5特征图,设置小目标位置检测头,检测P5和P4特征图。

步骤S3:训练大、中、小三种检测头查询对应目标位置;

大目标位置检测头训练为只检测目标尺寸大于64的目标,中目标位置检测头训练为只检测目标尺寸在32到64的目标,小目标位置检测头训练为只检测目标尺寸在32以下的目标;检测头输出当前检测特征图每个位置存在的概率,对位置进行阈值筛选,可获得存在目标的位置。

步骤S4:大目标检测头检测P7、P6,并将位置传递到P5;

如图3所示,使用大目标位置检测头检测P7特征图,获得存在大目标的位置,然后将这些位置还原到P6特征图,使用大目标位置检测头检测P6特征图,获得存在大目标的位置,并和P7传来的位置合并,然后将合并位置还原到P5特征图,并将还原的位置认为是P5特征图存在大目标的位置。

步骤S5:中目标检测头检测P6、P5,并将位置传递到P4;

如图4所示,使用中目标位置检测头检测P6特征图,获得存在中目标的位置,然后将这些位置还原到P5特征图,使用中目标位置检测头检测P5特征图,获得存在中目标的位置,并和P6传来的位置合并,然后将合并位置还原到P4特征图,并将还原的位置认为是P4特征图存在中目标的位置。

步骤S6:小目标检测头检测P5、P4,并将位置传递到P3;

如图5所示,使用小目标位置检测头检测P5特征图,获得存在小目标的位置,然后将这些位置还原到P4特征图,使用小目标位置检测头检测P4特征图,获得存在小目标的位置,并和P5传来的位置合并,然后将合并位置还原到P3特征图,并将还原的位置认为是P3特征图存在小目标的位置。

步骤S7:使用原分类和回归检测头检测P7、P6全部位置,使用原分类和回归检测头检测P5、P4、P3存在目标的位置;

对P6、P7使用原分类和回归检测头检测完整特征图,得到P6、P7的分类和回归检测结果,根据P5、P4、P3存在目标的位置构建稀疏索引,使得特征图生成稀疏张量,然后使用原分类和回归检测头参数构建稀疏卷积,并将稀疏张量输入稀疏卷积,得到P5、P4、P3的分类和回归检测结果。

步骤S8:基于所有特征图的分类和回归检测结果进行目标检测。

进一步,由于S7、S8、S9位置还原方法为相邻低分辨率特征图向高分辨率特征图还原,其高和宽都为2倍关系,因此对于一个位置坐标(x,y),位置还原后得到四个位置为(2x,2y)、(2x+1,2y)、(2x,2y+1)、(2x+1,2y+1)。

进一步,步骤107中稀疏张量指在一个多维张量中,只有一小部分元素是非零的,而其他元素都是零,本实例中稀疏张量是由特征图通过目标存在位置构成稀疏索引生成的。稀疏卷积仅考虑输入张量中非零元素所对应的位置,并只对这些非零位置进行卷积运算,本实例中根据原分类和回归检测头结构和参数,定义稀疏卷积的结构和参数。P5、P4、P3分类和回归检测为,将稀疏张量作为输入传递给稀疏卷积操作,得到稀疏卷积的输出。输入的稀疏张量中只有非零位置会参与计算,而输出也是一个稀疏张量,其中只有经过计算得到的非零位置会有相应的输出值。这样可以减少计算量和存储需求。

表1 改进 RetinaNet 和 RetinaNet 的平均精度AP及平均推理FPS

为了验证本发明提出的一种基于改进RetinaNet的快速目标检测方法的有效性,将原始的RetinaNet目标检测模型与改进RetinaNet快速目标检测模型在coco数据集上做性能对比,其中测试数据集包含5000张图片,算法框架使用MMdetection,学习率设置为0.01,batch设置为16,训练迭代数为90000,训练硬件使用4张3090显卡,其中评价指标选取平均精度AP和平均推理FPS,AP的计算方法是计算Precision-Recall曲线下的面积,衡量模型在不同召回率下的平均精确率,平均推理FPS是通过将总推理时间除以测试样本数量来计算,表示模型在单位时间内能够处理的图像帧数,所得结果如表1所示,可以看出本发明提出的改进RetinaNet的AP为37.949%,虽然比原始RetinaNet的AP值37.973%略有降低,但推理速度大幅度提升,平均推理FPS从4.929秒提升到11.6267秒。

以上仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

相关技术
  • 一种基于改进的RetinaNet小目标检测方法
  • 一种基于改进RetinaNet的显微图像中有型成分目标检测方法
技术分类

06120116196668