掌桥专利:专业的专利平台
掌桥专利
首页

基于深度可分离卷积及融合PAN的多级特征金字塔目标检测方法

文献发布时间:2023-06-19 11:49:09


基于深度可分离卷积及融合PAN的多级特征金字塔目标检测方法

技术领域

本发明属于目标检测领域,尤其涉及一种基于深度可分离卷积及融合PAN的多级特征金字塔目标检测方法。

背景技术

随着计算机算力的提高尤其是图形处理器的应用以及深度学习技术的发展,卷积神经网络在目标检测领域发展迅速。进入21世纪以来,与计算机算力有密切相关的视频图像处理也得到极大的发展。然而庞大的计算量和参数量对图像处理的运算量产生了较大的影响,传统的卷积神经网络和特征金字塔网络也很难处理多目标物体的图片。对于一些遮挡严重的、图像模糊的、因为距离远近而造成目标物体在图像中的大小不一样的,用传统金字塔网络不仅需要很多的参数量和计算量,而且检测出来的结果还不一定准确。

针对视频图像目标检测问题,本发明提出的基于深度可分离卷积,融合PAN结构的多级特征金字塔检测方法,不仅能很大程度上减少计算量和参数量,也能提升检测目标物体的性能。

发明内容

为了解决上述技术问题,本发明提出了一种基于深度可分离卷积及融合PAN的多级特征金字塔目标检测方法,用于处理视频、图像目标检测问题,主要技术手段包括深度可分离卷积神经网络、改进后的多级特征金字塔网络(即融合了PAN的多级FPN),本发明的方法大大减少了计算量和参数量,能够提升运行速度。

为了实现上述目的,本发明采用的技术方案如下:

一种基于深度可分离卷积及融合PAN的多级特征金字塔目标检测方法,包括以下步骤:

1)数据采集:获取待检测目标的视频数据并进行切片,将连续的视频数据转换为连续的图像;

2)对图像进行预处理;

3)对预处理后的图像进行目标检测,利用深度可分离卷积及融合PAN的多级特征金字塔网络获得图像的多尺度融合特征图;

所述的深度可分离卷积及融合PAN的多级特征金字塔网络包括骨干网络、带有PAN结构的多级FPN网络;所述的骨干网络对输入图像下采样得到不同大小的特征图,每次下采样都采用深度可分离卷积,再通过上采样将特征图融合,获得包含不同深度特征的融合特征图,将融合特征图送入带有PAN结构的多级FPN网络;

所述的带有PAN结构的多级FPN网络由若干个结构相同的特征金字塔串联而成,每个特征金字塔的下采样层都由深度可分离卷积组成,上采样层由深度可分离卷积和上采样卷积构成;第一个特征金字塔的输入为骨干网络输出的融合特征图,将融合特征图与前一级特征金字塔最后一个上采样层的输出按通道方向连接,作为后一级特征金字塔的输入;不同的特征金字塔用来提取不同深度的特征,将每一级特征金字塔的输出按照通道方向连接,获得多尺度融合特征图;

4)根据多尺度融合特征图的感受野大小预定义多长宽比与多尺度的检测框,利用检测框完成对目标的定位与分类,实现对多尺度目标进行高精度的检测。

与现有技术相比,本发明的有益效果是:

本发明是基于深度可分离卷积,用融合PAN结构的多级特征金字塔检测目标的方法。用下采样提取特征图,再利用多级特征金字塔网络检测目标,在每一级的FPN后面加上PAN结构。用深度可分离卷积的网络结构代替原卷积网络结构,可以加深网络深度,减少参数量和计算量。多级特征金字塔网络由多个结构相同的使用深度可分离卷积的特征金字塔组成,特征金字塔之间串联连接,将不同金字塔得到的相同尺寸的特征进行融合,利用融合后的特征金字塔进行检测。PAN结构即在FPN层的后面还添加了一个自底向上的特征金字塔,这样可以提高检测目标的准确性和效率性。

附图说明

图1是本发明采用的深度可分离卷积网络的结构示意图;

图2是本发明采用的多级特征金字塔结构示意图;

图3是本发明利用深度可分离卷积及融合PAN的多级特征金字塔进行目标检测的示意图。

具体实施方式

下面结合附图对本发明做进一步的解释说明。

本发明分为两个主要部分:骨干网络部分和改进的多级特征金字塔网络部分。骨干网络部分:先取出对输入图像下采样得到不同大小的特征图,每次下采样都用深度可分离网络,再通过上采样将上述特征融合,获得包含不同深度特征的特征图,将融合后的特征图送入改进的多级金字塔。改进的多级金字塔网络部分:该网络一共由多个结构相同的特征金字塔构成,每个特征金字塔输出三个大小不同的特征;将不同金字塔的特征融合后,对目标物体进行检测。

深度可分离卷积:

深度可分离卷积分为两部分进行:分别是逐通道卷积和逐点卷积。举个例子,对于一张M×M、三通道彩色输入图片。第一步先进行逐通道卷积,卷积核数量与输入层通道数相同,假设卷积核尺寸为3×3,完成这一步时,生成三张特征图。第二步是逐点卷积,输入即为上一步的输出,逐点卷积的卷积核大小为1×1×3,3为第二步输入层的通道数,输出通道数为L(实际上是逐点卷积部分有多少个卷积核就有多少输出通道)。可见,该深度可分离卷积的参数量为:3×3×3+3×L;如果是普通的卷积神经网络,则参数量为:K×K×3×L;当输入通道数增加和卷积核尺寸变大时,需要的参数量明显减少。如图1。

改进的多级特征金字塔网络:

多级特征金字塔的主要作用是对处理的多个特征图进行融合,增强检测目标物体的性能,减少漏检率。该部分由多个结构相同的特征金字塔网络串联而成,具体串联方式如图2所示。然后在每一特征金字塔后面再加一个金字塔结构(PAN结构)对特征图进行处理。除了第一个特征金字塔,其余金字塔的输入特征图由前一个FPN结构的金字塔的最后一层与骨干网络的输出按照通道方向连接得到,不同的特征金字塔用来提取不同深度的特征,每个特征金字塔都由深度可分离卷积组成。每一个卷积层后均使用了批归一化(BatchNormalization)处理和线性修正单元作为激活函数。

本发明提出的一种基于深度可分离卷积及融合PAN的多级特征金字塔目标检测方法,包括以下步骤:

1)数据采集:获取待检测目标的视频数据并进行切片,将连续的视频数据转换为连续的图像;

2)对图像进行预处理;

3)对预处理后的图像进行目标检测,利用深度可分离卷积及融合PAN的多级特征金字塔网络获得图像的多尺度融合特征图;

所述的深度可分离卷积及融合PAN的多级特征金字塔网络包括骨干网络、带有PAN结构的多级FPN网络;所述的骨干网络对输入图像下采样得到不同大小的特征图,每次下采样都采用深度可分离卷积,再通过上采样将特征图融合,获得包含不同深度特征的融合特征图,将融合特征图送入带有PAN结构的多级FPN网络;

所述的带有PAN结构的多级FPN网络由若干个结构相同的特征金字塔串联而成,每个特征金字塔的下采样层都由深度可分离卷积组成,上采样层由深度可分离卷积和上采样卷积构成;第一个特征金字塔的输入为骨干网络输出的融合特征图,将融合特征图与前一级特征金字塔最后一个上采样层的输出按通道方向连接,作为后一级特征金字塔的输入;不同的特征金字塔用来提取不同深度的特征,将每一级特征金字塔的输出按照通道方向连接,获得多尺度融合特征图;

4)根据多尺度融合特征图的感受野大小预定义多长宽比与多尺度的检测框,利用检测框完成对目标的定位与分类,实现对多尺度目标进行高精度的检测。

在本发明的一项具体实施中,步骤2)所述的预处理方法为滤波方法,以图片上的像素点为中心取正方形区域,将区域中每个像素点的灰度值进行排序,取排序的中间值作为中心像素灰度的新值,以滑窗的方式遍历图像。

在本发明的一项具体实施中,所述的深度可分离卷积包括输入层、逐通道卷积层、逐点卷积层、输出层;所述输入层的输入为三通道图像,首先对输入的三通道图像进行逐通道卷积操作,利用三个卷积核分别对三通道进行卷积,生成三张特征图;再利用三维卷积核对三张特征图进行逐点卷积,将三张特征图合成一张特征图输出。

在本发明的一项具体实施中,所述的骨干网络由四个卷积层和两个上采样层构成,将预处理后的图像输入到骨干网络之后,依次经过四个卷积层处理,第四个卷积层的输出连接第一个上采样层,第一个上采样层的输出与第三个卷积层的输出按照通道方向连接后,再作为第二个上采样层的输入;第二个上采样层的输出与第三个卷积层的输出按照通道方向连接后作为骨干网络的输出。

在本发明的一项具体实施中,所述的带有PAN结构的多级FPN网络由若干个结构相同的特征金字塔串联而成,每一个特征金字塔包括输入层、四个下采样层、两个上采样层;

特征金字塔的输入层获取图像后,依次经过第一个下采样层和第二个下采样层处理,将第二个下采样层的输出作为第一个上采样层的输入,将第一个上采样层的输出与第一个下采样层的输出按照元素相加,再作为第二个上采样层的输入;第二个上采样层的输出与特征金字塔的输入层获取的图像按照元素相加,相加后的结果一方面作为第一张特征图输出,另一方面作为第三个下采样层的输入;将第三个下采样层的输出与第二个上采样层的输入按照元素相加,相加后的结果一方面作为第二张特征图输出,另一方面作为第四个下采样层的输入;将第四个下采样层的输出与第二个下采样层的输出按照元素相加,相加后的结果作为第三张特征图输出;

将前一个特征金字塔中的最后一个上采样层的输出与骨干网络的输出按通道方向连接,作为后一级特征金字塔的输入层的输入图像;每一个特征金字塔均输出三张不同尺寸的特征图,将对应尺寸大小的特征图按照通道方向相连接,得到最终的多尺度融合特征图。

在本发明的一项具体实施中,步骤4)中利用目标检测器完成检测框的操纵,目标检测器为MaskR-CNN或RetinaNet。

在本发明的一项具体实施中,训练过程中损失函数的优化采用随机梯度下降算法。

在本发明的一项具体实施中,如图3所示,实施过程为:

(1)对输入图像进行8倍下采样、16倍下采样和32倍下采样,得到特征图,每次下采样都是用深度可分离卷积网络;图示以这三个采样为例。

(2)通过上采样将上述特征融合,获得包含不同深度特征的特征图。

(3)将融合后的特征图输入改进的多级金字塔。

(4)第一个特征金字塔对特征图提取特征,并输出3个大小不同的特征图,对于FPN网络结构的最后一层与骨干网络的输出按照通道方式连接得到下一个特征金字塔的输入,每个特征金字塔都由深度可分离卷积组成。

(5)当几个相连的特征金字塔都完成特征的提取时,每个特征金字塔输出三个尺寸大小不同的特征图,对应尺寸大小的特征图按照通道方向相连接,得到按通道方向相连接融合后的特征,如下:

Xi=Concat(Xi1,Xi2,Xi3,Xi4,……,Xin),n=1,2,3……,i=1,2,3

其中,Xi1表示第一特征金字塔输出的第i个特征图,Xi为融合后的第i个特征图,n表示多级特征金字塔的数量。这样可以将所有的特征金字塔的特征进行融合,进而提高检测目标物体的性能。

以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

相关技术
  • 基于深度可分离卷积及融合PAN的多级特征金字塔目标检测方法
  • 基于轮廓波分组特征金字塔卷积的遥感目标检测方法
技术分类

06120113066169