掌桥专利:专业的专利平台
掌桥专利
首页

目标检测的方法、装置和电子设备

文献发布时间:2023-06-19 18:34:06


目标检测的方法、装置和电子设备

技术领域

本申请涉及数字图像处理技术领域,具体涉及一种目标检测的方法、装置和电子设备。

背景技术

目标检测一直都是计算机视觉领域的热点研究课题之一。目标检测也被广泛应用在医学、农业、工业、人工智能等各个领域当中,并且取得了良好的效果,极大的改善了人们的生活质量。目标检测的任务是在图像中识别目标的种类,并且能够定位目标的位置。

在图像目标检测网络中,有研究人员采用Faster R-CNN+FPN的方式提升检测效果,在Faster R-CNN中使用ResNet50作为特征提取主干网络,在ResNet50自下而上的特征提取过程中,经过多次的卷积、池化操作,会丢失许多的图像信息,造成目标的检测效果很差;在FPN自上而下的传播路径中,上层的语义信息无法与下层的细节信息充分融合(特别是跨层特征层之间),同时检测层的输入仅仅来自同层特征层,这些问题都在一定程度上影响了检测效果;在ResNet50和FPN的横向连接中,现有网络直接对特征层的通道数进行裁剪,导致网络丢失了大量的图像信息,降低了目标检测准确率,导致目标检测网络无法有效地检测到图像中的小物体。

发明内容

本申请的一个目的在于将浅层的细节信息和深层的语义信息充分融合利用,解决无法有效检测到图像中小物体的技术问题。

根据本申请实施例的一方面,申请了一种目标检测的方法,包括:

基于空间注意力机制对目标图像进行预处理,获得所述目标图像的可识别图像;

通过若干个依次串联的特征提取层对所述可识别图像进行逐层特征提取,分别获得逐层提取出的特征图像;

将所述逐层提取出的特征图像通过上采样进行特征融合,获得多个具有不同空间尺寸的特征融合图像;

根据所述多个具有不同空间尺寸的特征融合图像,获得不同尺寸目标对象的预测结果。

根据本申请实施例的一方面,所述基于空间注意力机制对目标图像进行预处理,获得所述目标图像的可识别图像,包括:

对所述目标图像分别执行全局最大池化和全局平均池化并进行融合,获得池化融合特征;

将所述池化融合特征通过叠加的卷积层,获得空间注意力;

将所述空间注意力通过sigmoid函数激活作用到所述目标图像,获得所述目标图像的可识别图像。

根据本申请实施例的一方面,所述通过若干个依次串联的特征提取层,所述若干依次串联的特征提取层包括一个第一类特征提取层和若干个第二类特征提取层,对所述可识别图像进行逐层特征提取,分别获得逐层提取出的特征图像,包括:

将所述可识别图像通过一个第一类特征提取层获得第一特征图像;

将所述第一特征图像依次通过若干个第二类特征提取层,分别获得逐层提取出的特征图像。

根据本申请实施例的一方面,所述依次通过若干个第二类特征提取层之后,将输入图像通过通道注意力机制获得通道注意力特征图像,包括:

对输入图像分别经过全局最大池化和全局平均池化,获得全局最大通道注意力和全局平均通道注意力;

将所述全局最大通道注意力和全局平均通道注意力均通过sigmoid函数激活后分别作用到所述输入图像,融合获得通道注意力特征图像。

根据本申请实施例的一方面,所述将所述逐层提取出的特征图像通过上采样进行特征融合,获得多个具有不同空间尺寸的特征融合图像,包括:

将所述逐层提取出的特征图像通过卷积保持维度一致,获得对应于相同维度的特征图像;

通过上采样将所述相同维度的特征图像进行特征融合,获得多个具有不同空间尺寸的特征融合图像。

根据本申请实施例的一方面,所述通过上采样将所述相同维度的特征图像进行特征融合,获得特征融合图像,包括:

通过上采样中的最近邻插值进行特征融合,获得特征融合图像。

根据本申请实施例的一方面,所述根据所述多个具有不同空间尺寸的特征融合图像,获得不同尺寸目标对象的预测结果,包括:

对所述多个具有不同空间尺寸的特征融合图像分别进行预测,获得不同尺寸目标对象的预测结果。

根据本申请实施例的一方面,申请了一种目标检测的装置,包括:

图像预处理模块:用于基于空间注意力机制对目标图像进行预处理,获得所述目标图像的可识别图像;

特征提取模块:用于通过若干个依次串联的特征提取层对所述可识别图像进行逐层特征提取,分别获得逐层提取出的特征图像;

特征融合模块:用于将所述逐层提取出的特征图像通过上采样进行特征融合,获得多个具有不同空间尺寸的特征融合图像;

目标检测模块:用于根据所述多个具有不同空间尺寸的特征融合图像,获得不同尺寸目标对象的预测结果。

根据本申请实施例的一方面,申请了一种电子设备,包括:

所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请实施例的一方面,申请了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的方法。

本申请实施例中,对输入的图像进行预处理,提取出输入图像的特征,将输入图像逐层进行特征提取,特征提取的图像尺寸上等比例缩小,将逐层提取出的图像特征通过上采样进行特征融合,使得特征融合后的图像语义信息和细节信息丰富,对特征融合后的图像进行检测,获取图像目标的检测结果,由此提升了图像目标的检测性能。

本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。

附图说明

通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。

图1示出了根据本申请一个实施例的目标检测方法所应用的体系架构示意图。

图2示出了根据本申请一个实施例的目标检测方法流程图。

图3示出了根据本申请另一个实施例的目标检测方法流程图。

图4示出了根据本申请一个实施例的改进空间注意力机制结构示意图。

图5示出了根据本申请一个实施例的改进ResNet50特征层结构示意图。

图6示出了根据本申请另一个实施例的目标检测方法流程图。

图7示出了根据本申请一个实施例的第一类特征提取层结构示意图。

图8示出了根据本申请一个实施例的第二类特征提取层结构示意图。

图9示出了根据本申请另一个实施例的目标检测方法流程图。

图10示出了根据本申请一个实施例的改进通道注意力机制结构示意图。

图11示出了根据本申请另一个实施例的目标检测方法流程图。

图12示出了根据本申请一个实施例的改进特征金字塔结构示意图。

图13示出了根据本申请一个实施例的网络结构改进前后实现结果对比图。

图14示出了根据本申请一个实施例的目标检测设备的硬件结构图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本申请的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本申请的各方面变得模糊。

附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

请参阅图1,图1示出了根据本申请一个实施例的目标检测方法所应用的体系架构示意图。该体系构架可以包括:左侧的改进ResNet 50模块、中间的改进特征金字塔(FNP)模块和右侧预测层网络结构。其中,其中,在左侧的改进ResNet50中,C2-C5特征层中也加入了改进空间注意力机制(ISAM)和改进通道注意力机制(ICAM),在输入图像与C1特征层之间加入了ISAM模块,在C5特征层和M5特征层的横向连接之间加入了ICAM模块。在中间改进特征金字塔结构中,通过上采样的方法增强了跨层特征层之间的特征融合。

应该理解,图1中的C2-C5特征层、M2-M5特征层和P2-P5预测层的数目仅仅是示意性的。根据实现需要,可以具有任意数目的特征层和预测层。

本申请实施例的一些技术方案可以基于如图1所示的体系架构或其变形架构来具体实施。

请参阅图2,图2示出了根据本申请一个实施例的目标检测方法流程图,包括:

步骤S210,基于空间注意力机制对目标图像进行预处理,获得目标图像的可识别图像;

步骤S220,通过若干个依次串联的特征提取层对可识别图像进行逐层特征提取,分别获得逐层提取出的特征图像;

步骤S230,将逐层提取出的特征图像通过上采样进行特征融合,获得多个具有不同空间尺寸的特征融合图像;

步骤S240,根据多个具有不同空间尺寸的特征融合图像,获得不同尺寸目标对象的预测结果。

下面对这4个步骤进行详细描述。

在步骤S210中,在目标图像进行下采样之前,利用空间注意力机制对目标图像进行预处理,提升图像关键区域的特征表达,减少通过最大池化后的特征损失,从而获得目标图像的可识别图像。注意力机制分为软注意力机制、强注意力机制和自注意力机制,空间注意力机制属于软注意力机制。空间注意力机制是给单层特征层上的所有特征图赋予相同的注意力权重,但是在单张特征图上,不同位置所赋予的权重是不同的。预处理主要针对高分辨率的灰色和彩色图,同时通道数目较少的图像或者特征图。

请参阅图3,图3示出了根据本申请另一个实施例的目标检测方法流程图。本实施例提供了基于空间注意力机制对目标图像进行预处理,获得目标图像的可识别图像的步骤S210,包括:

步骤S211,对目标图像分别执行全局最大池化和全局平均池化并进行融合,获得池化融合特征;

步骤S212,将池化融合特征通过叠加的卷积层,获得空间注意力;

步骤S213,将空间注意力通过sigmoid函数激活作用到目标图像,获得目标图像的可识别图像。

下面对这3个步骤进行详细描述。

在步骤S211中,对w×h×c的目标图像分别执行全局最大池化和全局平均池化操作,将目标图像在通道维度上进行压缩,压缩为w×h×1。并对压缩后的最大池化特征和平均池化特征通过相加进行特征融合,获得w×h×1池化融合特征。

在步骤S212中,池化融合特征通过叠加的卷积层获得空间注意力,叠加的卷积层数可自由设置。示例性的,w×h×1的池化融合特征通过3个3×3卷积生成w×h×1空间注意力。

在步骤S213中,空间注意力通过sigmoid函数激活后生成空间权重系数,将提取出来的空间注意力权重系数作用到目标图像当中,从而获得目标图像的可识别图像。

示例性的,请参阅图4,图4示出了根据本申请一个实施例的改进空间注意力机制结构示意图。在该结构当中,输入w×h×c的目标图像,分别通过全局最大池化和全局平均池化,在通道维度上将目标图像压缩为w×h×1,并将压缩后的特征通过相加的方式进行特征融合,获得w×h×1的池化融合特征。w×h×1的池化融合特征通过3个3×3卷积生成w×h×1空间注意力。空间注意力经过sigmoid函数激活后,与目标图像通过相乘的方式将提取出来的空间注意力参数作用到目标图像中,从而获得目标图像的可识别图像。其可以用公式表示如下:

O=S(f 3×3(f 3×3(f 3×3(Mc(I)+Ac(I)))))×I (1)

公式中O表示输出图像或特征层;S表示sigmoid激活函数;f 3×3表示3×3卷积;Mc表示在通道维度上进行全局最大池化;Ac表示在通道维度上进行全局平均池化;I表示输入的目标图像。

在步骤S220中,可识别图像通过若干个依次串联的特征提取层,会经过多次的卷积、池化操作进行特征提取。值得注意的是,每个特征提取层所提取的图像尺寸是呈比例进行缩小的,其缩小的比例以及通过的特征提取层数目可以预先自由设置。当可识别图像通过一个特征提取层后,可以获得对应于该特征提取层提取的特征图像,因此当可识别图像依次通过若干个特征提取层就能获得若干个特征提取层分别提取出的图像特征。

请参阅图5,图5示出了根据本申请一个实施例的改进ResNet50特征层结构示意图。此结构中C1特征层为第一类特征提取层,C2特征层为第二类特征提取层。

示例性的,一个图像中存在大、中、小三个不同尺寸的检测目标,假设图像进入第一个特征提取层,此时该层图像的尺寸还很大,其中大、中、小三个目标都还存在,但由于大目标在图像之中占比较大,因此第一个特征提取层对大目标的检测效果较好;随后进入第二个特征提取层,通过卷积操作将图像的尺寸进行缩小,图像的尺寸缩小后,大目标由于图像尺寸的缩小而被裁剪,因此第二个特征提取层对中目标的检测效果较好;以此类推,图像进入下一个特征提取层后,图像的尺寸进一步缩小,此时对于小目标的检测效果较好。因此当一个图像依次通过三个串联的特征提取层,获得了这三个特征提取层分别提取出的特征图像。

请参阅图6,图6示出了根据本申请另一个实施例的目标检测方法流程图。本实施例提供了通过若干个依次串联的特征提取层对可识别图像进行逐层特征提取,分别获得逐层提取出的特征图像的步骤S220,包括:

步骤S221,将可识别图像通过一个第一类特征提取层获得第一特征图像;

步骤S222,将第一特征图像依次通过若干个第二类特征提取层,分别获得逐层提取出的特征图像。

下面对这2个步骤进行详细描述。

在步骤S221中,将经过预处理后的可识别图像首先通过一个第一类特征提取层获得第一特征图像,考虑到通过第一类特征提取层的特征图相对较大,处理起来速度较慢,同时考虑到网络模型检测的效率,因此在第一类特征提取层中未增加空间注意力机制模块和通道注意力机制模块。

为了使输入第一特征提取层的可识别图像能够在不同的特征层之间进行处理,因此需要保证可识别图像的维度与处理的特征层维度保持一致。示例性的,图像经过C2特征层处理后为100×100×256,但C3特征层要求输入图像的维度为128,所以此时需要通过将图像降低维度到128,图像才能在C3特征层中处理;由于C3特征层中的3×3卷积操作后会增加维度,因此需要对图像增加维度以保证C3特征层处理后的图像维度不会对C4特征层的输入造成影响。

请参阅图7,图7示出了根据本申请一个实施例的第一类特征提取层结构示意图。输入图像进入第一类特征提取层后通过左侧1×1卷积降低输入图像的通道维度,通过relu函数激活后,用3×3卷积进行特征提取,随后再次用relu函数进行激活,最后再用1×1卷积增加输入图像的通道维度。输入图像通过右侧的1×1卷积改变其通道维度,使得与左侧输出通道的维度相同,然后通过相加的方式进行融合,最后通过relu函数激活后输出结果,得到第一特征图像。

令Bottleneck左侧的3个卷积块(以及相关relu函数)为函数F(x),右侧1个卷积块为G(x)。其结构可以用以下公式来表示:

F(x)=f

G(x)=f

O=F(x)+G(x)

其中F(x)为Bottleneck左侧分支输出;G(x)为右侧分支输出;f

在步骤S222中,第一特征图像在进入下一特征提取层之前将进行池化操作,按照预先设定的比例缩小第一特征图像的尺寸以减少计算量,随后进入下一个特征提取层。可识别图像首先通过一个第一类特征提取层之后,接下来通过的特征提取层都是第二类特征提取层。

由于第一类特征层结构中的第二个1×1卷积会增加通道数,其输出的第二类特征提取层结构中的第一个1×1卷积会降低通道数,由此会导致输入图像通道数量的丢失,会丢失掉许多语义信息。同时,随着网络结构的加深,输入图像的大小也在不断变小,例如在C2特征层图像大小为56,C3特征层图像大小就变为了28,原本输入图像的细节信息也会有部分丢失。因此,相较于第一类特征提取层,第二类特征提取层在第一类特征提取层的左侧分支基础上添加了一个通道注意力机制模块和一个空间注意力机制模块。

请参阅图8,图8示出了根据本申请一个实施例的第二类特征提取层结构示意图。输入图像进入第一类特征提取层后通过左侧1×1卷积降低输入图像的通道维度,通过relu函数激活后,用3×3卷积进行特征提取,随后再次用relu函数进行激活,用1×1卷积增加输入图像的通道维度,然后增加依次串联一个通道注意力机制模块和一个空间注意力机制模块,通过增加的这两个模块可以减少网络结构造成的目标图像细节和语义信息的损失。输入图像通过右侧的1×1卷积改变其通道维度,使得与左侧输出通道的维度相同,然后通过相加的方式进行融合,最后通过relu函数激活后输出结果,得到第二类提取层提取出的特征图像。

第二类特征提取层加入了一个通道注意力机制模块和一个空间注意力机制模块后,其整体的改进结构可以用以下公式来表示:

F(x)=IS(IC(f

公式中IC表示ICAM模块;IS表示ISAM模块;其余符号表示含义与公式(2)中F(x)公式含义一致。

在步骤S222通过最后一层第二类特征提取层之后,增加了一个通道注意力机制模块,在原始的ResNet50+FPN结构中,特征层C5和M5的横向连接直接用1×1卷积进行降维处理,丢失了许多高层的语义信息。因此本方法。在特征层C5降维前,用ICAM对C5进行处理,利用通道间的依赖关系,让网络更加关注关键通道语义信息,减轻通道减少造成的特征损失。

请参阅图9,图9示出了根据本申请另一个实施例的目标检测方法流程图。本实施例提供了将输入图像通过通道注意力机制获得通道注意力特征图像的步骤S222,包括:

步骤S222a,对输入图像分别经过全局最大池化和全局平均池化,获得全局最大通道注意力和全局平均通道注意力;

步骤S222b,将全局最大通道注意力和全局平均通道注意力均通过sigmoid函数激活后分别作用到输入图像,融合获得通道注意力特征图像。

下面对这2个步骤进行详细描述。

在步骤S222a中,对输入通道注意力机制的图像分别执行全局最大池化和全局平均池化处理,再分别经过卷积生成全局最大通道注意力和全局平均通道注意力。示例性的,输入w×h×c的图像,分别经过全局最大池化和全局平均池化两条路径将图像的全局空间特征信息压缩至1×1×c,再分别经过1×1卷积生成1×1×c的全局最大通道注意力和全局平均通道注意力。

在步骤S222b中,将全局最大通道注意力和全局平均通道注意力都通过sigmoid函数进行激活,激活后分别作用到输入图像,然后将两者进行融合获得通道注意力特征图像。示例性的,1×1×c的全局最大通道注意力和全局平均通道注意力通过sigmoid函数激活后,分别与输入图像进行相乘,然后通过相加获得w×h×c的通道注意力特征图像。

示例性的,请参阅图10,图10示出了根据本申请一个实施例的改进通道注意力机制结构示意图。在该结构当中,输入w×h×c的图像,分别经过全局最大池化和全局平均池化将图像的全局空间特征信息压缩至1×1×c,再分别经过1×1卷积生成1×1×c的全局最大通道注意力和全局平均通道注意力,均通过sigmoid函数激活后,分别与输入图像通过相乘的方式作用到输入图像,最后通过相加的方式进行融合得到w×h×c的通道注意力特征图像。其也可以用公式表示如下:

O=S(f

公式中O表示输出图像或特征层;S表示sigmoid激活函数;f

在步骤S230中,将逐层提取出的图像特征通过上采样的方式进行特征融合,上采样主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。将更抽象、语义更强的高层特征图进行上采样,使得尽可能的让特征层原本的语义信息得到保留,获得多个具有不同空间尺寸的特征融合图像。

请参阅图11,图11示出了根据本申请另一个实施例的目标检测方法流程图。本实施例提供了将逐层提取出的特征图像通过上采样进行特征融合,获得多个具有不同空间尺寸的特征融合图像的步骤S230,包括:

步骤S231,将逐层提取出的特征图像通过卷积保持维度一致,获得对应于相同维度的特征图像;

步骤S232,通过上采样将相同维度的特征图像进行特征融合,获得多个具有不同空间尺寸的特征融合图像。

下面对这2个步骤进行详细描述。

在步骤S231中,将等比例缩小的图像在此步骤按照相同比例放大,示例性的,之前的相邻特征提取层之间图像是0.5倍缩小,此步骤相邻的特征图像即为2倍放大,M5特征层提取的图像尺寸为4×4×256,M4特征层提取的尺寸为8×8×256,M3特征层提取的图像尺寸为16×16×256,M2特征层提取的图像尺寸为32×32×256。在进行特征融合前还需要通过卷积的方式使得特征图像的维度保持一致,获得相同维度的特征图像。

示例性的,M5特征经过通道注意力机制模块后1×1卷积得到,M4特征经过C4特征1×1卷积后与M5特征的2倍相融合得到,M3特征经过C3特征1×1卷积加上M4特征的2倍相融合得到,M2特征经过C2特征1×1卷积加上M3特征的2倍相融合得到。

在步骤S232中,通过上采样的方式将相同维度的特征图像进行特征之间的融合处理,由于特征图像的维度相同,因此可以直接相加作特征融合,获得多个具有不同空间尺寸的特征融合图像。

示例性的,请参阅图12,图12示出了根据本申请一个实施例的改进特征金字塔结构示意图。在图中,将M3和M4分别通过二倍上采样和四倍上采样(2次二倍上采样)进行处理,处理后的特征层与M2具有相同的空间尺寸大小,使用上采样方法中的最近邻插值,目的是为了尽可能的让M3、M4特征层原本的语义信息得到保留。最后,将上述处理结果与M2特征层按元素相加,分别通过3×3卷积处理后,得到不同空间尺寸的特征融合图像。

在步骤S240中,根据多个具有不同空间尺寸的特征融合图像,分别输入预测层进行预测,获得相应空间尺寸的预测结果,也即获得了目标图像中不同尺寸目标对象的预测结果。

下面以PASCAL VOC 2012数据集和MS COCO数据集为例进行目标检测实验,来说明本方法对目标检测性能的提升。

PASCAL VOC数据集是计算机视觉领域的经典数据集。该数据集有VOC 2007和VOC2012两个版本,数据集中包含20个类别(加上背景21个类别)。PASCAL VOC数据集可用于图像分类、目标检测和图像分割等任务。本文用VOC 2012的train数据对模型进行训练,train数据中包含5717张照片;用val数据对模型进行测试,val数据中包含5823张照片,共计11540张照片对模型进行训练和测试。

MS COCO数据集也是计算机视觉领域重要的一个数据集,也可用于图像分类、目标检测和图像分割等任务。MS COCO数据集有COCO 2014和COCO 2017两个版本,本文使用COCO2017版本对模型进行训练和测试,使用该版本中的train2017数据对模型进行训练,train2017数据中包含118287张图像;使用val2017数据对模型进行测试,val2017数据中包含5000张图像,共计123287张图像对模型进行训练和测试。MS COCO 2017中拥有80个类别可用于目标检测,同时,为了综合评测模型的目标检测性能,MS COCO数据集对评价指标做了进一步的划分。除了mAP、平均精度(AP)、平均召回率(AR)等评价指标外,MS COCO数据集根据交并比(IOU)和目标尺寸大小进行划分。根据IOU阈值的不同,划分为AP0.50(取IOU阈值为0.50的AP)、AP0.75(取IOU阈值为0.75的AP),AP0.50:0.95(取IOU阈值为0.50到0.95之间的AP)。根据目标尺寸大小的不同,将图像分为APs(小目标AP)、ARs(小目标AR)、APm(中等目标AP)、ARm(中等目标AR)、APl(大目标AP)、ARl(大目标AR)。

为了检验改进模型的性能,采用以ResNet50为主干网络的Faster R-CNN+FPN网络来对比,其对比结果如表1所示:

表1改进前后在PASCAL VOC 2012数据集上的mAP值

表1为未改进之前的Faster R-CNN目标检测网络和本方法改进网络在PASCAL VOC2012数据集上的mAP结果。从表中可以看到改进后的网络mAP值由80.5%提升到83.2%,有2.7%的提升。同时,本实验也在MS COCO 2017数据集上进行了测试和对比,对比结果如表2所示。

表2改进前后在MS COCO 2017数据集上的mAP值

从表2中可以看出,改进前后网络在MS COCO 2017数据集上的mAP值由52.7%提升到54.2%,提升了1.5%。为了进一步检验模型的性能,将原本在MS COCO 2017数据集上的mAP评价指标中的IOU阈值取0.50到0.95之间改为IOU阈值取0.75,进一步保证实验的严谨性,其结果如表3所示。

表3改进前后在MS COCO 2017数据集上的mAP值(阈值为0.75)

从表3中可以看出,改进前后在MS COCO2017数据集上的mAP由58.6%提升到59.4%,提升了0.8%。从以上3个表的结果中可以看出,改进网络在PASCAL VOC 2012和MSCOCO 2017数据集上对目标检测的效果都有所提升。

为了检验改进网络对不同大小目标的检测效果,本实验采用了三种尺寸来检验,分为small(APs)、medium(APm)和large(APl)尺寸。small为目标<32

表4改进前后不同尺寸大小目标在MS COCO 2017数据集上的AP值

从表4中可以看出,改进后的网络模型对大中小目标的检测效果都有一定的提升。对应ARs、ARm、ARl分别由21.1%、40.3%、50.8%提升到了23.0%、41.9%、52.6%,分别提升了1.9%、1.6%、1.8%。改进前后不同尺寸大小目标在MS COCO 2017数据集上的AR值如表5所示。

表5改进前后不同尺寸大小目标在MS COCO 2017数据集上的AR值

从表5中可以看出,改进后的网络模型对大中小目标的AR值都有显著提升,ARs、ARm、ARl分别提升了2.6%、3.4%、6.7%。从表1-5可以看出,改进后的网络模型对不同数据集的检测精度都有一定的提升。

表6改进前后网络在PASCAL VOC数据集上不同类别AP值

表6为PASCAL VOC数据集中20个类别在Faster R-CNN和本网络的AP值。从表中可以看出,20个类别中有17个类别的AP值都有提升,说明本网络结构的改进在PASCAL VOC数据集上相对于Faster R-CNN+FPN结构的检测效果是有提升的。

请参阅图13,图13示出了根据本申请一个实施例的网络结构改进前后实现结果对比图。Faster R-CNN(左侧)和本网络(右侧)的一些可视化检测结果对比。从图中可以看出,本网络模型对小目标的检测效果有显著提升;同时,对大目标的检测准确率也有了明显的提升,也减少了一些漏检、误检的情况。

根据本申请实施例的目标检测的方法可以由图14的目标检测设备来实现。下面参照图14来描述根据本申请实施例的目标检测的设备。图14显示的目标检测的设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图14所示,目标检测的设备以通用计算设备的形式表现。目标检测设备的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图2中所示的各个步骤。

存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

目标检测设备也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该提升目标检测设备交互的设备通信,和/或与使得该目标检测设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,目标检测设备还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与提升目标检测性能的设备的其它模块通信。应当明白,尽管图中未示出,可以结合目标检测设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

在本申请的示例性实施例中,还提供了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。

根据本申请的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由所附的权利要求指出。

相关技术
  • 目标检测方法和装置、电子设备、存储介质、程序产品
  • 提高动目标检测精度的方法、装置、电子设备及存储介质
  • 一种动目标检测方法、装置、电子设备及存储介质
  • 目标检测方法、装置及电子设备
  • 多目标检测方法、装置和电子设备
  • 目标检测模型训练方法、目标检测方法、装置、电子设备
  • 目标检测方法、目标检测装置与电子设备
技术分类

06120115616498