掌桥专利:专业的专利平台
掌桥专利
首页

基于YOLO的目标物体检测的方法、装置及存储介质

文献发布时间:2024-04-18 19:58:30


基于YOLO的目标物体检测的方法、装置及存储介质

技术领域

本申请涉及检测技术领域,特别涉及一种基于YOLO的目标物体检测的方法、装置及存储介质。

背景技术

随着我国对电力场景的安全问题的重视程度日益加剧,通过计算机代替人类进行安防自动化的需求变得十分迫切。电力场景中用于高压电力塔和接触网搭建的复杂钢结构上却常常被铁路沿线的鸟类筑巢,为电力的安全运行带来了巨大的安全隐患,除此之外,在电力场景中往往还需要进行其他目标的检测,比如:检修员、垃圾等。而现存的目标检测算法一般用于通用场景的目标检测,对特定电力场景中目标物体的检测能力较弱,无法准确进行鸟巢等目标物体的识别。

发明内容

有鉴于此,本申请实施例提供了基于YOLO的目标物体检测的方法、装置及存储介质,旨在提高对目标物体的检测能力,准确进行目标物体的识别。

第一方面,本申请实施例提供了一种基于YOLO的目标物体检测的方法,所述方法包括:

利用特征提取模块进行目标物体的特征提取;

利用特征融合模块对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达;

利用检测模块基于所述目标物体的特征表达进行所述目标物体的识别及检测。

可选的,所述特征提取模块包括第一分支及第二分支,所述利用目标物体特征提取模块进行目标物体的特征提取,包括:

将输入的图像的特征进行复制分为第一图像特征及第二图像特征;

利用所述第一分支提取所述第一图像特征的目标特征,并基于残差结构增加所述图像的卷积层数,得到第一特征;

利用所述第二分支输出所述第二图像特征的目标特征,得到第二特征;

将所述第一特征及所述第二特征进行拼接及卷积操作,完成所述目标物体的特征提取。

可选的,所述特征融合模块包括第三分支及第四分支,所述利用特征融合模块对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达,包括:

将获得的所述目标物体的特征进行复制分为第三图像特征及第四图像特征;

利用所述第三分支对所述第三图像特征进行不同尺度的特征提取,得到第三特征;

利用所述第四分支对所述第四图像特征进行特征提取,得到第四特征;

将所述第三特征及所述第四特征进行拼接及卷积操作,完成所述目标物体的特征的增强。

可选的,所述检测头包括分类头及位置回归头,所述基于所述目标物体的特征表达利用检测头进行所述目标物体的识别及检测,包括:

利用所述分类头提取所述目标物体的分类信息,得到所述目标物体的分类结果;

利用所述位置回归头提取所述目标物体的位置信息,得到所述目标物体所处位置的目标边界框;

基于所述目标物体的分类结果及所述位置的目标边界框完成所述目标物体的识别及检测。

可选的,所述特征提取模块包括第一分支及第二分支,所述利用目标物体特征提取模块进行目标物体的特征提取,包括:

将输入的图像的特征进行复制分为第一图像特征及第二图像特征;

所述第一分支包括CBS模块和Resx模块,用于提取所述第一图像特征的目标特征,并输出第一特征;

所述第二分支包括CBS模块,用于提取所述第二图像特征的目标特征,并输出第二特征;

将所述第一特征及所述第二特征输入Concat模块进行融合处理后,输入CBS模块,完成所述目标物体的特征提取。

可选的,所述特征融合模块包括第三分支及第四分支,所述对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达,包括:

将获得的所述目标物体的特征进行复制分为第三图像特征及第四图像特征;

所述第三分支包括2个或2个以上个CBS模块,用于对所述第三图像特征进行不同尺度的特征提取,得到第三特征;

所述第四分支包括一个CBS模块,用于进行所述第四图像特征的特征提取,得到第四特征;

将所述第三特征及所述第四特征通过Concat模块进行特征融合处理后,输入CBS模块进行统一融合,完成所述目标物体的特征的增强。

第二方面,本申请实施例提供了一种基于YOLO的目标物体检测的装置,所述装置包括:特征提取模块、特征融合模块及检测模块;

所述特征提取模块用于,进行目标物体的特征提取;

所述特征融合模块用于,对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达;

所述检测模块用于,基于所述目标物体的特征表达利用检测头进行所述目标物体的识别及检测。

第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述方法。

本申请提供了一种基于YOLO的目标物体检测的方法、装置及存储介质,在执行所述方法时,首先利用特征提取模块进行目标物体的特征提取,然后基利用特征融合模块对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达。最后利用检测模块基于所述目标物体的特征表达进行所述目标物体的识别及检测。如此,通过特征提取模块中的多层堆叠的深度卷积神经网络逐层提取并输出多尺度的目标物体图像深度注意力特征。然后基于获得的图像深度特征,通过多尺度的特征融合模块,将来自基网络的不同尺度的深浅层特征相结合,得到即包含了图像语义信息,也包含了目标物体图像纹理信息的多尺度注意力特征输出。最后将多尺度特征分别输出到检测模块进行目标物体的分类和位置回归,能够提高对目标物体的检测能力,实现对目标物体的准确识别。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于YOLO的目标物体检测的方法的流程图;

图2为本申请实施例提供的一种对目标物体进行特征提取的方法的流程图;

图3为本申请实施例提供的一种增强目标物体的特征表达的方法的流程图;

图4为本申请实施例提供的一种基于YOLO的目标物体检测的装置的结构示意图;

图5为本申请实施例提供的一种应用场景下的基于YOLO的鸟巢检测的系统;

图6为本申请实施例提供的一种CSP1_x模块的结构示意图;

图7为本申请实施例提供的一种CSP2_x模块的结构示意图;

图8为本申请实施例中的鸟巢的数据集图例。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在对于相关技术的研究中发现,现有的目标物体检测技术依赖于二阶段目标检测算法Faster R-CNN,算法时延较长,检测性能低,不具备电力场景检测的高精度、低延时的要求。同时,现有的检测算法基于神经网络本身的特征提取能力来提取目标物体的特征,而忽略了电力场景有些目标物体的识别具有以下两个难点:1)颜色单一,有些目标物体的颜色为黑色极易与周围的电力场景的钢架结构色彩相似,容易造成混淆。2)有些目标物体,比如鸟巢由树枝树叶搭建而成,外观错综复杂,尺度大小各异,外观特征不易学习。因此检测性能低,不符合电力场景高安全性的要求。

基于此,本申请提出了一种基于YOLO的鸟巢检测的方法、装置及存储介质。在YOLOv5的基础上考虑了有些目标物体本身所独有的黑色属性和错综复杂的纹理特性,采用注意力机制强化目标物体检测过程中上述特征的学习。能够有效的提升了网络对于目标物体的特征学习能力,取得了更好的目标物体检测性能。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请实施例提供的一种基于YOLO的目标物体检测的方法的流程图,参见图1所示,本申请实施例提供的一种基于YOLO的目标物体检测的方法包括:

S11:利用特征提取模块进行目标物体的特征提取。

YOLOv5为快速目标检测算法,该算法输入为一张包含三通道RGB的可见光图像,输入经过深度特征提取网络进行特征提取,提取后的特征经过检测头输出待检测目标的类别及边界框坐标。检测算法核心的部分为特征提取网络,该网络由多层卷积神经网络堆叠而成,用于拟合图像数据在高维特征空间的分布,经过多层卷积神经网络提取后的特征包含图像中目标丰富的纹理信息和语义信息,该信息有助于检测头对目标的定位和分类。其优点是检测速度快,并且该算法范式容易部署在各种计算设备上,具备很强的实用性。

但是,该算法常常被用于目标类别特征差异大的目标识别上,比如人、马、车。而对于特征不明显,识别难度大,与特定场景密切相关的目标识别效果欠佳。电力场景的有些目标物体本身具有独特的黑色属性和错综复杂的纹理特征,因此不易进行特征学习和识别。所以本申请实施例在YOLOv5的基础上对算法进行了改进,能够解决电力场景的目标物体识别,在安全性非常重要的电力场景上提升目标物体的检测性能,避免安全问题发生,具有非常高的价值。

S11中的“特征提取模块”为关注目标物体特征的特征提取模块,该模块包括第一分支及第二分支,图2为本申请实施例提供的一种对目标物体进行特征提取的方法的流程图,该方法具体包括:

S111:将输入的图像的特征进行复制分为第一图像特征及第二图像特征。

上述提到的输入的图像的特征可以理解为是图像的色彩、内容、分辨率等,在本申请实施例中以提取目标物体的特征为例进行具体阐述,目标物体的特征可以包括但不限于以下特征:目标物体的色彩、目标物体的外观特征等。

上述提到的第一分支及第二分支,这两个分支指的是将输入该CSP模块的特征复制两份送入两个部分进行分别学习。一部分通过CBS和Resx,另一部分通过CBS,两部分的特征最终拼接(Concat)在一起送入一个CBS模块。

分为第一分支及第二分支的目的是为了分别用浅层和深层的网络来分别学习特征。我们通常认为,更浅层的网络有助于学习更具象的纹理信息,更深层的网络有助于学习更抽象的语义信息。而在对于目标物体的检测过程中,浅层分支学习纹理,深层分支学习语义信息。

S112:利用所述第一分支提取所述第一图像特征的目标特征,并基于残差结构增加所述图像的卷积层数,得到第一特征。

上述提到的第一分支可以包括CBS模块和x个Resx模块,用于提取目标特征,x个指的是Resx模块的数量可以为大于或等于1个。设置多个Resx模块堆叠的目的是:为了提取更好的特征,这种操作可以增强特征的表征能力。具体来说,为了提升模型性能,可以堆叠更深的网络,更多的模块来提取特征。具体的Resx模块的数量可以由本领域的技术人员根据实际情况及应用场景进行设置,在此不作限定。

S113:利用所述第二分支输出所述第二图像特征的目标特征,得到第二特征。

第二分支可以包括CBS模块,利用CBS模块进行第二图像特征的提取得到第二特征。

S114:将所述第一特征及所述第二特征进行拼接及卷积操作,完成所述目标物体的特征提取。

进行拼接和卷积操作的模块可以为Concat模块及CBS模块。将两个分支的输出特征进入Concat,通过这种类似残差结构的设计,在不断增加卷积层数的同时提升了模型的准确率。最后,通过一个CBS模块进一步融合双分支特征。

以下对于上述提到的CBS模块、Resx模块及Concat模块进行具体解释:

1.CBS模块,由Conv(卷积层)+BN(归一化层)+SiLU(激活层)组成。通俗的来讲,这个模块在深度学习领域通常表示搭建特征学习网络的一个单元,一个完整的深度学习网络通常由多个类似单元堆叠而成。CBS模块就是用来提取图像特征,其中的BN和SiLU用来将Conv输出的特征进行归一化,并进行非线性映射,以促进网络参数在训练时的有效学习和反向传播。

2.Resx模块,由2个上述的CBS模块和一个残差连接(Residual Connect)组成,类似CBS,他也是一个特征提取单元,用来提取深度特征。

3.Concat模块,表示将两部分特征沿着通道维度进行拼接,比如特征1的尺寸是C1*H*W,特征2的尺寸是C2*H*W,那么拼接以后的特征尺寸是(C1+C2)*H*W。他用来将两个输入的特征分支组合成一个分支。

还可以采用SPPF模块,SPPF可以由CBS,Maxpooling,Concat三部分组成的。串联多个池化层,来聚合多个不同感受野的特征。与单纯的使用k*k最大池化的方式,更有效的增加主干特征的接收范围,显著的分离了最重要的上下文特征。

上述提到的感受野表示当前特征中每个位置对应到的原图的大小范围。具体来说,我们网络中的特征是原图通过堆叠很多层的网络提取得到的。在特征提取过程中,涉及了卷积层和池化层操作,其中卷积核和池化核的尺寸就决定了特征在每次特征提取中特征对应的感受野的变化。比如,用大小为3*3的卷积核和5*5的卷积核来提取特征时,特征中每个位置所能学习到的,对应到原图的,区域面积不同,一个仅能学习到原图中3*3的区域,一个则能学习到原图中5*5的区域,学习到的范围更大,指得就是特征的感受野更大。同理,这里面使用堆叠很多的Maxpool池化层来提取特征,随着池化层的加深,特征感受野更大,这里面聚合了多个感受野的特征。

上述提到的上下文特征指的是聚合了不同感受野的特征,也可以理解是分离了深层和浅层的特征。

通过上述提到的对目标物体进行特征提取的方法,特征提取部分由多层堆叠的深度卷积神经网络组成,用于逐层提取并输出多尺度的图像深度注意力特征。利用第一个分支提取目标特征。利用第二分支将输入特征通过CBS模块,然后将两个分支的输出特征进入Concat,通过这种类似残差结构的设计,在不断增加卷积层数的同时提升了模型的准确率。

S12:利用特征融合模块对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达。

由于拍摄目标物体的俯角和设备对于目标物体的尺度和特征的外观变化具有较大影响。在本实施例中提出了一种增强目标物体的特征表达的方法,能够以自顶向下的方式传达强语义特征,由以自底向上的方式传达强定位特征,将基网络输出的不同尺度的特征进行聚合,增强了目标物体特征的表达能力。

图3为本申请实施例提供的一种增强目标物体的特征表达的方法的流程图,如图3所示,该方法具体包括:

S121:将获得的所述目标物体的特征进行复制分为第三图像特征及第四图像特征。

S122:利用所述第三分支对所述第三图像特征进行不同尺度的特征提取,得到第三特征。

第三分支可以包括2个或2个以上个CBS模块,使用多个CBS模块的作用也是为了更好的学习特征,同上堆叠多个Resx模块类似。

S123:利用所述第四分支对所述第四图像特征进行特征提取,得到第四特征。

第四分支可以采用一个CBS模块,目的是保证两个提取模块的反向传播,以及浅层特征的学习。具体而言:网络在训练过程中,需要通过梯度反向传播来更新其中的网络权重。如果只是一个分支一直堆叠到底,会导致网络在训练过程中,梯度无法传播到更前面的层,导致更前面的层的网络权重无法更新,所以通常增加一个网络层更少的分支,或者直接连接到浅层,来保证更前面的层的网络得到有效的训练。更靠近输入的更前面的层得到的特征称为浅层特征,更靠近输出的更后面的层得到的特征称为深层特征。

S124:将所述第三特征及所述第四特征进行拼接及卷积操作,完成所述目标物体的特征的增强。

对第三特征及第四特征进行拼接及卷积操作的过程可以为:两个分支输出模块同样通过Concat模块连接将特征融合。最后,两路分支通过一个CBS模块将其进行统一融合。

通过上述提到的一种增强目标物体的特征表达的方法,能够进一步将目标物体本身所具有的颜色特征和底层纹理特征学习进行有效的结合,增强目标物体特征的表征能力。

S13:利用检测模块基于所述目标物体的特征表达进行所述目标物体的识别及检测。

检测头可以包括分类分支及位置回归分支。

具体的实现对于目标物体的识别及检测的过程可以为:首先利用所述分类分支提取所述目标物体的分类信息,得到所述目标物体的分类结果,然后利用所述位置回归分支提取所述目标物体的位置信息,得到所述目标物体所处位置的目标边界框,最后基于所述目标物体的分类结果及所述位置的目标边界框完成所述目标物体的识别及检测。

举例而言,对分类分支来说,可以首先使用四层卷积核尺度为3x3的卷积提取目标物体分类信息,然后再连接一层卷积核尺度为1x1的卷积,将特征的通道转换为类别总数1,即得到1类的目标物体分类预测结果。前述提到的转换可以理解为是变换的过程,由于之前提取的特征通道维度很大,所以最后需要通过1*1的卷积,提取出通道数为类别数的特征,这里面1类表示目标物体类,输出为目标物体类的分类置信度,置信度越高,网络越确信他是目标物体。

类似的,对于位置回归分支来说,可以首先通过四层卷积核尺度为3x3的卷积提取目标物体位置信息,然后再链接一层卷积核尺度为1x1的卷积,将特征变换为4通道,即得到目标所在边界框的坐标[x

最后通过NMS算法,将多余的检测框去掉,保留质量最高的检测框,并汇总输出目标物体的位置及分类结果。其中高质量的检测框是指置信度更高,网络更确信的目标物体框,低质量(置信度低的)的会被抑制。

上述提到的NMS算法指的是非最大值抑制,它是一种主要用于目标检测的技术,旨在从一组重叠框中选择最佳边界框,常用于计算机视觉中的边缘检测、物体识别、人脸检测、目标检测(DPM,YOLO,SSD,Faster R-CNN)等。其思想是搜素局部最大值,抑制非极大值。该算法的流程具体可以为:给出一张图片和上面许多物体检测的候选框(即每个框可能都代表某种物体),但是这些框很可能有互相重叠的部分,我们要做的就是利用非极大值抑制找到最佳的目标边界框,消除冗余的边界框,只保留最优的框。

需要进行说明的是,本申请实施例中提到的“第一”、“第二”、“第三”、“第四”仅是为了区分不同的分支或模块等,并不表示重要程度或是顺序优先级。

在本实施例中提出了一种基于YOLO的目标物体检测的方法,该方法首先利用特征提取模块进行目标物体的特征提取,然后基利用特征融合模块对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达。最后利用检测模块基于所述目标物体的特征表达进行所述目标物体的识别及检测。如此,通过特征提取模块中的多层堆叠的深度卷积神经网络逐层提取并输出多尺度的目标物体图像深度注意力特征。然后基于获得的图像深度特征,通过多尺度的特征融合模块,将来自基网络的不同尺度的深浅层特征相结合,得到即包含了图像语义信息,也包含了目标物体图像纹理信息的多尺度注意力特征输出。最后将多尺度特征分别输出到检测模块进行目标物体的分类和位置回归,能够提高对目标物体的检测能力,实现对目标物体的准确识别。

图4为本申请实施例提供的一种基于YOLO的目标物体检测的装置的结构示意图,如图4所示,一种基于YOLO的目标物体检测的装置具体包括:特征提取模块100、特征融合模块200及检测模块300;

所述特征提取模块100用于,进行目标物体的特征提取;

所述特征融合模块200用于,对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达;

所述检测模块300用于,基于所述目标物体的特征表达利用检测头进行所述目标物体的识别及检测。

在可以的实现方式中,所述特征提取模块100包括第一分支及第二分支,所述利用目标物体特征提取模块进行目标物体的特征提取,所述特征提取模块具体用于:

将输入的图像的特征进行复制分为第一图像特征及第二图像特征;

利用所述第一分支提取所述第一图像特征的目标特征,并基于残差结构增加所述图像的卷积层数,得到第一特征;

利用所述第二分支输出所述第二图像特征的目标特征,得到第二特征;

将所述第一特征及所述第二特征进行拼接及卷积操作,完成所述目标物体的特征提取。

具体而言可以理解为:第一个分支将输入特征通过CBS模块和x个Resx模块,用于提取目标特征。另一个分支将输入特征通过CBS模块,然后将两个分支的输出特征进入Concat,通过这种类似残差结构的设计,在不断增加卷积层数的同时提升了模型的准确率。最后,通过一个CBS模块进一步融合双分支特征。

在可以的实现方式中,所述特征融合模块200包括第三分支及第四分支,所述利用特征融合模块对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达,所述特征融合模块200具体用于:

将获得的所述目标物体的特征进行复制分为第三图像特征及第四图像特征;

利用所述第三分支对所述第三图像特征进行不同尺度的特征提取,得到第三特征;

利用所述第四分支对所述第四图像特征进行特征提取,得到第四特征;

将所述第三特征及所述第四特征进行拼接及卷积操作,完成所述目标物体的特征的增强。

其中同样包括两个分支,其中一个分支堆叠了多个CBS模块,用于提取不同尺度特征的深度信息。另一个分支采用一个CBS模块,保证两个提取模块的反向传播,以及浅层特征的学习。两个分支输出模块同样通过Concat连接将特征融合。最后,两路分支通过一个CBS模块将其进行统一融合。

在可以的实现方式中,所述检测模块包括分类分支及位置回归分支,所述基于所述目标物体的特征表达进行所述目标物体的识别及检测,包括:

利用所述分类分支提取所述目标物体的分类信息,得到所述目标物体的分类结果;

利用所述位置回归分支提取所述目标物体的位置信息,得到所述目标物体所处位置的目标边界框;

基于所述目标物体的分类结果及所述位置的目标边界框完成所述目标物体的识别及检测。

通过分类分支和位置回归分支两部分来对目标物体进行识别并确定其所在位置。对分类分支来说,首先可以使用四层卷积核尺度为3x3的卷积提取目标物体分类信息,然后再连接一层卷积核尺度为1x1的卷积,将特征的通道转换为类别总数1,即得到1类的目标物体分类预测结果。

类似的,对于位置回归分支来说,首先可以通过四层卷积核尺度为3x3的卷积提取目标物体位置信息,然后再链接一层卷积核尺度为1x1的卷积,将特征变换为4通道,即得到目标所在边界框的坐标[x

在可以的实现方式中,所述特征提取模块100包括第一分支及第二分支,所述利用目标物体特征提取模块进行目标物体的特征提取,包括:

将输入的图像的特征进行复制分为第一图像特征及第二图像特征;

所述第一分支包括CBS模块和Resx模块,用于提取所述第一图像特征的目标特征,并输出第一特征;

所述第二分支包括CBS模块,用于提取所述第二图像特征的目标特征,并输出第二特征;

将所述第一特征及所述第二特征输入Concat模块进行融合处理后,输入CBS模块,完成所述目标物体的特征提取。

在可以的实现方式中,所述特征融合模块200包括第三分支及第四分支,所述对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达,所述特征融合模块200具体用于:

将获得的所述目标物体的特征进行复制分为第三图像特征及第四图像特征;

所述第三分支包括2个或2个以上个CBS模块,用于对所述第三图像特征进行不同尺度的特征提取,得到第三特征;

所述第四分支包括一个CBS模块,用于进行所述第四图像特征的特征提取,得到第四特征;

将所述第三特征及所述第四特征通过Concat模块进行特征融合处理后,输入CBS模块进行统一融合,完成所述目标物体的特征的增强。

在可以的实现方式中,所述检测模块300包括分类分支及位置回归分支,所述基于所述目标物体的特征表达进行所述目标物体的识别及检测,所述检测模块300具体用于:

所述分类分支包括第一提取模块及第一通道转换模块,利用所述第一提取模块提取所述目标物体的分类信息,根据所述分类信息中的类别数量利用所述通道转换模块进行通道数量的转换,得到与所述通道数量对应的目标物体分类结果;

所述位置回归分支包括第二提取模块及第二通道转换模块,利用所述第二提取模块提取所述目标物体的位置信息,利用所述通道转换模块进行通道数量的转换,得到所述目标物体所在位置的目标边界框的坐标;

基于所述目标物体分类结果及所述目标物体所在位置的目标边界框的坐标,完成所述目标物体的识别及检测。

在本实施例中提出了一种基于YOLO的目标物体检测的装置,该装置包括:特征提取模块、特征融合模块及检测模块。其中特征提取模块用于进行目标物体的特征提取;特征融合模块用于对获得的所述目标物体的特征进行多尺度特征融合增强所述目标物体的特征表达;检测模块用于基于所述目标物体的特征表达利用检测头进行所述目标物体的识别及检测。如此,通过特征提取模块中的多层堆叠的深度卷积神经网络逐层提取并输出多尺度的目标物体图像深度注意力特征。然后基于获得的图像深度特征,通过多尺度的特征融合模块,将来自基网络的不同尺度的深浅层特征相结合,得到即包含了图像语义信息,也包含了目标物体图像纹理信息的多尺度注意力特征输出。最后将多尺度特征分别输出到检测模块进行目标物体的分类和位置回归,能够提高对目标物体的检测能力,实现对目标物体的准确识别。

在一种可以实现的应用场景中,以目标物体是鸟巢为例,提供了一种应用场景下的基于YOLO的鸟巢检测的系统,在实际应用中目标物体可以是其他的物体,比如:垃圾、巡检器、人等,在此不作限定。

图5为本申请实施例提供的一种应用场景下的基于YOLO的鸟巢检测的系统,如图5所示,本申请实施例还提出了一种应用场景下的基于YOLO的鸟巢检测的系统的结构示意图,具体而言:

该系统总共包括基于基网络(Backbone)的特征提取、多尺度特征融合(Neck)、分类及回归检测头(Head)三部分。其中基于基网络的特征提取部分由多层堆叠的深度卷积神经网络组成,用于逐层提取并输出多尺度的图像深度注意力特征。其次,基于获得的图像深度特征,通过多尺度特征融合部分,将来自基网络的不同尺度的深浅层特征相结合,得到即包含了图像语义信息,也包含了图像纹理信息的多尺度注意力特征输出。最后,将多尺度特征分别输出到检测头进行鸟巢的分类和位置回归,下面将分别对上述三个重要模块进行介绍:

1、基于基网络(Backbone)的特征提取

为了检测与鸟巢检测任务紧密相关的颜色及复杂纹理信息,本节基于YOLOv5的backbone设计了关注鸟巢特征的特征提取模块。其中值得注意的是,为了有效提取鸟巢的颜色特征,本实施例中设计了CSP1_x模块。图6为本申请实施例提供的一种CSP1_x模块的结构示意图,如图所示,具体结构如下:

其中包括两个分支,首先第一个分支将输入特征通过CBS模块和x个Resx模块,用于提取目标特征。另一个分支将输入特征通过CBS模块,然后将两个分支的输出特征进入Concat,通过这种类似残差结构的设计,在不断增加卷积层数的同时提升了模型的准确率。最后,通过一个CBS模块进一步融合双分支特征。

此外,为了更好的帮助网络学习鸟巢错综复杂的纹理特征,CBS模块的激活函数设计使用SiLU。SiLU函数能够在网络输出特征值为负值时也有效激活,随着输出的特征值负值越大,参与反向传播的梯度越小,具有自稳定特征。除了能够全部被激活特征并有效反向传播,该激活函数还保持了网络的非线性性,让网络更有效的捕获到鸟巢复杂纹理特征。

最后,该部分采用SPPF模块,串联多个池化层(Maxpool),来聚合多个不同感受野的特征。与单纯的使用k*k最大池化的方式,更有效的增加主干特征的接收范围,显著的分离了最重要的上下文特征。

2、多尺度特征融合(Neck)

拍摄鸟巢的俯角和设备对于鸟巢的尺度和特征的外观变化具有较大影响。该多尺度特征融合模块以自顶向下的方式传达强语义特征,由以自底向上的方式传达强定位特征,将基网络输出的不同尺度的特征进行聚合,增强了鸟巢特征的表达能力。其中,本文基于YOLOv5的多尺度特征融合neck结构,改进了鸟巢特征的多尺度特征融合模块。本实施例中设计了CSP2_x模块。图7为本申请实施例提供的一种CSP2_x模块的结构示意图,如图7所示,具体结构如下:

其中同样包括两个分支,其中一个分支堆叠了多个CBS模块,用于提取不同尺度特征的深度信息。另一个分支采用一个CBS模块,保证两个提取模块的反向传播,以及浅层特征的学习。两个分支输出模块同样通过Concat连接将特征融合。最后,两路分支通过一个CBS模块将其进行统一融合。该结构在多尺度特征相融合的基础上,采用CSP2_x模块将来自多个尺度融合后的特征进行学习,进一步将鸟巢本身所具有的颜色特征和底层纹理特征学习进行有效的结合,增强鸟巢特征的表征能力。

3、分类及回归检测头(Head)

本节通过分类头和位置回归头两部分来对鸟巢进行识别并确定其所在位置。

对分类分支来说,首先使用四层卷积核尺度为3x3的卷积提取鸟巢分类信息,然后再连接一层卷积核尺度为1x1的卷积,将特征的通道转换为类别总数1,即得到1类的鸟巢分类预测结果。

类似的,对于位置回归分支来说,首先通过四层卷积核尺度为3x3的卷积提取鸟巢位置信息,然后再链接一层卷积核尺度为1x1的卷积,将特征变换为4通道,即得到目标所在边界框的坐标[x

最后通过NMS算法,将多余的检测框去掉,保留质量最高的检测框,并汇总输出鸟巢的位置及分类结果。

为了验证申请实施例中提出的基于YOLO的鸟巢检测的方法的有效性,本申请实施例中针对电力场景中采集的实际鸟巢数据进行了实验,具体过程如下:

1、数据集的采集

为了有效的验证本文提出方法的有效性,本文从实际电力场景中拍摄了1000张鸟巢实景图像来构造电力场景的鸟巢数据集,其中涵盖不同天气情况、不同钢架型号、不同拍摄角度及姿态、不同天气条件等多种情况。其中500张进行训练,500张做测试。图像大小统一调整成YOLOv5所要求的分辨率。图8为本申请实施例中的鸟巢的数据集图例。

2、评价指标

对鸟巢检测采用MAP(Mean Average Precision)指标来评价鸟巢检测模型的性能。MAP是对所有类别的AP(Average Precision)的平均值,AP值是指检测模型的Recall和Precision构成的P-R曲线下的面积值。AP和MAP的计算如下:

其中:N是指类别的个数,N=1,指的是只有鸟巢一个类别。p(r)是指检测结果召回率为r的情况下检测器的精准度。

3、对比方法

本文在所采集的电力场景鸟巢数据集上,系统的对比了如下方法RetinaNet,YOLOv3,Faster R-CNN、YOLOv4及YOLOv5检测方法,实验结果如下表1所示。其中,为了保证实验的公平性,本文将采用统一的ResNet34基网络结构,以及是网络充分训练的相同的训练轮次。所有的实验均在2080Ti GPU及PyTorch深度学习框架下进行。

表1主流目标检测算法性能比较

从上述表1中可以看出,本文的方法相比于主流的二阶段目标检测网络Faster R-CNN带来5.43%的性能提升;同时相比于速度更快,精度更高的主流一阶段高性能检测方法YOLOv5带来了2.01%的性能提升。这得益于本文方案对特征学习基网络和多尺度特征融合网络中的模块的独特设计。使得网络注意力机制关注到了鸟巢的颜色及纹理特征。

消融实验

为了验证本文设计的CSP1_x和CSP2_x模块的有效性,本章在电力场景鸟巢数据集上选择目标检测算法YOLOv5作为baseline进行了消融实验。消融实验结果如表2所示:

表2消融实验结果

表2显示通过加入CSP1_x模块,网络的mAP值提升了0.7%。这证明了本文设计的特征提取模块能够通过基于鸟巢特征的注意力机制,有效的捕获到鸟巢颜色及复杂纹理特征。这样的方式可以让网络更好的学习到对鸟巢检测有帮助的关键特征,潜在的提升鸟巢检测任务的性能。当在baseline的基础上加入CSP2_x后,mAP提升了0.6%。这证明了该模块利用自顶向下和自底向上相结合的方式,加强语义特征和定位特征的传递,增强了鸟巢特征的表达能力,从而进一步提升了鸟巢检测的准确率。最后,在baseline的基础上同时加入CSP1_x和CSP2_x模块,模型mAP提升了0.9%。这说明本问设计的密切相关的两个模块可以增强网络对鸟巢特征的学习,从而达到更好的性能。

讨论

为了验证本文方法的有效性,在电力场景鸟巢数据集上,对激活函数SiLU、CSP1的有效性和CSP2的有效性进行细致的讨论。

1)激活函数SiLU

本文对CBS模块的激活函数进行了对比实验,对比方法包括ReLU、Leakly ReLU、CReLU、PReLU和SiLU。其中ReLU函数当输入小于0时,梯度为0;当输入大于0时,梯度为1。Leakly ReLU则在ReLU的基础上,将输入小于0的部分以微笑的负梯度进行输出。PReLU通过自学习参数α,加入随机噪声帮助参数取值跳出局部最优和鞍点。CReLU则进一步减少了滤波器之间的冗余。对比结果如表3所示,当选择SiLU作为激活函数时,能够更好的实现复杂鸟巢纹理特征的学习,从而实现更好的鸟巢识别性能。因此,在最终的模型方案中,本文使用SiLU作为CBS基本模块的激活函数。

表3不同激活函数的对比结果

2)CSP1的有效性

为了证明本文设计的CSP1结构的有效性,本文对比了不同结构的模块,其中CSP1_x(YOLOv5)指YOLOv5原文中的CSP1_x结构,ResBlock为ResNet50网络的基本残差模块,Conv为尺度为3x3的卷积核,CSP1_x(Ours)则为本文设计的CSP1_x模块。对比实验结果如表4所示,本文设计的CSP1_x模块更够更好的提升模型检测性能,mAP达到88.62%。这说明本文设计的这种结构更加适合鸟巢检测任务,能够更好的提取鸟巢特有的黑色及复杂纹理特征,为进一步提升鸟巢识别性能奠定了基础。

表4不同CSP1结构的对比结果

3)CSP2的有效性

为了证明本文设计的CSP2结构的有效性,本文对比了不同结构的模块,其中CSP2_x(YOLOv5)指YOLOv5原文中的CSP2_x结构,ResBlock为ResNet50网络的基本残差模块,Conv为尺度为3x3的卷积核,CSP2_x(Ours)则为本文设计的CSP2_x模块。对比实验结果如表5所示,相比其他结构模块,本文设计的CSP2_x模块的mAP最高,达到88.62%。这说明本文设计的多尺度特征融合模块有效加强了语义信息和定位信息的表达,进而增强了多尺度鸟巢特征的表征能力,提升鸟巢的识别和定位性能。

表5不同CSP2结构的对比结果

附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

本申请实施例还提供了对应的设备以及计算机可读存储介质,用于实现本申请实施例提供的方案。

其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本申请任一实施例所述的一种基于YOLO的目标物体检测的方法。

在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

相关技术
  • 物体检测方法、装置、设备、存储介质及车辆
  • 一种基于关键点回归的通用物体检测方法、系统、终端和存储介质
  • 基于高阶累积量的目标跟踪方法、装置及存储介质
  • 目标追踪方法、装置、目标追踪设备及存储介质
  • 目标追踪方法、装置、目标追踪设备及存储介质
  • 一种基于DETR-YOLO的目标检测方法、装置及存储介质
  • 基于YOLO-X模型的目标检测方法、装置、电子设备和存储介质
技术分类

06120116499691