掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的遮挡物体目标检测方法与系统

文献发布时间:2024-04-18 19:59:31


一种基于深度学习的遮挡物体目标检测方法与系统

技术领域

本发明涉及计算机视觉目标检测领域,更具体地,涉及一种基于深度学习的遮挡物体目标检测方法与系统。

背景技术

随着计算机视觉和深度学习的迅速发展,目标检测技术已经取得了显著的进展,其目标是从图像或视频中准确定位和识别不同类别的物体,应用领域包括自动驾驶、智能安防、机器人技术等。然而,在实际检测任务中,目标常常会被其它物体遮挡,导致物体的部分或全部不可见,影响网络模型特征学习过程,导致检测准确性降低。因此如何有效识别遮挡目标,提高对遮挡物体检测的准确性,在实际应用中具有重要意义。

基于深度学习的目标检测算法大致可分为两大类:单阶段检测算法与两阶段检测算法。这两类算法各有优缺点,单阶段检测算法与两阶段检测算法相比少了建议区域生成这一步骤,直接进行特征提取,生成预测框,再进行分类与定位回归。单阶段检测比起两阶段检测在准确度上没有明显优势,但在检测速度上要占据优势,较为经典的单阶段检测算法有YoLo系列、SSD、以及RetinaNet等。两阶段检测算法又称为基于候选区域的目标检测,其实现检测主要分两步,一是提取物体区域,二是对提取到的物体区域进行分类识别,在众多两阶段检测算法中,R-CNN系列是其中最具代表性的算法。

对于遮挡物检测的研究,Zhang等人在两阶段目标检测算法Faster R-CNN的基础上改进,将行人划分成五部分,设计了部分遮挡部分感知区域池化单元(PORoI)替代RoI池化层,提出了OR-CNN(Occlusion-aware R-CNN)网络模型,同时引入注意力机制,使网络能够专注于被遮挡的区域,提高遮挡物体的检测精度。另一种研究方向从损失函数入手,Wang等人针对密集遮挡人群检测中多个目标框彼此靠近时出现的相互干扰,提出一种针对遮挡人群目标检测的边界框回归损失函数,称为Repulsion Loss,该损失函数对建议框施加真正目标的吸引力以及周围目标的排斥力,提高了模型对相邻目标的区分能力,改善了目标检测算法在目标密集场景下的检测能力。Liu等人在Soft-NMS基础上进行优化,引入自适应的思想,提出了Adaptive-NMS,其核心思想是通过网络学习生成一个适应性阈值,该阈值会根据输入的图像内容进行动态调整,在目标密集时,NMS阈值较大;在目标稀疏时,NMS阈值较小。

虽然上述算法均有效的提高了遮挡物体的检测精度,然而遮挡物体检测中,遮挡对象的真实框中通常没有检测对象完整信息,甚至无用信息占大部分,模型无法充分学习检测物体的特征,导致检测过程中出现预测框定位不准、误检漏检等问题。为此,本文基于Yolov5网络模型提出一种改进的遮挡物体检测检测算法,提高其对于遮挡物体检测的检测精度,首先为了提高信息的有效利用率,在特征金字塔(Feature Pyramid Network,FPN)部分引入自适应思想,促使网络模型关注有效信息多的特征图,其次对定位损失函数进行优化,对斥力损失进行改进,并将其引入Yolov5的整体损失函数。改进后的算法在OccludedVOC(经过筛选的PASCAL VOC数据集)中进行验证,结果显示改进后的算法检测精度明显提高。

现有技术提供了一种基于生成对抗式网络的一阶段目标检测方法、系统及装置,旨在解决速度快、实时性强的一阶段目标检测器对小物体、扭曲变形物体以及遮挡物体的识别精度低的问题。本发明包括:基于获取的输入图像,通过训练好的目标检测网络获取输入图像中各目标对应的目标图像;基于Darknet-53网络框架结合生成对抗式网络构建目标检测网络;基于Wasserstein距离函数构建损失函数;训练过程中通过扭曲变形特征网络、遮挡特征网络和超分辨特征网络扩大样本数量。

发明内容

本发明为克服上述现有技术在目标检测过程中出现预测框定位不准和误检漏检的缺陷,提供一种基于深度学习的遮挡物体目标检测方法与系统。

为解决上述技术问题,本发明的技术方案如下:

本发明提供了一种基于深度学习的遮挡物体目标检测方法,所述方法包括:

S1:获取包含遮挡物体的原始图片和待检测图片;

S2:对所述原始图片进行预处理,获得数据增强图片;

S3:利用所述数据增强图片对构建的遮挡物体检测模型进行训练,获得训练好的遮挡物体检测模型;

S4:将待检测图片输入训练好的遮挡物体检测模型中,获得待检测图片中遮挡物体的边界框和类别标签。

优选地,所述S2中,进行预处理的具体方法为:

对原始图片调整为统一分辨率后,拆分为三通道图片;对每个通道图片进行旋转、翻转、剪切和拼接操作,获得数据增强图片。

优选地,所述S3中,具体方法为:

S31:构建遮挡物体检测模型,包括依次连接的特征提取网络单元、特征加强与融合网络单元和预测头网络单元;

S32:利用特征提取网络单元对数据增强图片进行特征提取,获得三个尺度的特征图;

S33:将三个尺度的特征图通过特征加强与融合网络单元后进行特征加强与融合,输出三个尺度的加强特征图;

S34:利用预测头网络单元对三个尺度的加强特征图进行回归和分类,输出预测框和预测类别标签;

S35:设置总损失函数,根据预测框和预测类别标签与数据增强图片中的真实框和真实类别标签,计算总损失函数值,并对构建遮挡物体检测模型进行参数调整;

S36:当总损失函数值达到预设值时或达到预设训练次数时,获得训练好的遮挡物体检测模型。

优选地,在S32中,利用特征提取网络单元对数据增强图片进行特征提取,获得三个尺度的特征图,特征提取网络单元包括依次连接的Focus层、第一CBS层、第一CSP1层、第二CBS层、第二CSP1层、第三CBS层、第三CSP1层、第四CBS层、标准通道层、第一CSP2层、第五CBS层;

第二CSP1层的输出第一尺度特征图;第三CSP1层的输出第二尺度特征图;第五CBS层输出第三尺度特征图。

优选地,在S33中,将三个尺度的特征图通过特征加强与融合网络单元后进行特征加强与融合,输出三个尺度的加强特征图,所述特征加强与融合网络单元包括第一连接层、第二连接层、第三连接层、第四连接层、第五连接层、第六连接层、第七连接层、第八连接层、第二CSP2层、第三CSP2层、第四CSP2层、第五CSP2层、第六CSP2层、第七CSP2层、第八CSP2层、第九CSP2层、第六CBS层、第七CBS层、第八CBS层、第九CBS层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第一融合层、第二融合层、第三融合层、第一上采样层、第二上采样层、第三上采样层、第四上采样层、第一下采样层、第二下采样层、第三下采样层和第四下采样层;

所述第二CSP1层的输出端与第一连接层的输入端连接;所述第三CSP1层的输出端与第二连接层和第七连接层的输入端均连接;所述第五CBS层的输出端与第二上采样层和第四连接层的输入端均连接;

第一连接层的输出端与第二CSP2层的输入端连接;第一上采样层的输出端与第二连接层的输入端连接;第二连接层的输出端与第三CSP2层的输入端连接;第三CSP2层的输出端与第六CSP2层的输入端连接;第六CSP2层的输出端与第一上采样层的输入端连接;第一上采样层的输出端与第一连接层的输入端连接;第二CSP2层的输出端与第七CBS层的输入端连接;

第七CBS层的输出端与第一卷积层的输入端连接;第二卷积层的输出端与第五连接层和第一下采样层的输入端均连接;第一下采样层的输出端与第三连接层的输入端连接;第三连接层的输出端与第四CSP2层的输入端连接;第四CSP2层的输出端与第二卷积层的输入端连接;第二卷积层的输出端与第六连接层和第二下采样层的输入端均连接;第二下采样层的输出端与第四连接层的输入端连接;第四连接层的输出端与第五CSP2层的输入端连接;第五CSP2层的输出端与第三卷积层的输入端连接;第三卷积层的输出端与第四上采样层和第八连接层的输入端均连接;

第四上采样层的输出端与第六连接层的输入端连接;第六连接层的输出端与第七CSP2层的输入端连接;第七CSP2层的输出端与第八CBS层的输入端连接;第八CBS层的输出端与第三上采样层的输入端连接;第三上采样层的输出端与第五连接层的输入端连接;第五连接层的输出端与第六CSP2层的输入端连接;

第六CSP2层的输出端与第九CBS层的输入端连接;第九CBS的输出端与第四卷积层的输入端连接;第四卷积层的输出端与第三下采样层、第一融合层、第二融合层和第三融合层的输入端均连接;第三下采样层的输出端与第七连接层的输入端连接;第七连接层的输出端与第八CSP2层的输入端连接;第八CSP2层的输出端与第五卷积层的输入端连接;第五卷积层的输出端与第四下采样层、第一融合层、第二融合层和第三融合层的输入端均连接;第四下采样层的输出端与第八连接层的输入端连接;第八连接层的输出端与第九CSP2层的输入端连接;第九CSP2层的输出端与第六卷积层的输入端连接;第六卷积层的输出端与第一融合层、第二融合层和第三融合层的输入端均连接;

第一融合层输出第一尺度加强特征图;第二融合层输出第二尺度加强特征图;第三融合层输出第三尺度加强特征图;

优选地,在S34中,利用预测头网络单元对三个尺度的加强特征图进行回归和分类,输出预测框和预测类别标签,所述预测头网络单元包括第一预测层、第二预测层和第三预测层;

所述第一融合层的输出端与第一预测层的输入端连接;所述第二融合层的输出端与第二预测层的输入端连接;所述第三融合层的输出端与第三预测层的输入端连接;

所述第一预测层输出第一预测向量;所述第二预测层输出第二预测向量;所述第三预测层输出第三预测向量;根据所述的第一预测向量、第二预测向量、第三预测向量确定预测框和预测类别标签,输出预测框和预测类别标签。

优选地,所述CBS层包括依次连接的第七卷积层、归一化层和激活层。

优选地,在S35中,所述总损失函数包括定位损失、分类损失和置信度损失,所述总损失函数的公式为:

L=αL

其中,L

优选地,所述定位损失的公式为:

L=L

其中,L

所述分类损失的公式为:

其中,C

所述置信度损失的公式为:

其中,P

本发明还提供了一种基于深度学习的遮挡物体目标检测系统,用于实现上述的方法,所述系统包括:

数据获取模块,获取包含遮挡物体的原始图片和待检测图片;

数据增强模块,对所述原始图片进行预处理,获得数据增强图片;

模型训练模块,利用所述数据增强图片对构建的遮挡物体检测模型进行训练,获得训练好的遮挡物体检测模型;

模型输出模块,将待检测图片输入训练好的遮挡物体检测模型中,获得待检测图片中遮挡物体的边界框和类别标签。

与现有技术相比,本发明技术方案的有益效果是:

本发明采用改进的特征加强与融合网络单元,不同层级特征图之间的信息传递,通过自顶向下和自底向上两条信息传递链路,使模型能在不同层级之间更好地传递这些信息,使图片中的特征信息得到充分的利用;采用的特征加强与融合网络单元关注多尺度特征图的融合,以增强模型对不同尺度下的目标信息的感知能力,帮助模型关注被遮挡目标信息较多的特征图;采用的损失函数加入了改进的定位损失,有效提高了网络模型面对密集遮挡目标时的检测精度。

附图说明

图1为实施例1中所述的一种基于深度学习的遮挡物体目标检测方法的流程图;

图2为实施例2中所述的遮挡物体检测模型的结构示意图;

图3为实施例2中所述的特征加强与融合网络单元中的节点的结构示意图;

图4为实施例3中所述的一种基于深度学习的遮挡物体目标检测系统的结构示意图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供了一种基于深度学习的遮挡物体目标检测方法,如图1所示,所述方法包括:

S1:获取包含遮挡物体的原始图片和待检测图片;

S2:对所述原始图片进行预处理,获得数据增强图片;

S3:利用所述数据增强图片对构建的遮挡物体检测模型进行训练,获得训练好的遮挡物体检测模型;

S4:将待检测图片输入训练好的遮挡物体检测模型中,获得待检测图片中遮挡物体的边界框和类别标签。

首先,获取包含遮挡物体的原始图片和待检测图片;然后,对原始图片进行预处理,得到数据增强图片;接下来,利用这些数据增强图片对构建的遮挡物体检测模型进行训练,从而获得训练好的遮挡物体检测模型;最后,将待检测图片输入训练好的模型中,以获取待检测图片中遮挡物体的边界框和类别标签。通过这一系列步骤,我们能够实现遮挡物体的有效检测和定位。

实施例2

本实施例提供了一种基于深度学习的遮挡物体目标检测方法,所述方法包括:

S1:获取包含遮挡物体的原始图片和待检测图片;

在图片中若两个真实框之间有重叠区域,则视为该图片中具有遮挡目标,本实施例为针对遮挡物体目标检测进行训练,对公共数据集PASCAL VOC数据集(包括2007和2012版本的PASCAL VOC数据集)进行筛选,筛选的条件分别为为:1、图片中至少包含两个真实框;2、至少存在两个真实框出现重叠,且重叠区域的面积至少占其中一个真实框面积的30%。经过筛选后数据集命名为Occluded VOC,其具有6850张图片,与6850各标签文件,20个种类的物体。

S2:对所述原始图片进行预处理,获得数据增强图片;

进行预处理的具体方法为:

对原始图片调整为统一分辨率后,拆分为三通道图片;对每个通道图片进行旋转、翻转、剪切和拼接操作,获得数据增强图片。

筛选后的数据集在送入网络模型进行训练前,要将其进行预处理,以增强数据集的复杂度与丰富性以提高训练后网络模型的鲁棒性。先将输入的图片调整为统一大小,在本实施例中将输入图片分辨率统一调整为640×640,又因为输入图片为彩色图片,具有R、G、B三个通道,输入图片最终大小为640×640×3,然后对其进行旋转、翻转、cutout、拼接等操作进行数据增强。

S3:利用所述数据增强图片对构建的遮挡物体检测模型进行训练,获得训练好的遮挡物体检测模型;

S31:构建遮挡物体检测模型,如图2所示,包括依次连接的特征提取网络单元、特征加强与融合网络单元和预测头网络单元;

S32:利用特征提取网络单元对数据增强图片进行特征提取,获得三个尺度的特征图;

利用特征提取网络单元对数据增强图片进行特征提取,获得三个尺度的特征图,特征提取网络单元包括依次连接的Focus层、第一CBS层、第一CSP1层、第二CBS层、第二CSP1层、第三CBS层、第三CSP1层、第四CBS层、标准通道层、第一CSP2层、第五CBS层;

第二CSP1层的输出第一尺度特征图;第三CSP1层的输出第二尺度特征图;第五CBS层输出第三尺度特征图;输出三个尺度为(20,20,1024)、(40,40,512)和(80,80,256)的特征图。

S33:将三个尺度的特征图通过特征加强与融合网络单元后进行特征加强与融合,输出三个尺度的加强特征图;

将三个尺度的特征图通过特征加强与融合网络单元后进行特征加强与融合,输出三个尺度的加强特征图,所述特征加强与融合网络单元包括第一连接层、第二连接层、第三连接层、第四连接层、第五连接层、第六连接层、第七连接层、第八连接层、第二CSP2层、第三CSP2层、第四CSP2层、第五CSP2层、第六CSP2层、第七CSP2层、第八CSP2层、第九CSP2层、第六CBS层、第七CBS层、第八CBS层、第九CBS层、第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第一融合层、第二融合层、第三融合层、第一上采样层、第二上采样层、第三上采样层、第四上采样层、第一下采样层、第二下采样层、第三下采样层和第四下采样层;

所述第二CSP1层的输出端与第一连接层的输入端连接;所述第三CSP1层的输出端与第二连接层和第七连接层的输入端均连接;所述第五CBS层的输出端与第二上采样层和第四连接层的输入端均连接;

第一连接层的输出端与第二CSP2层的输入端连接;第一上采样层的输出端与第二连接层的输入端连接;第二连接层的输出端与第三CSP2层的输入端连接;第三CSP2层的输出端与第六CSP2层的输入端连接;第六CSP2层的输出端与第一上采样层的输入端连接;第一上采样层的输出端与第一连接层的输入端连接;第二CSP2层的输出端与第七CBS层的输入端连接;

第七CBS层的输出端与第一卷积层的输入端连接;第二卷积层的输出端与第五连接层和第一下采样层的输入端均连接;第一下采样层的输出端与第三连接层的输入端连接;第三连接层的输出端与第四CSP2层的输入端连接;第四CSP2层的输出端与第二卷积层的输入端连接;第二卷积层的输出端与第六连接层和第二下采样层的输入端均连接;第二下采样层的输出端与第四连接层的输入端连接;第四连接层的输出端与第五CSP2层的输入端连接;第五CSP2层的输出端与第三卷积层的输入端连接;第三卷积层的输出端与第四上采样层和第八连接层的输入端均连接;

第四上采样层的输出端与第六连接层的输入端连接;第六连接层的输出端与第七CSP2层的输入端连接;第七CSP2层的输出端与第八CBS层的输入端连接;第八CBS层的输出端与第三上采样层的输入端连接;第三上采样层的输出端与第五连接层的输入端连接;第五连接层的输出端与第六CSP2层的输入端连接;

第六CSP2层的输出端与第九CBS层的输入端连接;第九CBS的输出端与第四卷积层的输入端连接;第四卷积层的输出端与第三下采样层、第一融合层、第二融合层和第三融合层的输入端均连接;第三下采样层的输出端与第七连接层的输入端连接;第七连接层的输出端与第八CSP2层的输入端连接;第八CSP2层的输出端与第五卷积层的输入端连接;第五卷积层的输出端与第四下采样层、第一融合层、第二融合层和第三融合层的输入端均连接;第四下采样层的输出端与第八连接层的输入端连接;第八连接层的输出端与第九CSP2层的输入端连接;第九CSP2层的输出端与第六卷积层的输入端连接;第六卷积层的输出端与第一融合层、第二融合层和第三融合层的输入端均连接;

第一融合层输出第一尺度加强特征图;第二融合层输出第二尺度加强特征图;第三融合层输出第三尺度加强特征图;输出的加强特征尺度大小不变,分别为(20,20,1024)、(40,40,512)和(80,80,256)。

S34:利用预测头网络单元对三个尺度的加强特征图进行回归和分类,输出预测框和预测类别标签;

利用预测头网络单元对三个尺度的加强特征图进行回归和分类,输出预测框和预测类别标签,所述预测头网络单元包括第一预测层、第二预测层和第三预测层;

所述第一融合层的输出端与第一预测层的输入端连接;所述第二融合层的输出端与第二预测层的输入端连接;所述第三融合层的输出端与第三预测层的输入端连接;

所述第一预测层输出第一预测向量;所述第二预测层输出第二预测向量;所述第三预测层输出第三预测向量;根据所述的第一预测向量、第二预测向量、第三预测向量确定预测框和预测类别标签,输出预测框和预测类别标签。

所述CBS层包括依次连接的第七卷积层、归一化层和激活层。

S35:设置总损失函数,根据预测框和预测类别标签与数据增强图片中的真实框和真实类别标签,计算总损失函数值,并对构建遮挡物体检测模型进行参数调整;

所述总损失函数包括定位损失、分类损失和置信度损失,所述总损失函数的公式为:

L=αL

其中,L

所述定位损失的公式为:

L=L

其中,L

所述分类损失的公式为:

其中,C

所述置信度损失的公式为:

其中,P

S36:当总损失函数值达到预设值时或训练次数达到300次时,获得训练好的遮挡物体检测模型。

S4:将待检测图片输入训练好的遮挡物体检测模型中,获得待检测图片中遮挡物体的边界框和类别标签。

本实施例结合双向特征金字塔网络与自适应空间特征融合,提出了特征加强与融合网络单元,主要负责对主干网络提取的特征进行加强与融合。BiFPN与Yolov5的特征加强与融合网络单元结构类似,不同的是,由于只有一个输入的节点并没有进行特征融合,BiFPN去除了这类节点以减少参数量。为了减少在FPN中特征失真和信息怕瓶颈等问题,在P4特征层,BiFPN增加了从输入到输出的横向连接,其中P3、P4、P5表示尺度不同的三个特征图。

ASFF的核心思想:自适应地学习每个尺度特征图的融合空间权重,决定每个特征图的重要性,自适应地融合不同尺度的特征图,获得加强特征,其特征加权融合公式如下:

y

ASFF的实现可以分为两个步骤:恒等缩放和自适应融合。

1)恒等缩放:从公式可以看出ASFF在特征融合时采用相加的方式,而相加时各个特征图的大小以及通道数都需相等。X

2)自适应融合:公式中α

如图3所示,本实施例提出的特征加强与融合网络结构是在BiFPN与ASFF的基础上改进而来,由于Yolov5 Neck部分对不同尺度的特征信息利用不充分,本实施例使用两个BiFPN模块。若简单将两个BiFPN前后相连,在P4特征层会出现两个横向连接,这样的结构稍显冗余。本实施例方法改进其连接方式,使P4特征层的横向连接跨越两个BiFPN模块,将两个横向连接变为一个,然后将得到的特征图送入ASFF中进行自适应融合,

在处理遮挡物体目标检测时,顶层特征图与底层特征图包含遮挡目标的特征信息通常是不同的,顶层特征与底层特征地主要包含内容分别为全局信息和局部信息。BiFPN部分主要关注不同层级特征图之间的信息传递,通过自顶向下和自底向上两条信息传递链路,使模型能在不同层级之间更好地传递特征信息。ASFF部分主要关注多尺度特征图的融合,以增强网络模型对不同尺度下的目标信息的感知能力。当目标被遮挡时,ASFF可以帮助网络模型关注被遮挡目标信息较多的特征层,提高遮挡物体的检测准确度。

预测头网络单元主要负责对加强特征进行回归与分类,输出预测信息,在这部分,需要利用1*1卷积对Neck网络输出的三个加强特征层进行回归与分类以及通道数调整,最终的通道数和需要识别的种类数目相关,本实施例使用的数据集包含20种类别的物体,每个特征层上每个特征点存在3个先验框,一个先验框需要对应25个参数,前4个参数用于判断该特征点的预测框的回归参数,第5个参数用于判断该特征点是否包含物体,后20个参数用于判断该特征点包含物体的种类。因此,每个特征点的预测向量需要75个参数,YoloHead中三个特征图输出的预测向量的shape分别为(20,20,75)、(40,40,75)、(80,80,75),预测向量的前两个维度表示预测特征图的网格数,第三个维度分为3×25,表示3个预测框,每个预测框包含4个位置回归参数,1个置信度参数,20个分类参数。

实施例3

本实施例还提供了一种基于深度学习的遮挡物体目标检测系统,用于实现实施例1或2所述的方法,如图4所示,所述系统包括:

数据获取模块,获取包含遮挡物体的原始图片和待检测图片;

数据增强模块,对所述原始图片进行预处理,获得数据增强图片;

模型训练模块,利用所述数据增强图片对构建的遮挡物体检测模型进行训练,获得训练好的遮挡物体检测模型;

模型输出模块,将待检测图片输入训练好的遮挡物体检测模型中,获得待检测图片中遮挡物体的边界框和类别标签。

相同或相似的标号对应相同或相似的部件;

附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

相关技术
  • 一种基于大数据和人工智能的个体亚健康状态评估方法
  • 一种基于POI数据的区域土壤污染健康风险评估方法
  • 基于手机用户和POI数据的城市入室盗窃犯罪风险评估方法
技术分类

06120116517066