掌桥专利:专业的专利平台
掌桥专利
首页

一种基于改进YOLOV5的面向复杂场景的安全帽检测方法

文献发布时间:2023-06-19 18:32:25


一种基于改进YOLOV5的面向复杂场景的安全帽检测方法

技术领域

本发明属于图像识别领域,尤其是涉及一种基于改进YOLOV5的面向复杂场景的安全帽检测方法。

背景技术

工厂的安全生产,首先需要保障工人的人身安全,而工人佩戴安全帽是对其安全的最大保障,所以检测工人是否佩戴有安全帽是一件非常重要的任务。以往,工厂会安排检查人员按时检查工人工作时是否佩戴安全帽,这样做的弊端是会耗费大量人力物力。随着人工智能技术的不断推广,部分工厂也意识到之前人工检查的方法效率低下,所以也开始在工厂中引入目标检测技术,利用具有检测工人是否佩戴有安全帽功能的摄像头实时监测工人们的安全帽佩戴情况,这极大地提高了安全性,同时,现阶段新的目标检测框架凭借其轻量化设计以及实时性的检测速度,能够较好地胜任该项工作。

如公开号为CN114170626A的中国专利文献公开了基于YOLOV5目标检测模型的安全帽佩戴检测方法,在初始YOLOV5目标检测模型的基础上利用YOLOV5的特征提取部分提取更大尺寸的特征图,在特征融合部分进行特征融合。采用中心损失作为正则化项对YOLOV5目标检测模型中的置信度损失和分类损失进行约束,从而使得改进后的YOLOV5目标检测模型能更为准确的检测出小目标的类别其中更大尺寸的特征图具有较小的感受野,因此更有利于YOLOV5目标检测模型检测出小目标.

公开号为CN115240117A的中国专利文献公开了一种在工地施工场景下的安全帽佩戴检测方法,包括如下步骤:步骤S1:采集工地施工场景的视频帧图像;步骤S2:将已获取到的视频帧图像进行标注和数据增强处理;步骤S3:将预处理后的数据集送入改进的YOLOv4-tiny算法中进行训练;步骤S4:用已训练好的检测模型对获取到的工地现场摄像头视频流进行检测;步骤S5:若检测到有人员未佩戴安全帽,便发出相应的声音警报信息。

虽然各种基于卷积神经网络的目标检测网络在工厂中应用的越来越广,但对于一些复杂场景下的安全帽检测依旧是一件非常具有挑战性的工作。

首先,尽管安全帽的形态都是具有一定规则的形状,但由于所处环境的多样性以及背景等干扰因素,导致检测难度大大增加。同时会有很多佩戴休闲帽的目标,其形态和安全帽相似,会给检测网络造成误检。最重要的是,由于目标的地理位置原因,导致安全帽目标大小不一致,对于大目标来说,检测相对简单一些,但对于那些小目标,干扰因素很多,容易造成检测网络的误检。

综上所述,现阶段针对安全帽的目标检测网络有很多,但整体来说,还有很大的提升空间。

发明内容

本发明提供了一种基于改进YOLOV5的面向复杂场景的安全帽检测方法,在不影响检测速度的前提下,可以大大提升检测精度。

一种基于改进YOLOV5的面向复杂场景的安全帽检测方法,包括以下步骤:

(1)获取复杂场景下佩戴安全帽的图像数据,对所有的图像数据标注安全帽的位置以及其是否处于佩戴状态;

(2)构建基于改进YOLOV5的目标检测模型,具体改进为:

通过添加动态网格选择模块DGS,在训练时对正、负样本选择逻辑进行优化,根据先验框与标注框GT的交并比IOU大小来分配负责检测的网格Grid数量;

通过引入动态损失因子模块,在计算损失函数时,根据预测框Anchor与GT的位置分布确定不同的损失增量,从而计算最终的整体损失函数;

通过引入框密度过滤模块,在后处理算法中,基于框密度进行过滤,以此来减少模型最后的误检;

(3)将步骤(1)标注后的图像数据输入目标检测模型中进行迭代训练,计算最后的整体损失函数,直到模型收敛;

(4)将待检测的图像或视频流数据输入训练好的目标检测模型中,得到安全帽的预测结果。

步骤(1)中,所述复杂场景包含:光线不足、背景与安全帽相似干扰、佩戴休闲帽干扰。

步骤(2)中,根据先验框与GT的IOU大小来分配负责检测的网格Grid数量具体为:当IOU大于0.5时,选择GT中心点所在的Grid以及其周围四个Grid总共五个Grid来负责检测目标;当IOU大于0.2时,选择GT中心点所在Grid以及其周边四个Grid中离中心点最近的两个Grid总共三个Grid来负责检测目标;当IOU大于0.1时,选择GT中心点所在的Grid来负责检测目标。

动态损失因子模块也即SelectiveIOU_LOSS模块,根据预测框Anchor与GT的位置分布确定不同的损失增量,具体为:

计算损失函数前,先判断预测框Anchor与GT的重叠情况,当预测框Anchor与GT未重叠时,添加

当预测框Anchor与GT发生重叠时,添加

最终的整体损失函数公式为:

步骤(2)中,所述框密度的定义为:

其中,B表示经过置信度过滤后保留的预测框集合,N表示经过置信度过滤后保留的预测框集合元素个数,B

在后处理算法中,预选框经过置信度筛选之后,先统计其周围的框密度,然后再使用NMS算法进行进一步筛选,对于筛选的结果,保留框密度大于设定值的框作为最后输出,框密度小于设定值的框则丢弃不予输出。

步骤(3)中,进行不少于100个Epoch的迭代训练,同时随着训练的深入周期性地减少学习率。

与现有技术相比,本发明具有以下有益效果:

1、本发明模型训练时使用部分复杂场景下的图片数据,相比于其他目标检测网络,对于复杂场景下的目标如黑暗光线不足场景、休闲帽干扰、背景颜色干扰等具有更好的检测精度以及鲁棒性。

2、本发明引入DGS(Dynamic Grid Select)模块,优化了正样本的选择策略,相对其他目标检测网络,其对于不同尺寸大小的目标均具有较好的检测效果。

3、本发明引入框密度过滤模块,能够进一步减少小目标误检发生,对于最终的检测准确度具有一定增益。

4、本发明引入SelectiveIOU_LOSS模块,弥补了直接使用IOU损失函数的弊端,使得预测结果与GT在距离上更贴近,在形状上更拟合。

5、本安全帽检测方法原理简单,易于实现,在牺牲少量计算量的前提下,较大的提升了整体的检测效果。

附图说明

图1为本发明实施例一种基于改进YOLOV5的面向复杂场景的安全帽检测方法流程图;

图2为本发明基于改进YOLOV5的目标检测模型的网络结构图;

图3为本发明实施例中针对复杂场景的训练数据集;

图4为本发明动态网格选择模块DGS的原理图;

图5为SelectiveIOU_LOSS模块中D

图6为本发明中框密度过滤模块的原理图;

图7为本发明实施例中对输入实际图像的预测效果图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。

如图1所示,一种基于改进YOLOV5的面向复杂场景的安全帽检测方法,包括以下步骤:

步骤1,通过摄像头录制各种复杂环境下的安全帽数据,同时使用爬虫从网络上爬取图片数据,并对收集的数据进行清洗以及标注,主要是标注安全帽的位置以及其是否处于佩戴状态,最终收集11352张复杂场景的安全帽图片数据,如图3所示。将其与安全帽公开数据集SHWD进行结合,互为补充,最终的数据集总共为18933张图片数据,其中含有佩戴安全帽的目标数据42706个,未佩戴安全帽的目标数据122562个。整个数据集作为后续训练检测模型的输入。

步骤2,基于YOLOV5目标检测网络框架,训练时添加动态网格选择模块DGS(Dynamic Grid Select)。

如图2所示,在训练过程中,检测网络先通过DGS模块优化正负样本选择,将最终选择结果输入到SelectiveIOU_LOSS模块,来求取损失函数,再通过反向梯度,实现检测网络参数更新,重复这个过程直至训练完成。在检测网络执行预测任务时,对于检测网络的输出结果,先经过置信度过滤,然后统计预测框密度,在经过NMS后处理后,执行框密度过滤,优化检测网络的最终预测效果。

DGS模块的原理如图4所示。首先计算GT中心点所在Grid对应的9个先验框与GT的IOU,选择最大的IOU,来分配负责检测的Grid。当IOU大于0.5时,选择GT中心点所在Grid以及附近4个Grid总共5个Grid来负责检测目标;当IOU大于0.2时,选择GT中心点所在Grid以及附近离中心点最近的两个Grid总共3个Grid来负责检测目标;当IOU大于0.1时,选择GT中心点所在的Grid来负责检测目标。对于大目标,越多Grid负责对其进行检测,最终的检测结果越好;对于小目标,越多的Grid负责对其进行检测,最终出现误检的概率将加大。所以经过DGS模块处理后,该目标检测网络对于大小目标都将具有较好的检测效果。

步骤3,计算损失函数时,引入动态损失因子模块(SelectiveIOU_LOSS模块),该模块相对于其他检测网络具有一定优势:大部分目标检测网络都是直接使用IOU来就算损失函数,进而进行反向传递更新参数,但使用IOU存在两个问题:第一个是当两个框未重叠时,IOU为0,此时损失函数不可导;第二个是两个框的大小位置不同,也可能导致IOU相同,此时使用IOU无法反映两个框的相对位置。所以引入SelectiveIOU_LOSS模块来避免上述弊端,具体做法是:

步骤3-1,计算损失函数前,先判断Anchor与GT的重叠情况,如图5所示,当预测框Anchor与GT未重叠时,添加

步骤3-2,如图5所示,当预测框Anchor与GT发生重叠时,添加

整体损失函数表示为:

步骤4,在后处理算法中,引入框密度过滤模块,如图6所示。框密度定义为:

其中,B表示经过置信度过滤后保留的预测框集合,N表示经过置信度过滤后保留的预测框集合元素个数,B

在后处理算法中,预选框经过置信度筛选之后,先统计其周围的框密度,然后再使用NMS算法进行进一步筛选,对于筛选的结果,保留框密度大于设定值的框作为最后输出,框密度小于设定值的框则丢弃不予输出。

步骤5,输入训练图像数据集到模型中,进行不少于100个Epoch的迭代训练,同时在随着训练的深入周期性地减少学习率。计算最后的损失函数,直到模型收敛。

步骤6,将训练好的模型用于整体的预测和推理。

将待检测的图片或者视频流数据输入训练好的模型,统计各个预测框的框密度,后处理时,将框密度大于阈值的预测框输出,并将预测框映射到原输入数据中输出。

如图7所示,为本发明实施例对输入实际图像的预测效果,其中,WithHelmet表示佩戴有安全帽,WithoutHelmet表示未佩戴安全帽。可以看出,本发明对于复杂场景下的目标如黑暗光线不足场景、休闲帽干扰、背景颜色干扰等都具有较好的检测精度以及鲁棒性。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

相关技术
  • 一种面向复杂场景的安全帽检测系统
  • 一种基于改进YOLOv5的口罩和安全帽佩戴同时检测方法
技术分类

06120115599258