掌桥专利:专业的专利平台
掌桥专利
首页

一种基于改进YOLO的目标检测方法

文献发布时间:2024-04-18 19:58:26


一种基于改进YOLO的目标检测方法

技术领域

本发明属于图像处理领域,具体是一种以YOLO(You Only Look Once)算法为核心,结合ViBe(Visual Background Extractor)算法完成微小目标或低像素目标的检测,同时解决目标提取中阴影与重影问题。

背景技术

目标检测为YOLO算法的核心内容,使用深度卷积神经网络(CNN)来实现目标检测。将输入图像分成网格,通过特定层次的卷积来预测图像中是否存在目标以及目标的位置与种类,通过锚框处理不同尺寸和长宽比的目标。对于微小目标与低像素图像,YOLO算法性能会受限,检测准确性降低。小目标检测在许多领域都具有重要应用,如无人机监测、昆虫识别、医学影像分析等。YOLO算法与ViBe算法的高效性和准确性使得成为处理这些实际应用中小目标检测的有力工具。

发明内容

本发明的目的在于针对常规YOLO算法微小目标或低像素目标难以检测的问题,将Vibe与YOLO算法进行结合,提出YOBE算法,利用YOLO算法初步框定目标,ViBe检测框定目标,构建YOBE图像数据库用于存储目标图像信息与类别信息,对于小目标与低像素图像采用YOBE数据库相似度匹配方式进行YOLO强制检测,同时解决目标提取中的阴影与重影问题。

为实现上述目的,本发明采用如下技术方案。

一种基于改进YOLO的目标检测方法,包括以下步骤:

步骤1、从视频库中逐帧读取待检测视频流;

步骤2、将读取到的每一帧图像依次输入到预训练完成的YOLO v4网络模型中;

步骤3、YOLO v4网络模型对当前帧图像进行目标捕捉,初步框定目标区,并获取目标种类与标定坐标;

步骤4、利用ViBe算法提取视频流中前15帧图像作为初始背景样本库;

步骤5、判断当前帧是否有YOLO目标框定区,是则将框定区扩大1.2倍进入步骤6,否则进入步骤8;

步骤6、将原RGB图像转换为灰度图,并对框定区进行ViBe目标检测;

步骤7、若框定区ViBe检测到目标,则分割YOLO框定区目标构建一个YOBE数据库,并通过获取种类进行目标分类;

步骤8、当前帧无框定区,则对全图进行ViBe常规检测,若ViBe检测到目标,则进行图像分割提取目标区域,并将当前目标与YOBE数据库进行相似度匹配,若满足相似度阈值,则将目标重新输入YOLO中检测并进行目标分类;

步骤9、判断当前帧是否为视频流最后一帧,是则结束检测,否则返回步骤2继续进行下一帧图像的目标检测。

具体的,步骤2中所述预训练完成的YOLO v4网络模型,利用COCO数据集训练YOLOv4网络模型,对图像内目标进行框定,边界框包含物体的位置信息以及与每个类别相关的置信度分数,同时提取出目标框的左上角坐标、高度、宽度与类别,所述位置信息包括x、y左上角坐标值和宽度、高度。

具体的,步骤3中所述YOLO v4网络模型对当前帧图像进行目标捕捉,初步框定目标区,并获取目标种类与标定坐标;

首先,将当前帧图像输入到卷积神经网络中进行特征提取,每个单元格根据预测结果生成多个边界框,并通过非极大值抑制Non-Maximum Suppression,NMS来消除冗余的边界框;

然后,将输入的当前帧图像分割成一个固定大小的网格,每个单元格负责预测一组边界框和相应类别的置信度,每个边界框包含物体的位置信息以及与每个类别相关的置信度分数,使用softmax函数来计算每个边界框属于不同类别的概率,每个边界框的类别预测由边界框与目标实例的重叠程度以及类别置信度分数进行计算;

最后,输出检测到的目标边界框位置、类别以及相应的置信度得分。

优选的,步骤4中将视频流首帧开始15帧背景建模作为初始背景样本库,可以优化阴影问题。

具体的,步骤5、步骤6和步骤7将YOLO检测到目标将检测坐标与种类输入ViBe,默认框外像素点为背景像素点,仅进行框内检测,图像分割出精确目标,将YOLO与ViBe共同检测到的目标输入YOBE数据库,YOLO框内检测可以消除阴影问题,提升消除阴影效率。

具体的,步骤7中所述YOBE数据库的构建过程如下:

若框定区ViBe检测到目标,则通过ViBe算法对框内图像做下述操作:

设立半径阈值系数R=20,匹配阈值系数M=2,差值系数Δλ,其中

将第μ帧的图像与初始背景样本库中所有样本进行公式(1)求解,得到Δλ

将二者算法检测的共同目标构建YOBE数据库,对其中共有特征与类别进行整理,为后续单独ViBe分割出的图像分类提供初步特征与类别筛选提供索引。

具体的,步骤8中所述当前帧无框定区,则对全图进行ViBe常规检测,在对面低像素图像或小目标,YOLO无法检测到目标,则需利用ViBe对灰度像素变化的高敏感特性进行图像分割,将分割图像依据像素点坐标提取出原图中对应坐标的RGB图,将仅由ViBe提取出的图像与YOBE数据库中的图像数据进行相似度匹配和特征匹配,当相似阈值达到0.8以上,则将图像重新输入YOLO中二次检测并依据YOBE数据库中图像类别进行分类,并给出边界框。

本发明的有益效果是:

本发明将Vibe与YOLO算法结合进行结合,提出YOBE算法,利用YOLO算法初步框定目标,ViBe检测框定目标,构建YOBE图像数据库用于存储目标图像信息与类别信息,对于小目标与低像素图像采用YOBE数据库相似度匹配方式进行YOLO强制检测,克服了常规YOLO算法对微小目标或低像素目标检测难的问题,同时解决了目标提取中的阴影与重影问题。

附图说明

图1为本发明一种基于改进YOLO的目标检测方法的流程图;

图2为本发明方法对小目标的检测效果图;(a)YOLO未检测小目标,(b)ViBe目标,(c)YOLO结合ViBe二次检测小目标;

图3为本发明方法消除图像中阴影的效果图;(a)原图,(b)YOLO图,()ViBe图,(d)YOLO结合ViBe图。

具体实施方式

下面结合具体实施例对本发明作进一步详细说明,但本发明的保护范围并不限于所述内容。

实施例

如图1所示,本发明提供了一种基于改进YOLO的目标检测方法,包括以下步骤:

步骤1、从视频库中逐帧读取待检测视频流,本实施例中视频素材由手机摄影采集,手机型号为iPhone 11promax;

步骤2、将读取到的每一帧图像依次输入到预训练完成的YOLO v4网络模型中;

利用COCO数据集训练YOLO v4网络模型,对图像内目标进行框定,边界框包含物体的位置信息以及与每个类别相关的置信度分数,同时提取出目标框的左上角坐标、高度、宽度与类别,所述位置信息包括x、y左上角坐标值和宽度、高度;

步骤3、YOLO v4网络模型对当前帧图像进行目标捕捉,初步框定目标区,并获取目标种类与标定坐标;

首先,将当前帧图像输入到卷积神经网络中进行特征提取,每个单元格根据预测结果生成多个边界框,并通过非极大值抑制Non-Maximum Suppression,NMS来消除冗余的边界框;

然后,将输入的当前帧图像分割成一个固定大小的网格,每个单元格负责预测一组边界框和相应类别的置信度,每个边界框包含物体的位置信息以及与每个类别相关的置信度分数,使用softmax函数来计算每个边界框属于不同类别的概率,每个边界框的类别预测由边界框与目标实例的重叠程度以及类别置信度分数进行计算;

最后,输出检测到的目标边界框位置、类别以及相应的置信度得分;

步骤4、利用ViBe算法提取视频流中前15帧图像作为初始背景样本库;

步骤5、判断当前帧是否有YOLO目标框定区,是则将框定区扩大1.2倍进入步骤6,否则进入步骤8;

步骤6、将原RGB图像转换为灰度图,并对框定区进行ViBe目标检测;

步骤7、若框定区ViBe检测到目标,则通过ViBe算法对框内图像做下述操作:

设立半径阈值系数R=20,匹配阈值系数M=2,差值系数Δλ,其中

将第μ帧的图像与初始背景样本库中所有样本进行公式(1)求解,得到Δλ

将二者算法检测的共同目标构建YOBE数据库,对其中共有特征与类别进行整理,为后续单独ViBe分割出的图像分类提供初步特征与类别筛选提供索引;

步骤8、当前帧无框定区,则对全图进行ViBe常规检测,在对面低像素图像或小目标,YOLO无法检测到目标,则需利用ViBe对灰度像素变化的高敏感特性进行图像分割,将分割图像依据像素点坐标提取出原图中对应坐标的RGB图,将仅由ViBe提取出的图像与YOBE数据库中的图像数据进行相似度匹配和特征匹配,当相似阈值达到0.8以上,则将图像重新输入YOLO中二次检测并依据YOBE数据库中图像类别进行分类,并给出边界框;

步骤9、判断当前帧是否为视频流最后一帧,是则结束检测,否则返回步骤2继续进行下一帧图像的目标检测。

如图2、图3所示分别为利用本发明方法对本实施例中所采集的视频图像进行目标检测后的效果图,由图中可以清楚的看出,本发明将YOLO与Vibe算法进行结合所提出的YOBE算法,相较单一的YOLO算法或Vibe算法,能够更好的完成对微小目标或低像素目标的检测,同时有效解决目标提取中的阴影与重影问题。

以上所述,仅是本发明的较佳案例,并不对本发明做出任何限制,凡是针对本发明技术内容对以上实施案例所做的任何简单修改、变更、模仿均属于本发明技术方案的保护范围。

相关技术
  • 一种改进的基于YOLO V2的船舶目标检测方法
  • 一种基于改进Yolo算法的无人机航拍绝缘子目标检测方法
  • 一种基于改进的YOLO算法的海洋生物目标检测方法
技术分类

06120116495629