掌桥专利:专业的专利平台
掌桥专利
首页

一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法

文献发布时间:2023-06-19 13:29:16


一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法

技术领域

本发明涉及计算机视觉领域的目标检测算法研究技术领域,具体为一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法。

背景技术

目标检测是计算机视觉研究领域的一个重要分支,也是计算机视觉研究中最基础的几个问题之一。目标检测是在一些特定的图像识别出指定的类别(比如人、狗、斑马、大象和小汽车)的空间位置或者覆盖范围。此外,在人工智能和信息技术的研究方面,目标检测也具有重要的地位,尤其是在机器人视觉、人脸识别、自动驾驶和智能监控等方面。现在目标检测遇到的挑战包括精度和效率两个方面,如何在提高效率的同时保证精度是现在研究的主要方面。根据现有的目标检测算法,可以将大致分为两大类,一类是单级式的检测框架(One-stage Detectors),另一类是两级式的检测框架(Two-stage Detectors)。单极式目标检测方法直接在完整图像上进行计算以完成检测,而两级式目标检测方法则是先对图像进行预处理提取一些候选框,再对预处理过的图像进行修正得到最终的检测结果。相比之下两级式目标检测精度更高,但是速度较慢。常用的两级式目标检测方法有区域卷积神经网络算法(R-CNN)、快速区域卷积神经网络算法(Fast-R-CNN)、深度卷积网络中的空间金字塔池化算法(SPP-Net)以及多区域卷积神经网络(MR-CNN)等。其中,R-CNN作为两级式目标检测算法的基石是最具代表性的两级式目标检测算法。它在预处理阶段利用选择性搜索算法选择感兴趣的候选框,再通过卷积神经网络、支持向量机和回归方法定位目标的空间位置。此外,常见的单极式目标检测包括Single Shot MultiBox Detector(SSD)、YOLO、YOLOv2和YOLOv3。目前,研究者们对于目标检测算法的研究方向大致可分为三类,第一种是改进的两级式目标检测算法,第二种是改进的单极式目标检测方法,最后一种是将单极式和两级式目标检测算法相结合的算法。上述算法已经在目标检测研究中有很好的性能表现了,但是还可以进一步提高,因此,我们提出了关于结合轻量级注意力机制和YOLOv3网络的目标检测方法。

R-CNN算法是two-stage模型的一种,也是最早提出用于目标检测的深度学习方法。首先选择性搜索算法被用于原图像中邻近的图像块的特征相似度的搜索,然后对相似的图像块进行评分,选择出感兴趣的图像区域的候选框被当作样本输入到训练好的CNN中,在进行特征提取之后进入到全连接层,用于训练SVM分类器和一个线性回归的预测模型完成最终的目标检测任务。

尽管R-CNN算法相较于传统的目标检测方法有了一定的提升,并且使用后训练好的CNN在图像特征提取方法也取得了很好的效果,但是,R-CNN算法第一阶段候选区域的生成以来传统的算法,这样,算法的运行时间就很增加,并且,当一幅图像中有大量候选区域时,CNN的前线传播计算会成倍增加,因为每一个候选区域都会进行一次特征提取,大大增加了运行时间。因此。R-CNN算法的这些重复运算制约了算法的性能。

Fast-R-CNN算法是在R-CNN算法基础上进行改进的目标检测算法,它主要的目的是对R-CNN算法运行时间上做优化。和R-CNN算法类似,Fast-R-CNN算法的主流思想还是通过生成建议区域的方法,但是区别在于候选框不在传入神经网络,而是直接作为卷积神经网络的输入,进而实现特征提取的操作。根据区域和提取特征的关系,在池化层中进行融合。总之,Fast-R-CNN最重要的改进在于提出了感兴趣区域的池化层和并行多任务训练的思想。

Fast-R-CNN算法有以下几个缺点:

1)Fast-R-CNN算法和R-CNN一样,都需要对感兴趣的区域进行选择,然后再做特征提取操作,这样的过程只能在CPU上进行,会浪费大量的时间。

2)由于运行时间的限制,造成Fast-R-CNN算法不能用于实时应用中,没有真正实现端到端的训练测试。

SSD算法是一种one-stage目标检测算法,它采用的特征提取器为VGG-16网络。当输入图像时,SSD算法首先利用多个卷积层进行卷积运算,从而得到多个尺寸大小不同的特征图,再利用卷积核评估特征图中的局部特征信息,与此同时,待检测的目标的空间位置信息和分类概率也会被计算出来。此外,SSD算法作用于图像的很多位置区域并且检测结果的边界框尺寸大小不一致,这就造成了一些冗余框的出现,为了解决这一问题,SSD算法还加入了非极大值抑制技术将重叠度很高的边界框合并,并且还引入硬负样本挖掘技术用来保持正负样本的平衡。

SSD算法有以下缺点:

1)SSD算法进行特征提取时,包含的细节特征较少,对于分辨率较低的样本的处理往往不会很好。

2)SSD算法中某些参数的设置是认为设定的,不能通过训练得到,这就造成了调试过程很依赖经验以及具有一定的随机性,泛化能力会变差。

Faster-R-CNN算法是在Fast-R-CNN模型的基础上进行优化得到的算法,因此也是一种two-stage目标检测方法。它将区域建议生成模块和Fast-R-CNN模块相结合完成目标检测的任务。其中,Fast-R-CNN模块是用来完成输入图像的特征映射以及在特征映射基础上进行特征提取的任务。区域建议生成模块采用的策略是滑动窗口方法,在经过卷积运算之后的特征图像上产生很多候选的区域,最终经过ROI池化层传递到全连接层进行最终的融合操作。因此,Faster-R-CNN算法实现了一种端到端的训练,提高了模型的检测效率。

Faster-R-CNN算法有以下缺点:

1)由于Faster-R-CNN算法将训练过程分为了两个阶段,所以效率上还不能满足实时的需求。

2)对于小目标的检测,Faster-R-CNN算法表现效果欠佳,最重要的原因是它最终的预测是使用了单个深层特征映射,导致不同尺度上的泛化能力变差。

发明内容

本发明的目的在于提供一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法,能够有效的完成图像中目标检测的任务,自动提取图片的特征,并且在提升效率的同时具有较高的检测精度。

为实现上述目的,本发明提供如下技术方案:一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法,其特征在于,包括轻量级注意力机制和YOLOv3网络的目标检测算法的训练过程:

轻量级注意力机制和YOLOv3网络的目标检测算法的训练过程分为两个阶段:第一个阶段是对输入图像进行多尺度下的特征提取,其中包含了深度可分离卷积和注意力机制的残差结构;第二阶段是前一阶段训练的到的多尺度特征进行融合,最终输出预测图像,具体训练过程为:

第一步:网络进行权值的初始化;

第二步:输入图像经过多尺度的特征提取;

第三步:在多个尺度下,同时经过深度可分离卷积层、注意力机制的残差模块得到下采样的多个尺度的特征图;

第四步:每个尺度的特征再经过卷积层进行输出预测;

第五步:将多尺度特征的输出预测进行融合,形成最终的预测模型。

优选的,包括深度可分离卷积结构,深度可分离结构是实现特征提取功能的一部分,并且它是实现轻量化设计的关键模块,因为在标准卷积中,卷积运算和特征通道的组合是同时进行的,它将两部分分开进行,即分为深度卷积和点卷积过程,通过分组之后的卷积过程,卷积过程中的计算量和参数数量减少了很多,进而达到了轻量化的目的,进一步的,对于输入特征为:D

O

对于传统的标准卷积过程,相同输入下的计算量为

O

通过比较发现,

当卷积核尺寸为3×3时,采用深度可分离卷积减少近9倍的计算量,因此有效的提高了模型的效率。

优选的,包括注意力机制的残差结构,注意力机制的残差结构是进行特征提取过程的另一部分,它用于提升在主干网络上提取特征的性能,作为输入的特征图像U,首先进行点卷积运算,然后再进行大小为3×3的深度卷积运算得到特征提取之后的图F,然后集合注意力机制SE-Block模块得到新的图F1,最后将图F和F1进行求和得到最终的输出特征图V,具体的,注意力机制能优化通道域和空间域的联系,并且能诱导特征提取网络对感兴趣的区域进行学习,

其中:F

F

其中:F

其中:F

F

其中:z为压缩操作后的输出,激活函数取Sigmoid,并且

优选的,包括预测模型的损失函数,我们采用常见的交叉熵函数作为预测模型的损失函数,具体的预测值和真实值的差别采用交叉熵计算,交叉熵的表达式如下:

其中,y表示真实标签,y'表示样本属于某个类的概率,为了进一步平衡实际检测中的难易样本权重分配问题,改进后网络的整体损失函数表达式为:

优选的,SE-Block模块通过压缩和激励过程校准网络中的特征关系,增加有效权重并且减小无效或者作用较小的权重。

优选的,深度可分离卷积对应的是operator阶段的conv2d操作。

优选的,注意力机制的残差模块则为operator阶段的bneck操作。

与现有技术相比,本发明的有益效果如下:

本算法通过将轻量级注意力机制和YOLOv3网络结合,以提高特征提取能力,深度可分离卷积模块结合到了YOLOv3网络中,提高了算法的效率并且检测精度进一步提高,多尺度融合方法被用于传统的YOLOv3网络中,提高了模型的特征提取的能力,进而提高了模型的性能,通过将轻量级注意力机制、深度可分离卷积以及多尺度融合方法结合到YOLOv3网络中,设计一个具有较高辨识度的目标检测方法,能够有效的完成图像中目标检测的任务,自动提取图片的特征,并且在提升效率的同时具有较高的检测精度。

附图说明

图1为本发明轻量级注意力机制和YOLOv3网络的目标检测的训练过程;

图2为本发明人脸目标检测图像样本;

图3为本发明深度可分离卷积结构图;

图4为本发明注意力机制的残差结构;

图5为SE-Block结构示意图;

图6为本发明不同模型loss变化曲线。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-6,一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法,包括轻量级注意力机制和YOLOv3网络的目标检测算法的训练过程:

轻量级注意力机制和YOLOv3网络的目标检测算法的训练过程分为两个阶段:第一个阶段是对输入图像进行多尺度下的特征提取,其中包含了深度可分离卷积和注意力机制的残差结构;第二阶段是前一阶段训练的到的多尺度特征进行融合,最终输出预测图像,具体训练过程为:

第一步:网络进行权值的初始化;

第二步:输入图像经过多尺度的特征提取;

第三步:在多个尺度下,同时经过深度可分离卷积层、注意力机制的残差模块得到下采样的多个尺度的特征图;

第四步:每个尺度的特征再经过卷积层进行输出预测;

第五步:将多尺度特征的输出预测进行融合,形成最终的预测模型。

本实施例中,包括深度可分离卷积结构,深度可分离结构是实现特征提取功能的一部分,并且它是实现轻量化设计的关键模块,因为在标准卷积中,卷积运算和特征通道的组合是同时进行的,它将两部分分开进行,即分为深度卷积和点卷积过程,通过分组之后的卷积过程,卷积过程中的计算量和参数数量减少了很多,进而达到了轻量化的目的,进一步的,对于输入特征为:D

O

对于传统的标准卷积过程,相同输入下的计算量为

O

通过比较发现,

当卷积核尺寸为3×3时,采用深度可分离卷积减少近9倍的计算量,因此有效的提高了模型的效率。

本实施例中,包括注意力机制的残差结构,注意力机制的残差结构是进行特征提取过程的另一部分,它用于提升在主干网络上提取特征的性能,作为输入的特征图像U,首先进行点卷积运算,然后再进行大小为3×3的深度卷积运算得到特征提取之后的图F,然后集合注意力机制SE-Block模块得到新的图F1,最后将图F和F1进行求和得到最终的输出特征图V,具体的,注意力机制能优化通道域和空间域的联系,并且能诱导特征提取网络对感兴趣的区域进行学习,

其中:F

F

其中:F

其中:F

F

其中:z为压缩操作后的输出,激活函数取Sigmoid,并且

本实施例中,包括预测模型的损失函数,我们采用常见的交叉熵函数作为预测模型的损失函数,具体的预测值和真实值的差别采用交叉熵计算,交叉熵的表达式如下:

其中,y表示真实标签,y'表示样本属于某个类的概率,为了进一步平衡实际检测中的难易样本权重分配问题,改进后网络的整体损失函数表达式为:

本实施例中,SE-Block模块通过压缩和激励过程校准网络中的特征关系,增加有效权重并且减小无效或者作用较小的权重。

本实施例中,深度可分离卷积对应的是operator阶段的conv2d操作。

本实施例中,注意力机制的残差模块则为operator阶段的bneck操作。

通过将轻量级注意力机制和YOLOv3网络结合,以提高特征提取能力,深度可分离卷积模块结合到了YOLOv3网络中,提高了算法的效率并且检测精度进一步提高,多尺度融合方法被用于传统的YOLOv3网络中,提高了模型的特征提取的能力,进而提高了模型的性能,通过将轻量级注意力机制、深度可分离卷积以及多尺度融合方法结合到YOLOv3网络中,设计一个具有较高辨识度的目标检测方法,能够有效的完成图像中目标检测的任务,自动提取图片的特征,并且在提升效率的同时具有较高的检测精度。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

相关技术
  • 一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法
  • 一种基于轻量级YOLOV3的图像目标提取方法
技术分类

06120113692420