一种航拍小目标检测方法、装置、设备及存储介质

文献发布时间：2023-06-19 10:32:14

技术领域

本发明涉及数字图像检测技术领域，尤其是涉及一种航拍小目标检测方法、装置、设备及存储介质。

背景技术

随着无人机技术的飞速发展，无人机地面目标的自动检测和跟踪在侦查、预警等领域具有重要作用。航拍下小目标检测是解决该类问题的核心技术，这也是计算机视觉领域亟待攻克的技术之一。另外随着深度学习的兴起，网络逐渐加深，模型也逐渐增大，在带有高性能的GPU电脑上进行训练往往需要很长时间，在移动平台无人机上进行目标检测更是难上加难，而云计算拥有强大的计算资源，可以实现深度网络的快速训练与检测，解决了在无人机上进行实时小目标检测的难题。

自2012年以来，深度神经网络已广泛应用于目标检测。目标检测算法中例如FastR-CNN、Faster R-CNN、SPP_Net等的two-stage方法，在较大目标检测任务中表现突出，但是一方面由于小目标区域面积较小，区域建议网络(RPN)不具有好的鲁棒性,使得小目标容易被漏检和误检。另一方面 two-stage方法存在的候选框选择数量巨大，导致计算量大的问题，因此在大场景中检测小目标任务中难以胜任。而后来出现的one-stage方法如YOLO 系列，利用回归的方法直接输出目标的类别与位置坐标，省去了two-stage 方法中候选框的选择，节省了大量时间。它是一种端到端网络，可以直接在输出层返回预测目标的边界框和分类信息。接下来推出了YOLOv2通过双通道预测目标，首次加入锚框，提高了精度。YOLOv3使用多尺度特征融合方法进行预测，可以提高小目标的检测精度，并且这些one-stage检测算法在速度上具有明显的优势。

运用Yolov3网络在航拍小目标检测中存在如下问题：

1.在Yolov3目标检测框架中使用Darknet53的网络，一共包含53个卷积层和8次下采样层，这样过多的下采样会导致小目标在深层中特征丢失，从而导致最后的深层输出已经无法检测到小目标；

2.Yolov3目标检测框架由于网络较深，浮点运算复杂，最后输出的模型大小达到240.6M,这不利于在一些存储空间较小与算力较弱的平台上运行。如无人机平台、监控平台等；

3.YOLOv3模型的训练需要大量的计算资源，训练需要很长时间。在移动平台如无人机等检测的时候，往往不能达到实时检测。

发明内容

本发明的目的在于提供一种航拍小目标检测方法、装置、设备及存储介质，通过在Yolov3网络上对网络结构进行优化，减少残差块的数目，来简化网络达到轻量型，同时为了不降低检测精度，采用特定的浅层特征与深层特征相融合的策略来对小目标检测进行优化，同时为了防止输出层梯度消失，在输出层中加入2个残差块，来解决Yolov3框架检测小目标存在的问题。

第一方面，本发明提供的一种航拍小目标检测方法，包括：

获取航拍图像；

利用小目标检测网络对所述航拍图像进行检测，获得检测结果；

其中，所述小目标检测网络是由Yolov3网络模型经训练获得，所述 Yolov3网络模型包括五个残差模块和输出层，所述五个残差模块经特征融合输入所述输出层。

进一步的，所述五个残差模块中残差块的数目分别是1、2、4、4、2。

进一步的，所述五个残差模块分别输出2倍降采样层、4倍降采样层、 8倍降采样层、16倍降采样层、32倍降采样层，所述4倍降采样层经特征融合输入所述输出层。

进一步的，8倍降采样层经过2倍上采样与4倍降采样层特征融合；

16倍降采样层经过2倍上采样与8倍降采样层特征融合，还经过4倍上采样与4倍降采样层特征融合；

32倍降采样层经过2倍上采样与16倍降采样层特征融合，还经过4 倍上采样与8倍降采样层特征融合。

进一步的，所述输出层包括两个残差块和一个卷积层。

进一步的，所述Yolov3网络模型的训练过程包括：

获取小目标检测训练集；

通过K-means聚类，获得所述小目标检测训练集的锚框坐标；

基于所述小目标检测训练集，利用云计算资源对Yolov3网络模型进行训练，获得小目标检测网络。

进一步的，通过K-means聚类，获得所述小目标检测训练集的锚框坐标的步骤，包括：

利用K-means聚类对所述小目标检测训练集进行锚框值的计算；

随机选择一个坐标作为初始聚类中心；

利用K-means聚类进行迭代计算得到所述小目标检测训练集的锚框坐标。

第二方面，本发明还提出了一种航拍小目标检测装置，包括：

拍照模块，用于获取航拍图像；

检测模块，用于利用小目标检测网络对所述航拍图像进行检测，获得检测结果；

第三方面，本发明还提出了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述航拍小目标检测方法的步骤。

第四方面，本发明还提出了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述航拍小目标检测方法。

本发明提供的一种航拍小目标检测方法，利用云计算在经典的YOLOv3 框架的基础上，通过减少网络结构中的残差块与特定层特征融合策略再加上输出层改进的方法来提高小目标检测的精度与速度，其带来的有益效果如下：

1、解决了在航拍小目标检测时，由于网络过深而使小目标特征丢失的情况。

2、解决了小目标检测在移动平台应用时模型过大的情况。

3、基于云计算结合提出的轻量型的小目标检测网路，使得检测速度更快，达到实时检测的效果。

4、解决了在移动平台上不能进行实时目标检测的问题。

相应地，本发明实施例提供的一种航拍小目标检测装置、设备及存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为原有Yolov3网络结构图；

图2为本发明实施例提供的Yolov3网络结构图；

图3为本发明实施例提供的Yolov3网络模型使用流程图；

图4为本发明实施例提供的YOLOv3损失曲线图；

图5为本发明实施例提供的YOLOv3平均IOU曲线图；

图6为本发明实施例提供的电子设备的模块组成图；

图7为原有Yolov3的网络输出结构和改进后Yolov3网络结构图的对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图3，本发明提供的一种航拍小目标检测方法，包括：

获取航拍图像；

利用小目标检测网络对航拍图像进行检测，获得检测结果；

其中，小目标检测网络是由Yolov3网络模型经训练获得，改进的Yolov3 网络模型包括五个轻量化的残差模块和改进的输出层，五个残差模块中残差块的数目分别是1、2、4、4、2，五个残差模块经特定特征融合输入至输出层，输出层包括两个残差块(res2)和一个卷积层(Conv)。Yolov3网络是在目标检测领域经典的检测网络，适用于大多数目标检测场景，有较高的速度与精度。

航空小目标是根据国际光学工程学会(Society of Photo-OpticalInstrumentation Engineers，SPIE)的定义，小目标为在256×256的图像中目标面积小于80个像素，即小于256×256的0.12％就为小目标，此为相对尺寸的定义。另外一种是绝对尺寸的定义，根据COCO数据集定义，尺寸小于 32×32像素的目标即可认为是小目标。

其中，五个残差模块分别输出2倍降采样层、4倍降采样层、8倍降采样层、16倍降采样层、32倍降采样层，4倍降采样层经特征融合输入所述输出层。

再者，8倍降采样层经过2倍上采样与4倍降采样层特征融合；

同时，16倍降采样层经过2倍上采样与8倍降采样层特征融合，还经过4倍上采样与4倍降采样层特征融合；

另外，32倍降采样层经过2倍上采样与16倍降采样层特征融合，还经过4倍上采样与8倍降采样层特征融合。

其中，特征融合即特征融合，在深度网络中，往往有多个卷积层与池化层组成，每一层输出的特征图尺寸大小不一致，通过上采样等方式使得不同深度的网络层进行相加求和操作进行特征融合。

另外，Yolov3网络模型的训练过程包括：

获取小目标检测训练集；

通过K-means聚类，获得小目标检测训练集的锚框坐标；

基于小目标检测训练集，利用云计算资源对Yolov3网络模型进行训练，获得小目标检测网络。

K-means是聚类算法中的最常用的一种，算法最大的特点是简单，好理解，运算速度快，需要在聚类前手工指定要分成几类。锚框(anchorbox) 是在目标检测任务中提前根据数据库中目标的长宽比定义的不同尺度的目标尺度比例的组合，对网络输出层目标框的再修正具有重要的作用。

通过K-means聚类，获得小目标检测训练集的锚框坐标的步骤，包括：

利用K-means聚类对小目标检测训练集进行锚框值的计算；

随机选择一个坐标作为初始聚类中心；

利用K-means聚类进行迭代计算得到小目标检测训练集的锚框坐标。

同时，本发明还提出了一种航拍小目标检测装置，包括：

拍照模块，用于获取航拍图像；

检测模块，用于利用小目标检测网络对航拍图像进行检测，获得检测结果；

其中，小目标检测网络是由Yolov3网络模型经训练获得，Yolov3网络模型包括五个残差模块和输出层，五个残差模块经特征融合输入输出层。

该航拍小目标检测方法，是对原有的网络(请参阅图1)结构进行优化，使得Yolov3在航拍小目标检测的场景下仍然能有较高的精度，同时利用云计算强大的计算资源实现航拍小目标实时检测。

同时，该航拍小目标检测方法，是通过在Yolov3网络上对网络结构进行优化，减少残差块的数目，来简化网络达到轻量型，同时为了不降低检测精度，采用特定的浅层特征与深层特征相特征融合的策略来对小目标检测进行优化，同时为了防止输出层梯度消失，在输出层中加入2个残差块，来解决Yolov3框架检测小目标存在的问题。

请参阅图2，为了加快收敛提高速度，设计与YOLOv3相比更浅的网络结构其中共有5个残差模块组成，数目分别是1，2，4，4，2。扩大输出的特征图，利用4倍降采样层(downsample)进行最后的网络输出，8倍降采样层经过2倍上采样(upsample)与4倍降采样层特征融合。16倍降采样层分别上采样2倍和4倍与8倍降采样层和4倍降采样层特征融合，32倍降采样层分别上采样2倍和4倍与16倍降采样层和8倍降采样层特征融合。为了避免训练过程中梯度消失，加强特征复用，为了防止网络输出时梯度消失的问题，将YOLOv3输出层的卷积层变为2个残差单元和一个卷积层最后输出，如图7所示，在图7中，图(a)为Yolov3的网络输出结构，图(b) 为改进的网络输出结构，其中：

DBL是YOLOv3的基本组件，也就是卷积、正则化(BN)和输出激活函数(Leakyrelu)，resn中n代表数字，表示有多少个残差块，upsample表示上采样过程。

如图3所示，改进后的网络模型步骤如下：

1.利用无人机平台在不同的场景下，定高拍摄航拍图片，图片中可以包括人、车等目标，制作样本数据集；

2.对初始样本数据集进行筛选预处理以及数据增强等方法得到最终的小目标检测数据集，然后利用标注工具LabelImg对数据集中的小目标进行人工标注，最后将数据集按照4:1的比例分为测试集与训练集两部分；

3.利用K-means聚类的方法对航拍小目标数据集进行锚框值的计算。随机选择一个航拍图片的横纵坐标作为初始聚类中心，再利用K-means聚类方法进行迭代计算得到锚框；

4.利用云计算在云上分配计算资源，在训练集上训练改进的Yolov3网络模型并保存训练权重；

5.利用已训练好的模型，通过无人机进行实时航拍，传入云平台上利用云计算进行实时航拍小目标检测；

6.计算mAP，来定量的判断目标的检测精度。

关于模型的训练，YOLOv3引入了锚框的思想，它是一组宽高固定的初始化坐标框，锚框的选取会直接影响最终的检测精度，因此对数据集中的训练集进行聚类分析，利用K-Means聚类方法对数据集进行聚类分析，生成锚点框。设置配置文件angle＝30°，意味着在训练过程中样本图片会随机在[-30°,30°]之间进行旋转角度，这样做可以扩充数据集，增加模型的泛化性能。训练的初始学习率为0.01，衰减系数为0.0005，当进行到7000次和 11000次的时候学习率一次减小10倍。

关于结果的分析，请参阅图4和图5，图4是改进的YOLOv3网络训练的损失曲线图，图5是在训练过程中检测框与真实框的平均IOU曲线图。交并比(Intersection overUnion，IoU)计算的是“预测的边框”和“真实的边框”的交集和并集的比值。

在训练中大约经过12000次迭代，模型各个参数趋于稳定，最后损失值在

0.21左右，从图中可以看出改进的YOLOv3训练效果比较理想，达到改进的目的。

分别对YOLOv3、YOLOv3-tiny、改进的YOLOv3算法在同一训练集上进行训练，并用同一测试集进行测试，分别计算召回率与准确率以及mAP，结果如表1所示，表1是不同算法检测结果比较，

表1

与YOLOv3相比，改进的YOLOv3算法对目标的检测的准确率P从92％提高到95％，召回率R由84％提高到93％。平均精准度mAP由87.41％提高到90.19％，与YOLOv3-tiny相比平均精度提高了9.49％。

准确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，P＝TP/(TP+FP)。

召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)，R＝TP/(TP+FN)。

平均精准度(mean average precision，mAP)是数据集中所有类的平均检测精度，是判定目标检测算法的精度指标。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、 “右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，本发明实施例提供的一种电子设备，如图6所示，电子设备800 包括存储器801、处理器802，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。

如图6所示，电子设备还包括：总线803和通信接口804，处理器802、通信接口804和存储器801通过总线803连接；处理器802用于执行存储器801中存储的可执行模块，例如计算机程序。

其中，存储器801可能包含高速随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口804(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线803可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器801用于存储程序，所述处理器802在接收到执行指令后，执行所述程序，前述本发明任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器802中，或者由处理器802实现。

处理器802可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801，处理器802读取存储器801中的信息，结合其硬件完成上述方法的步骤。

对应于上述方法，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述方法的步骤。

本发明实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

又例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，再例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：雷跃辉;海鑫;
专利申请人：苏州浪潮智能科技有限公司;

上一篇：一种毛毯起毛机的清洁装置及清洁方法
下一篇：一种三相24/14极分布电励磁双凸极风力发电机