掌桥专利:专业的专利平台
掌桥专利
首页

基于全卷积的小目标检测算法

文献发布时间:2023-06-19 19:30:30


基于全卷积的小目标检测算法

技术领域

本发明属于小目标检测技术领域,具体涉及基于全卷积的小目标检测算法。

背景技术

基于图像的目标检测任务是计算机视觉领域的研究重点。在coco目标检测数据集中将像素面积小于32×32的目标视为小目标,由于该类型目标信息量较少,一直是研究难点。近年来由于计算设备与深度学习理论的进步,目标检测任务精度得到巨大提升,小目标检测的研究逐渐展现出一定的效果。

研究人员针对小目标的特点,主要有四大研究方向。一是针对小目标像素占比少情况,通过数据增强的策略增加图像中小目标的存在,例如随机裁剪、随机尺度缩放,目标区域复制粘贴,GAN生成小目标等方法;二是针对小目标面积尺寸小的多尺度特征提取,通过在骨干网络中融合不同深度、不同尺度的特征矩阵进而提高对图像不同尺度信息的提取能力,例如FPN以及FPN的各种衍生方法;三是针对图像全局特征融合,研究人员认为目标与场景和目标与目标之间通常存在相关联系,例如鱼在水里的可能性大于在天空中的可能性。在方法通常使用通道注意力机制、空间注意力机制来实现全局特征信息的学习与利用;四是针对小目标的无锚框机制,在基于锚框的目标检测方法中,通常根据先验经验设定锚框的尺寸,并计算锚框中的内容以进行分类或回归。在该类方法中需要进行正负样本划分,小目标在进行交并比计算中轻微的偏差就会产生较大的精度波动,导致小目标难以学习,在无锚框的目标检测方法出现后,便有研究学者进行改进以提升小目标检测效果,例如使用增强的特征提取网络,直接预测目标边框的中心点与尺寸。

基于数据增强、多尺度特征提取、全局特征融合的方法在目标检测领域展现出通用的性能提升,可以作为插件模块,被灵活使用在各种目标检测的模型中。

基于无锚框目标检测算法打破了预制锚框这一定义,在预测机制上缓解了目标检测过程中小目标样本正样本的不均衡问题,但由于无锚框检测方法通常仍然使用目标最大外界矩形以计算目标框交并比来生成损失,指导网络学习。

发明内容

本发明提供基于全卷积的小目标检测算法,使用多尺度特征融合提高对不同尺度信息目标特征的提取能力,使用双尺度目标预测以解决小目标特征图中信息占比少易受大目标特征影响情况,使用目标的真实边界计算损失以指导网络更精准的学习目标边界特征。

本发明为解决上述技术问题采用以下技术方案:

基于全卷积的小目标检测算法,包括卷积网络模型部分、损失计算部分和训练调参部分;

所述卷积网络模型部分包括骨干网络模块、多尺度特征融合模块和双尺度预测模块,所述骨干网络模块使用骨干网络对图像依次进行不同尺度的特征提取;所述多尺度特征融合模块,将不同尺度的特征矩阵信息进行融合;所述双尺度预测模块,分别预测大尺度目标与小尺度目标,最终输出结果;

所述卷积网络模型部分用于针对图像特征进行提取并对目标进行预测;所述损失计算部分用于计算训练时的预测损失以获取梯度指导网络模型进行权重学习;所述训练调参部分用于将带有标签的数据喂入网络模型进行前向推理,通过损失函数梯度进行反向梯度回传,最终根据验证精度调整网络学习率与数据集;算法具体步骤如下:

步骤S1、构建网络模型;

步骤S2、构建基于目标边界距离的损失函数;

步骤S3、训练调参。

进一步地,所述骨干网络模块具体如下:

将批量图像像素矩阵I输入骨干网络模块中:

I=[B,C,H,W]

其中B为批量图像数目,C为通道数,输入时通常为3通道的图像R红色、G绿色、B蓝色颜色特征,H为图像高度,W为图像宽度;

经过骨干模块后输出三个不同尺度特征C3、C4、C5,其中3、4、5表示特征矩阵尺度下采样2的次方倍。

进一步地,所述多尺度特征融合模块具体如下:

将输入特征矩阵在通道维度分成两部分,第一部分进行卷积等操作,第二部分直接短接到模块输出尾部,与第一部分结果拼接;最终获取到两个尺度的特征矩阵P3与P4。

进一步地,所述双尺度预测模块具体如下:

对P3与P4使用通用语义分割预测结构,分别得到两个不同尺度的预测结果,具体实现为:

将目标连通域面积大于32×32的目标认为是大目标,由P4特征矩阵负责预测,获得大目标结果R4;将目标连通域面积小于32×32的目标认为是小目标,由P3特征矩阵负责预测,获得小目标结果R3;

在预测结果与标签进行计算损失时,根据大小目标生成不同的标签图:

计算P3预测结果损失时,使用小目标标签进行计算,计算P4预测结果损失是,使用大目标标签进行计算;

在小目标标签图中,会将小目标作为一级标签区域,将大目标作为二级标签区域;在大目标标签图中反之;

在训练阶段,一级标签区域正常计算每个像素带来的损失,二级标签区域不计算预测为背景区域的像素带来的损失,不约束其预测到不属于本尺度的目标,防止出现特征冲突带来的影响;

将小目标结果图R3中符合小目标规则的连通域取出,覆盖到大目标结果图R4,得到最终的预测结果R。

进一步地,步骤S2具体为:由于全卷积网络针对每个像素都进行了类别预测,因此更容易出现零碎的斑点错误,故基于目标边界距离的损失函数为:

/>

其中L

上式

进一步地,步骤S3具体如下:

步骤S31、收集任务需要的目标图像数据,并按照语义分割的标签格式为数据指定标签,获得训练所需要的数据集;

步骤S32、将数据集按照比例分成训练集、验证集、测试集,通用比例7:1:2,可以根据数据量情况酌情修改;

步骤S33、将训练集喂入步骤S1构建的网络模型中进行前向计算,获取预测结果,使用步骤S2构建的损失函数计算梯度并反向回传调整模型参数;

步骤S34、训练多个批次之后根据验证集精度表现,调整学习率参数,同时观测模型损失下降趋势与验证集精度上升趋势是否正相关,以免出现过拟合现象;

步骤S35、最终根据训练多个轮次的训练结果,使用测试集进行测试,选取最优的网络模型作为结果模型存储,以供下次小目标检测推理使用。

本发明采用以上技术方案与现有技术相比,具有以下技术效果:

1.本发明提供的基于全卷积的小目标检测算法,使用双尺度预测,使用网络模型在小尺度上更专注与小目标的检测,减少大小目标之间的干扰情况,同时构建不同尺度的标签图,有效提升小目标的准确度。

2.本发明提供的基于全卷积的小目标检测算法,为了减少语义分割网络迁移到目标检测任务中出现的斑点式预测错误,提出了针对目标边界的损失函数,强化目标外界预测错误的损失权重,引导网络聚焦目标区域,减少斑点式预测错误。

附图说明

图1为本发明的流程图;

图2是本发明网络模型结构图;

图3是本发明多尺度信息融合结构图;

图4是本发明不同的标签图。

具体实施方式

以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。

本发明分为三个部分:一是卷积网络模型部分,针对图像特征进行提取并对目标进行预测;二是损失计算部分,计算训练时的预测损失以获取梯度指导网络模型进行权重学习;三是训练调参部分,将带有标签的数据喂入网络模型进行前向推理,通过损失函数梯度进行反向梯度回传,最终根据验证精度调整网络学习率与数据集等。最终选取最优的权重参数以供目标检测推理使用。

本算法中网络模型结构图如图2所示:

图2中将模型分为三个模块:一是骨干网络模块,该部分使用骨干网络对图像依次进行不同尺度的特征提取;二是多尺度特征融合模块,将不同尺度的特征矩阵信息进行融合;三是双尺度预测模块,分别预测大尺度目标与小尺度目标,最终输出结果。

骨干网络模块此模块可以针对任务难度、设备算例不同,灵活使用不同的通用的骨干网络模块。不同的骨干网络计算出的特征尺度个数可能不同,可以将最后三个尺度的特征矩阵作为输出。

本发明中选取PP-PicoDet中提出的ESNet,也可以选取例如ResNet系列、SENet、MobileNet系列、Efficientnet系列的骨干网络进行替代,不同骨干网络的计算复杂度与特征提取能力不同。

该骨干网络使用了先进的网络搜索算法以及通道信息融合结构提高骨干网络的特征提取能力,并且使用轻量级网络架构ShuffleNet与Ghost块,有效降低计算复杂度。

将批量图像像素矩阵I输入骨干网络模块中:

I=[B,C,H,W]

其中B为批量图像数目,C为通道数,输入时通常为3通道的图像R(红色)、G(绿色)、B(蓝色)颜色特征,H为图像高度,W为图像宽度。

经过骨干模块后输出三个不同尺度特征C3、C4、C5,其中3、4、5表示特征矩阵尺度下采样2的次方倍。

获取到三个下采样8倍的C3、16倍的C3、32倍的C5特征矩阵。为了进一步融合特征信息,本算法采用如图3所示特征融合结构:

其中CSP结构来自CSPNet,将输入特征矩阵在通道维度分成两部分,第一部分进行卷积等操作,第二部分直接短接到模块输出尾部,与第一部分结果拼接,在降低了计算量情况下,丰富了梯度链路的多样性。

最终获取到两个尺度的特征矩阵P3与P4。

在获取两个尺度的特征矩阵P3与P4之后,为了减少不同尺度范围目标带来的损失不均衡情况,对P3与P4使用通用语义分割预测结构,分别得到两个不同尺度的预测结果,具体实现为:

在本算法中,将目标连通域面积大于32×32的目标认为是大目标,由P4特征矩阵负责预测,获得大目标结果图R4;将目标连通域面积小于32×32的目标认为是小目标,由P3特征矩阵负责预测,获得小目标结果图R3。

在现实目标检测任务中,存在由于成像条件影响的情况下,目标在图像中表现的大小是不固定的,造成一个目标在某张图像被分为大目标,在另一张图像中被分为小目标,强制抑制网络学习这种冲突将影响网络实际性能。因此在预测结果与标签进行计算损失时,根据大小目标生成不同的标签图,如图4所示:

计算P3预测结果损失时,使用小目标标签进行计算,计算P4预测结果损失是,使用大目标标签进行计算。

在小目标标签图中,会将小目标作为一级标签区域,将大目标作为二级标签区域;在大目标标签图中反之。

在训练阶段,一级标签区域正常计算每个像素带来的损失,二级标签区域不计算预测为背景区域的像素带来的损失。不约束其预测到不属于本尺度的目标,防止出现特征冲突带来的影响。

在预测阶段,我们将小目标结果图R3中符合小目标规则的连通域取出,覆盖到大目标结果图R4,得到最终的预测结果R。

构建基于目标边界距离的损失函数

由于全卷积网络针对每个像素都进行了类别预测,因此更容易出现零碎的斑点错误,为了进一步让网络模型约束该类型错误,本算法提出一种基于目标边界距离的损失函数:

其中L

上式

训练调参步骤如下:

步骤S31、收集任务需要的目标图像数据,并按照语义分割的标签格式为数据指定标签,获得训练所需要的数据集;

步骤S32、将数据集按照比例分成训练集、验证集、测试集,通用比例7:1:2,可以根据数据量情况酌情修改;

步骤S33、将训练集喂入步骤S1构建的网络模型中进行前向计算,获取预测结果,使用步骤S2构建的损失函数计算梯度并反向回传调整模型参数;

步骤S34、训练多个批次之后根据验证集精度表现,调整学习率参数,同时观测模型损失下降趋势与验证集精度上升趋势是否正相关,以免出现过拟合现象;

步骤S35、最终根据训练多个轮次的训练结果,使用测试集进行测试,选取最优的网络模型作为结果模型存储,以供下次小目标检测推理使用。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术分类

06120115936982