掌桥专利:专业的专利平台
掌桥专利
首页

一种基于高效标签分配策略的有向目标检测方法

文献发布时间:2023-06-19 19:27:02


一种基于高效标签分配策略的有向目标检测方法

技术领域

本发明属于有向目标检测技术领域,具体涉及一种基于高效标签分配策略的有向目标检测方法。

背景技术

随着遥感技术的不断发展,高分辨率遥感图像的获取已不再是难事,越来越多新的高分辨率遥感图像在目标尺度、图像背景、细粒度信息和空间覆盖范围等方面体现出了更为复杂的多样性,而遥感图像的检测工作不仅应用于目标侦察、海域控防等军事领域,同时也广泛应用于各种民用领域,如地理信息系统、测绘系统、农业以及交通规划导航等。因此,如何从更复杂多样的遥感图像中准确的检测出目标就显得尤为重要。

目前,传统的有向目标检测算法都使用静态的标签分配策略或者复杂的自适应标签分配策略。静态标签分配策略是指每个目标真实框只选取固定数量的区域建议框或只简单的选取高于IOU(Intersection over Union)阈值的锚框作为训练框进行训练,因此在训练初期锚框与真实框的匹配程度较低,从而导致选取过多低质量的锚框参与训练,这是一种低效分配策略。自适应标签分配策略通常会采用复杂的卷积神经网络自主学习锚框的标签分配方法,从而选择一定数量的锚框作为后续网络的训练框,这种方式选取的训练框质量较好,但所需计算时间会明显提高。

发明内容

本发明的目的在于提出一种基于高效标签分配策略的有向目标检测方法,在保证计算复杂度基本不变的情况下,提升检测精度。

本发明的技术方案为:

一种基于高效标签分配策略的有向目标检测方法,包括:

构建有向目标检测模型,包括特征提取主干网络、区域建议网络、目标检测网络,其中特征提取主干网络的输入为遥感图像,特征提取主干网络包括并行的4个特征提取子网络,每个特征提取子网络的结构包括:1个卷积层,后接1个激活层,再串接1个卷积层,1个激活层和1个池化层,相邻层之间依次级联,4个特征提取子网络的输出合并后,再输入到4层的卷积子网中,提取目标的特征图,该卷积子网包括:1个卷积层,后接1个激活层,再串接1个卷积层,再接1个激活。其中,所有卷积核大小都为3*3、滑动步长为1,所有的池化层大小都为2*2、滑动步长为2,激活函数均为ReLu函数;

特征提取主干网络输出的特征图分别输入到区域建议网络和目标检测网络中。区域建议网络包括:1个核大小为3*3、滑动步长为1的卷积层,后接1个ReLu函数激活层,该激活层的输出分别输入到2个核大小为1*1、滑动步长为1的卷积层,其中一个卷积层的输出经过softmax层后输出当前建议框包含目标的概率,此概率与另一个卷积层输出合并作为高效标签分配层的输入,在标签分配层中基于高效标签分配策略完成当前建议框的标签分配,最后输出最优的建议框到目标检测网络。高效标签分配策略步骤包括:首先选取出置信分数排在前50%的所有锚框,然后,依次计算每一个真实框GT与这些锚框的IOU值,将每一个真实框GT对应的IOU值在前20%的锚框取出,并将这些锚框IOU值的和作为选取训练框的数量k,即选择IOU值大小排在前k个的锚框的标签为该GT,这k个锚框则构成本轮训练的建议框;

特征提取主干网络的输出和区域建议网络的输出作为目标检测网络的输入,目标检测网络的结构包括1个ROI池化层,1个全连接层,1个激活层,再接1个全连接层,1个激活层和1个全连接层,相邻层之间依次连接,最后目标检测网络输出包含目标图像的检测框;

在进行目标检测前,选取训练图像集对网络模型进行训练。首先将训练图像数据输入到特征提取主干网络中,提取特征图作为后续区域建议网络和目标检测网络的输入,然后,区域建议网利用特征图数据基于高效标签分配策略输出最优的建议框,并作为目标检测网络的输入,目标检测网络根据输入的特征图数据和最优的建议框快速确定包含目标的检测框,最后,利用检则结果和真实值之间的误差,基于BP算法完成对速个网络模型参数的迭代更新。

网络模型训练完成后,将新的图像输入到网络中,经过特征提取主干网后提取特征图,直接输入到目标检测网络进行目标检测,最后检测网络输出包含目标的检测框,完成对目标的检测。

采用已知数据集对构建的有向目标检测模型进行训练。

本发明的有益效果为,本发明解决标签所对应的训练框数量和质量最优的问题,从而提高了目标检测率。

附图说明

图1是本发明的有向目标检测模型结构图;

图2是高效标签分配方法示意图。

具体实施方式

下面结合仿真以证明本发明的有效性和取得的进步:

如图1所示,本发明提出了一种效率更高、精度更好的有向目标检测模型。模型的第一阶段使用了一个全卷积网络来构成区域建议网络(Region Proposal Network,简称RPN),该区域建议网络可以生成有方向的区域建议框(也称为锚框,Anchor frame,简称AF);模型的第二阶段利用目标检测网络(Target Detection Network,简称TDN)执行检测任务,利用全连接层合并第一阶段中区域建议框得到的特征,并进行检测框回归,具体结构如图1所示。特征提取主干网络是由10个卷积层、10个激活层和4个池化层组成,其中所有的卷积层大小都为3*3、滑动步长为1、padding操作数(零填充操作数)为1,所有的池化层大小都为2*2、滑动步长为2、不做padding操作,所有激活层均为ReLu函数激活层,该网络用来提取输入图像的特征,产生的特征图分别输入区域建议网络和目标检测网络用于建议框的产生和检测框的回归。区域建议网络由3个卷积层、1个激活层和1个softmax分类层组成,其中第一个卷积层大小为3*3、滑动步长为1、padding操作数为1,另外两个卷积层大小均为1*1、滑动步长为1、无padding操作,该网络的激活层为ReLu函数激活层。目标检测网络由3个全连接层,2个激活层和1个ROI池化层组成,其中该网络的激活层为ReLu函数激活层,ROI池化层(Region of Interest)用于将不同维度的建议框下的特征图池化为统一维度,从而进行后续的全连接操作。

高效标签分配从每一个标签(即真实框Ground Truth,简称GT)所对应的训练框数量和质量最优的角度来解决目标检测中标签分配的问题,使得训练框的标签分配更加合理,能为不同大小形状的训练框分配到最合适的真实标签,其具体原理如图2所示,图中GT

假设一张原始图像中存在N个真实框GT,每个GT中都存在一个目标物体,第一阶段的区域建议网络为原始图像生成锚框,并给出每一个锚框的置信分数(当前锚框中是否存在对象的概率),一个锚框的置信分数越高,说明框中存在某类目标物体的概率越大。选取出置信分数排在前50%的所有锚框(图2中假设有M个),依次计算每一个GT与这些锚框的IOU值,为了给每一个GT选取合适数量和质量的锚框作为后续的训练框,本方法将每一个GT对应的IOU值在前20%的锚框取出,并将这些锚框IOU值的和作为选取训练框的数量k,即选择IOU值大小排在前k个的锚框的标签为该GT,这k个锚框则构成本轮训练的训练框。如果上述百分比计算出现小数,则进行向上取整。

此方法中的k值能够反应所选锚框与真实框GT之间的匹配程度(IOU值大小)与数量。在训练初期,网络参数较差,锚框与真实框GT之间的匹配程度(锚框质量)较低,因此k值较小,即此时网络不会选择过多匹配程度低的锚框参与训练;随着训练的进行,网络参数不断的优化,锚框的质量也会有所提高,k值会不断增大。因此,真实框GT对应的锚框质量越好,就会选择更多的锚框参与训练,从而在保证效率的条件下提升网络效果。与传统方法相比,该策略能够选取出数量更合适且质量更高的锚框参与后续的边框回归。

使用FAIR1M数据集中的飞机类别进行实验。FAIR1M数据集是目前遥感领域最大的细粒度目标识别数据集,拥有超过100万个实例,所有的对象实例都使用目标边界框进行了注释,这为有向目标提供了更准确的空间信息。FAIR1M数据集与遥感领域的其他数据集相比,拥有更全面的细粒度类型、更大的图像尺寸和方向范围、更多目标分布密集的复杂场景以及更丰富的地理信息,因此,FAIR1M数据集更具多样性和挑战性。

对于飞机型号,共有10个细粒度类别,涵盖全球34个机场,分别为波音737、波音777、波音747、波音787、空客A320、空客A220、空客A330、空客A350、中国商飞C919、中国商飞ARJ21等,是民航中最常见的几大类,除此之外,还设置了一个Other-airplane类别,具体飞机实例分配情况如下表1所示:

表1飞机类别以及各类实例数表

本次实验使用的计算机系统环境为windows 10系统,硬件环境为CPU AMD Ryzen55600H with Radeon Graphics,GPU NVIDIAGeForce RTX 3050,16GB内存条。利用普通的两阶段模型和使用高效标签分配策略的两阶段模型对3.1数据集进行目标检测实验,结果如表2所示。其中,学习率为0.001,迭代次数为10次,Loss函数采用Smooth L1损失函数。

表2两种方法检测结果表

注:训练1个epoch时间指将训练集中所有的图片训练一遍所需要的时间

由表2可知相比于只使用普通的两阶段检测模型,本文中使用了高效标签分配方法的两阶段模型在飞机检测的平均准确率上有所提高,且使用高效标签分配方法后,模型的训练速度有明显的提升,因此,以上结果表明本文提出的方法是有效的。

相关技术
  • 一种基于不对称中继传输的认知车联网高效联合的资源分配方法
  • 一种基于高斯分配策略的图像小目标检测方法及系统
  • 一种基于宫颈癌细胞目标检测的标签分配方法及装置
技术分类

06120115918941