掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于目标检测领域,具体涉及一种小目标优化的目标检测方法。

背景技术

目标检测是计算机视觉领域中的一个重要研究方向,它结合了目标定位和目标识别两大任务,广泛地应用于智能监测、图像检索、智能交通、场景识别等领域。传统的目标检测算法大多采用手工设计的特征进行,主要步骤分为:(1)采用滑动窗口的策略对整幅影像进行遍历,生成多个候选框;(2)利用不同的特征提取方式计算候选框内的特征,生成特征向量;(3)利用支持向量机等机器学习方法对特征向量进行分类,获得目标检测结果(ZhangY,Li B,Lu H,et al.Sample-specific SVM learning forperson re-identification[C]//IEEE Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2016.)。传统算法直观简单,但生成候选框会产生冗余窗口,严重影响后续特征提取和分类的速度和性能。

目前,深度学习方法通过设计各种网络结构来自适应地学习影像特征信息,实现对目标的识别与定位,在效率和精度上较传统方法均有很大提升,在计算机视觉领域得到了广泛应用并获得巨大成功。基于深度学习的目标检测方法主要分为单阶段模型和两阶段模型(LiuW,Anguelov D,Erhan D,et al.SSD:Single shot multi box detector[C]//European Conference on Computer Vision,Amsterdam,NL,2016:21–37;Ren S,He K,Girshick R,et al.Faster R-CNN:towards real-time object detection with regionproposal networks[J].IEEE Transactions on Pattern AnalysisandMachineIntelligence,2015,39(6):1137-1149.)。其中,单阶段模型不需要生成候选框,直接输出目标的定位与类别概率;两阶段模型需先在特征图上对可能存在目标的位置提取候选框,然后再对候选框进行分类。

上述两种目标检测方法在通用数据集上,针对场景中的中、大型目标在检测精度和效率上已经取得了较好的表现,但它们对于小目标检测的精度仍然较低,其主要原因是:

(1)待检测目标在整幅影像中仅有一个或者几个像素点,对应的像素区域所能反映出的信息量有限。

(2)网络模型为了获得深层语义信息,需要经过多层的卷积与池化操作来扩大感受野。原本小目标在影像中占比非常小,在通过多次卷积后在深层特征图中只包含一部分特征信息,甚至可能在卷积过程中过滤掉。

IPG-Net网络引入了图像金字塔,为骨干网络提供更多的空间信息,来解决小目标检测精度较低问题(Liu Z,Gao G,Sun L,et al.IPG-Net:Image Pyramid GuidanceNetwork for Small Object Detection[C]//Proceedings ofthe IEEE/CVF Conferenceon Computer Vision and Pattern Recognition Workshops.2020:1026-1027.)。但其特征提取模块存在利用7*7大小卷积核,导致参数量参加;采用固定数目残差块,造成提取特征与骨干网络特征跨度较大等问题。

针对小目标检测的难点及其当前方法的不足,本发明以目前流行的MaskR-CNN网络模型作为目标提取的基础框架(He K,Gkioxari G,Dollar P,et al.Mask R-CNN[C]//International Conference on Computer Vision(ICCV),Venice,IT,2017:2980-2988.),以小目标进一步优化的IPG-Net网络结构作为骨干的特征提取网络,提出一种改进小目标的检测方法。通过构建图像金字塔引导网络以优化其特征提取及融合模块,使得深层特征与浅层特征相互结合,为骨干网络的特征金字塔提供更多的空间信息,解决小目标检测精度较低的问题。

发明内容

针对MaskR-CNN算法特征提取过程中,经过几十甚至一百多层的卷积操作造成空间信息丢失,小目标检测精度较低的问题,本发明提出一种将骨干网络提取特征与图像金字塔模型相应层级特征融合的图像金字塔引导网络,使得骨干网络的特征金字塔的各个阶段提供更多的小目标信息,然后将特征融合到MaskR-CNN网络框架中的小目标优化方法。

根据以上原理,本发明的一种图像金字塔引导的遥感影像小目标检测方法,包含以下步骤:

步骤1:构建骨干网络;

构建MaskR-CNN骨干网络,采用标准ResNet网络来实现。ResNet网络包括五个级别的特征提取模块,但为了在获得深层语义信息的同时最大化保留浅层小目标的信息,取消了ResNet最后一个级别,仅采用四个级别。第一个级别利用了一次步幅为2的卷积层,得到的特征映射图为原始图像分辨率的1/2;第二级别利用了步幅为2的最大池化层,得到为原始图像1/4大小的特征映射图;第三至第四级别都采用步幅为2的卷积层来提取特征,最终输出的特征映射图为原始图像的1/16。ResNet骨干网络提取到的特征图表示为R:

R={R

其中,n表示网络的级别数。

步骤2:构建图像金字塔引导网络;

该步骤构建图像金字塔引导网络,提取图像金字塔特征信息,具体包括以下两个子步骤:

步骤2.1:构建图像金字塔;

输入图像,构建其金字塔集I:

I={I

其中,n代表图像金字塔的级别数,与步骤1中ResNet骨干网络的级别数对应一致。图像金字塔集中I

步骤2.2:构建特征提取模块;

图像金字塔引导网络的特征提取功能模块是为了捕获小目标等细节信息,主要从浅层网络获得。主要由以下两部分构成:

(1)首先是3个3*3的卷积级联操作,该结构在获得与7*7卷积操作相同感受野的同时,减少参数量,增强网络的非线性表达能力,防止出现过拟合。从而使得浅层卷积滤波器的细粒度特征提取能力增加。然后进行步幅为2的最大池化操作。

(2)池化操作后,每个级别提取的图像金字塔特征都需再通过残差块的操作来实现。残差块数目的设计,需考虑到MaskR-CNN骨干网络中随着级别的增加,卷积层数目也在增多,骨干网络中第一级由3个残差块(共9个卷积层);第二级在第一级的基础上增加4个残差块(即增加12个卷积层,合计21个卷积层);第三级在第二级的基础上增加23个残差块(即增加69个卷积层,共90个卷积层)。单个残差块能提供更丰富的空间信息,但随着级别的增加,同一级别的图像金字塔特征和骨干特征的跨度越来越大,特别是ResNet101的第三级有23个残差块,将这样两个跨度如此大的特征进行融合对于优化特征提取结果而言并没有益处。因此,本发明在提取图像金字塔特征时,随着骨干网络层级的增加,每级增加1个残差块,即第一阶段1个,第二阶段2个残差块,第三阶段3个残差块,这样缩短了两个特征间的跨度,保留了空间信息和小物体的特征。

图像金字塔引导网络提取到的图像金字塔特征映射图F:

F={F

其中,n代表图像金字塔的级别数,与骨干网络级别数保持一致。

步骤3:融合骨干与图像金字塔特征;

在步骤1、2的基础上得到骨干特征映射图R与图像金字塔特征映射图F,将图像金字塔特征信息作为附加信息,融合到骨干特征信息中去。该融合包含以下三个子步骤:

步骤3.1:金字塔特征映射图上采样;

将图像金字塔特征映射图F

步骤3.2:骨干网络融合;

将步骤3.1得到的F

其中,Conv

步骤3.3:融合特征映射图生成;

将步骤3.2得到的O'

O

其中,O

O={O

步骤4:多层次特征融合;

在步骤3得到骨干特征与图像金字塔特征融合后的多尺度特征O后,利用特征金字塔网络的侧边横向连接方式,构建一条自上而下的融合路径,将深层语义信息融合到浅层丰富的空间信息中去。但最终生成特征映射图只包含本层和更深层的特征信息,却不包含更浅层的信息,无法充分利用所有尺寸特征映射图的信息。因此,在原有自深层至浅层的连接基础上,增加一条自浅层至深层的特征融合网络结构。具体包含以下两个子步骤:

步骤4.1:自深层至浅层的特征融合;

在步骤3得到骨干与图像金字塔特征融合后的多尺度特征O后,添加新的特征映射图P

重复上述步骤,生成多尺度特征映射图P:

P={P

步骤4.2:自浅层至深层的特征融合;

生成自深层至浅层的多尺度特征P后,添加新特征映射图N

重复上述步骤,生成最终多层次特征融合映射图N:

N={N

本发明采用上述方案的优点是:本发明通过构建图像金字塔引导网络,优化其特征提取以及特征融合模块,为骨干网络特征金字塔的各个阶段提供更多的小目标信息,有效解决了通用目标检测方法在小目标识别上效果不佳的问题。

附图说明

附图1是本发明方法的流程图。

附图2是本发明的实施例中研究区域位置。图2(a)为浙江省位置;图2(b)为永康试验区卫星影像。

附图3是小目标优化的网络结构。图3(a)为图像金字塔引导网络的特征提取模块;图3(b)为融合骨干与图像金字塔特征;图3(c)为自深层至浅层的特征融合;图3(d)为自浅层至深层的特征融合。

附图4是当前实施例的识别结果。图4(a)为原始影像叠加选取的松材线虫病样本;图4(b)为本发明检测结果及其评价;图4(c)为局部影像以及人工标记的样本;图4(d)为本发明部分检测结果及其评价。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合实施例和附图1的发明流程对本发明作进一步的详细描述。应当理解,此处描述的具体实施例仅用于解释本发明,并不用于限定本发明,及所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。因而,基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

本实施例的研究区为浙江省杭州市永康市部分区域(如图2所示),永康试验区选取world view 3卫星影像,获取日期为2018年10月11日。在具体实验中将试验区影像裁剪为512×512像素大小的影像块,为了减少裁剪后大图预测时产生拼接缝隙现象,裁剪时保持横向和纵向拥有60个像素大小的重叠区域。永康试验区松材线虫病死植株呈现红棕色,成年松树植株的冠层直径一般为1.5m左右,而worldview 3多光谱影像的最优空间分辨率仅为1.2m,单棵植株在遥感影像上为一个或者几个像素的小目标,所以采用通用目标检测方法进行病死植株识别时,存在识别精度低等问题。

本发明的一种图像金字塔引导的遥感影像小目标检测方法,针对小目标检测性能不佳的问题,结合附图说明本发明的具体实施方式,流程如下:

步骤1:构建骨干网络;

本实施例采用ResNet101来构建骨干网络,原始图像的分辨率为512×512,骨干网络采用四个级别的特征提取模块,最终输出的特征映射图为原始图像大小的1/16。

最终获得的骨干网络特征映射图R

步骤2:构建图像金字塔引导网络;

图像金字塔引导网络的输入由图像金字塔集构成,初始I

图像金字塔引导网络的特征提取模块设计具体见步骤2.2(如图3(a)特征提取方法所示),获得的图像金字塔特征映射图F

步骤3:融合骨干与图像金字塔特征;

将图像金字塔特征映射图F

重复上述步骤,生成最终融合特征映射图O

步骤4:多层次特征融合;

添加新的特征映射图P

生成自深层至浅层的多尺度特征后,添加新特征映射图N

上述过程主要说明了本发明针对小目标检测对网络结构进行优化的过程。在具体实验中,由于病死植株本身尺寸较小,即使有经验的人解译,部分情况下也难以准确判断,因此将样本根据可信度分为三类:高可信度(High),即人可以肯定为病死植株;中等可信度(Mid),和病死植株比较像;低可信度(Low)即部分特征支持是病死植株,但是部分支持不是病死植株。在训练过程中随机选择75%的样本作为训练集,剩余的25%作为测试集,以验证算法可靠性。实验结果如图4所示,从中可以看出该区域内检出率和正确率均较高,说明了方法的有效性。

经与人工目视解译结果对比,本发明方法的精度达到0.85,在相同实验参数设置情况下,本文方法精度相对于原始MaskR-CNN方法提高2%,说明了本发明小目标优化检测结果的有效性。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也给予本领域技术人员根据本发明构思所能够想到的等同技术手段。

相关技术
  • 一种图像金字塔引导的遥感影像小目标检测方法
  • 一种多策略的深度学习遥感影像小目标检测方法
技术分类

06120113065455