掌桥专利:专业的专利平台
掌桥专利
首页

一种跨域红外目标检测方法

文献发布时间:2023-06-19 11:57:35


一种跨域红外目标检测方法

技术领域

本发明属于计算机视觉和模式识别技术领域,涉及一种跨域红外目标检测方法,具体涉及一种基于特征图和CAM图层面的半监督跨域的红外目标检测方法,可以在特征图层面和CAM图层面对源域和目标域进行对齐,以解决目标域训练集标签较少的问题,即利用源域数据对以目标域为目标的网络训练任务进行辅助,在目标域数据标签较少的情况下实现红外图像目标检测的网络训练和实现。

背景技术

由于人眼能够感知的光线波长范围在0.43μm到0.79μm之间,在此范围之外的光线就需要借助专业探测器进行探测。红外线是波长介于750nm到1mm之间的电磁波,红外成像即是通过接受物体自身产生的红外辐射,并通过传感器转换为红外图像,其具有探测距离远,隐蔽性高,可以昼夜工作等突出特性,不仅延伸了人类的视觉系统,而且能够极大地弥补可见光成像受环境影响制约的不足,在目标检测领域具有十分重要的地位,被广泛地应用在民用以及军用场景下。例如在火车站、机场、商场等民众聚集场所以及战场环境下通常要求能够及时准确地对目标进行识别和探测,相比于可见光成像,红外成像能够在繁杂的视场中为目标的检测提供很好的补充效果。

传统的红外目标检测算法是人工设计目标模板,对目标进行模板匹配,根据比较后的相似度来确定目标的位置,主要的检测方法有梯度直方图算法、尺度不变特征检测算法及哈尔特征算法等,虽然多年来许多学者对模板进行改进,但由于模板的设计要求设计人员具有较高的专业知识和经验,并且应用场景较为单一,对于复杂的场景不具有好的鲁棒性。近年来随着深度神经网络的发展,许多学者提出了不同的目标检测算法,其基本原理是通过卷积操作来对图像的特征进行抽象和提取,例如RCNN算法、Fast R-CNN算法以及Mask R-CNN算法等,这类基于深度神经网络的目标检测方法已成为计算机视觉研究的热门,在目标检测领域具有较好的性能。

然而现有的目标检测方法例如Fast R-CNN和Mask R-CNN均是全监督的目标检测算法,其需要大量有标注的训练数据,在有标注的训练数据较少的情况下往往会出现过拟合现象,降低网络的最终性能;同时,与可见光图像相比,红外图像的标注成本较高,有标签的红外图像数据集较少,且红外图像的对比度较低,细节信息有所缺失,与可见光图像的域间差距较大,如果直接用可见光图像训练好的网络来对红外图像进行目标检测通常达不到很好的效果。域适应技术作为减小域间差异的方法,可以将标签丰富的源域数据作为辅助,来对网络提取到的目标域特征进行约束,使其特征分布接近源域数据的特征分布,以此来达到提高检测精度的目的。

发明内容

针对现有技术中存在的不足,本发明提出了一种跨域红外目标检测方法。

本发明方法是基于特征图和CAM(Class Activation Map)图层面半监督跨域的红外目标检测方法。

一种跨域红外目标检测方法,步骤如下:

步骤1,获取有标签的源域数据和含少量标签以及没有标签的目标域数据:

源域数据和目标域数据分别为可见光图像和红外图像,两者涉及的场景相似,目标相同。有标签的源域表示为S={X

步骤2,利用含有标签的源域数据训练Mask R-CNN-1网络:

将有标签的源域数据输入到Mask R-CNN-1网络中进行全监督的训练,网络的损失函数分为两部分,第一部分为RPN前景/背景分类损失和RPN目标框回归损失,两者可表示为L

步骤3,利用源域数据和目标域数据对一个新的Mask R-CNN-2做域适应训练:

固定住步骤2中训练好的Mask R-CNN-1网络中的卷积网络backbone-1,分别将源域数据和目标域数据输入至backbone-1和Mask R-CNN-2,得到源域数据的特征图F

步骤4,对红外图像进行目标检测:

将待进行目标检测的红外图像输入至步骤3中训练好的Mask R-CNN-2网络,通过前向传播得到红外图像的特征图,并送入RPN网络得到目标的位置、类别以及掩膜信息,最终实现目标检测功能。

本发明有益效果如下:

1、利用域适应技术,解决了目标域数据标签不足情况下网络训练效果较差的问题,一定程度上提高了目标检测的准确度;

2、在特征层面进行域适应的同时,利用注意力机制来聚焦对目标检测任务起决定性意义的区域,在CAM图层面进行域适应任务,补充了仅在特征层面进行域适应任务的不足。

3、使用了Mask R-CNN网络,在Faster R-CNN网络的基础上增加了掩膜(Mask)生成分支,在目标检测的基础上更进一步,实现了像素级目标检测,即能够将目标的每个像素点识别出来以进行更加精准的图像目标分割,为下游任务例如人体关键点检测、无人驾驶等需要更加精确的目标识别任务提供了实现的可能性。

附图说明

图1为本发明提出的目标检测算法流程图;

图2为预训练Mask R-CNN-1网络结构示意图;

图3为Mask R-CNN-2网络域适应训练结构示意图;

图4为基于训练好的Mask R-CNN-2网络的目标检测示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

目前大部分目标检测任务能够检测出目标所处位置,但分不出目标所在位置的前景像素和背景像素,不能够为一些需要更加精准的目标检测的任务中达到好的效果,本发明采用Mask R-CNN网络来实现像素级的目标检测,其由Faster R-CNN演进而来,在检测目标位置和类别的基础上增加了掩膜生成分支,其结构主要由卷积网络(ConvolutionalBackbone)、区域推荐网络(Region Proposal Network)即RPN网络、FPN网络(FeaturePyramid Network)、RoI Align结构、多任务头部结构组成,其中卷积网络是一系列用于提取图像特征图的卷积层,常用结构有VGG19、ResNet50等;区域推荐网络用于帮助网络推荐感兴趣的区域,其由两个卷积层组成。Mask R-CNN网络对目标进行检测的过程主要分为两个阶段,第一阶段是对图像备选区域进行划分,第二阶段是对备选区域中的目标进行检测;同时,由于获取红外图像的成本较高,有标签的红外图像数据集较少,并且对红外图像进行标注需要耗费大量的人力财力,若进行传统的全监督式的网络训练方法,往往会导致过拟合现象,达不到好的训练效果,难以在实际中应用;此外,域适应在小样本半监督目标检测任务中虽然得到了很好的应用,但多数域适应是在源域和目标域的特征图间设置约束,使标签少的目标域数据的特征分布接近含有大量标签的源域数据的特征分布,没有考虑特征图中对目标检测任务起决定性意义的区域。

针对上述问题,本发明提出了一种跨域的室内红外人体检测算法,该算法流程图如图1所示,步骤如下:

步骤(1)、获取有标签的源域数据和含少量标签以及没有标签的目标域数据:

源域数据和目标域数据分别为可见光图像和红外图像,两者涉及的场景均为室内重点区域,目标为人体。有标签的源域表示为S={X

步骤(2)、利用含有标签的源域数据训练Mask R-CNN-1网络:如图2,将有标签的源域数据输入到Mask R-CNN-1网络中进行全监督的训练,其中Mask R-CNN-1网络中的卷积网络由ResNet50网络和FPN网络组成并生成特征图,之后将卷积网络得到的特征图输入RPN网络,其包含两个卷积层以生成区域提议(RoI Proposal),之后将特征图和区域提议输入至RoI Align结构,通过双线性插值使每个RoI取得的特征更好地对齐原图上的RoI区域。ResNet50网络的参数使用预训练模型初始化,FPN、PRN和RoI Align的参数进行随机初始化。网络的损失函数可分为两部分,第一部分为RPN前景/背景分类损失和RPN目标框回归损失,两者可表示为L

步骤(3)、利用源域数据和目标域数据对一个新的Mask R-CNN网络Mask R-CNN-2做域适应训练:如图3,Mask R-CNN-2网络中各部分结构以及初始化参数设置与Mask R-CNN-1网络相同。固定住步骤2中训练好的Mask R-CNN-1网络中的卷积网络backbone-1,分别将源域数据和目标域数据输入至backbone-1和Mask R-CNN-2,得到源域数据的特征图F

以及:

判别器网络采取随机梯度下降算法最小化总损失函数,并将参数回传至Mask R-CNN-2的卷积网络、RPN网络以及RoI Align结构,随机梯度下降算法的学习率设置为0.0001,迭代次数设置为30。域适应部分的总损失函数为:

其中α和β为特征域适应损失权重和注意力域适应权重,分别为0.4和0.6。

步骤(4)、对红外图像进行目标检测:如图4,将待进行人体检测的红外图像输入至步骤3中训练好的Mask R-CNN-2网络,通过前向传播至卷积网络得到红外图像的特征图,并送入RPN网络得到人体的位置、类别以及掩膜信息,最终实现室内重点区域场景下人体的检测功能。

相关技术
  • 一种跨域红外目标检测方法
  • 一种基于不确定性引导的自适应跨域目标检测方法
技术分类

06120113116036