掌桥专利:专业的专利平台
掌桥专利
首页

一种基于Transformer的红外弱小目标检测方法

文献发布时间:2023-06-19 19:27:02


一种基于Transformer的红外弱小目标检测方法

技术领域

本发明属于计算机图像检测领域,涉及检测红外图像中的弱小目标,具体涉及一种基于Transformer的红外弱小目标检测方法。

背景技术

红外图像中的小目标分割是一项重要的计算机视觉任务。它在许多实际应用中发挥着基础作用,例如缺陷检查、器官分割、细胞计数、海事监视和早期预警系统等等。相对于常见的目标分割,红外小目标分割有其特殊的特点。首先,由于物体的大小或距离红外传感器很远,在红外图像中,物体目标通常看起来很小,极端情况下只有一个像素。其次,红外辐射能量在距离上明显衰减,使物体看起来非常暗淡。因此,它们很容易被背景杂波和传感器噪声淹没。第三,与密集的小对象实例分割不同,红外小目标分割中的对象通常非常稀疏,例如,仅包含单个实例。这会导致目标对象区域和背景区域之间的严重不平衡。这三个因素极大地使红外小目标检测复杂化。

检测红外小目标大致分为两类,第一类是一些比较传统的方法,包括基于滤波的方法,基于局部对比度的方法,以及基于低秩的方法。然而,这些传统方法严重依赖于手工提取的特征。当真实场景的特征(例如,目标大小、目标形状、SCR和杂波背景)发生显著变化时,很难使用手工特征和固定的超参数来处理这些变化。第二类是基于深度学习神经网络的检测方法,例如基于CNN卷积神经网络的方法以数据驱动的方式学习红外小目标的特征,通过设计不同结构的神经网络使模型通过梯度下降法自动拟合找出最优的模型参数。

上述所介绍的方法通常得到的是整个输入红外图像的弱小目标检测结果。随着深度学习的发展,基于CNN的方法由于其强大的建模能力,在一般对象检测方面取得了很好的结果。虽然CNN有着非常优秀的局部处理能力,但是CNN因其结构导致处理全局信息相对较弱,很难处理好一些复杂多变的背景。

发明内容

本发明的目标是针对现有基于CNN的红外弱小检测模型的缺陷,提出了一种基于Transformer的红外弱小目标检测方法。对于Transformer来说,注意力机制提供了几个关键优势:1)它捕获了序列之间的长期依赖关系;2)它具有动态自适应建模的能力;3)它提供了一种内置的显著性,可以洞察模型关注的是什么。我们把Transformer作为特征提取器,另外我们使用U型网络来对特征进行融合和优化。在此之前并没有类似相关研究,本文提出一种新的通用框架,结合Transformer的全局建模能力和CNN的局部建模能力以实现对红外弱小目标的检测。算法主要分为三个阶段,对输入图像通过Transformer进行深层全局信息提取,将多层次的深度特征利用U型网络进行特征优化和融合,利用最后的检测图生成mask掩码图。

本发明提供了一种基于Transformer的红外弱小目标检测方法,具体步骤如下:

步骤1、输入红外图像。

步骤2、应用12层的Transformer算法对输入的图像进行深层次特征提取,依次得到第3,6,9,12层后的特征x3,x6,x9,x12。

步骤3、将原始图像当作x0,随后结合Transformer提取出来的x3,x6,x9,x12,将这五个特征输入到U型网络中。

步骤4、将经过U型网络特征融合和优化的特征经过一个1×1的卷积层和Sigmoid函数输出检测图。

步骤5、对输出检测图的每个值进行二值处理输出灰度图,处理的公式如下:

步骤6、在灰度图中灰度值为1的区域为白色像素,对应位置上检测出为红外弱小目标。

步骤7、在灰度图中灰度值为0的区域为黑色像素,对应位置上为红外图像的背景。

步骤8、以上结果获得红外弱小目标mask掩码图。

本发明的有益效果:

目前主流的红外弱小目标检测算法都是基于目标设计的网络,没有考虑红外背景会干扰对目标的影响。本发明结合了深度学习领域的Transformer技术,利用Transformer的全局建模能力进行全局特征提取,深度提取红外图像小目标附近的背景信息,利用Transformer的全局学习能力学习背景信息,提升模型在复杂背景问题下的红外弱小目标检测鲁棒性,从而提高红外弱小目标的检测精度。针对小目标本发明使用U形网络,利用U形结构在不同深度层中寻找红外弱小目标,其中Transformer充当U型网络的编码器,CNN网络充当连接层和解码层。最后利用红外弱小目标信息和复杂背景信息检测出更加精确的红外弱小目标。

附图说明

图1(a)、1(b)分别为输入图像与mask掩码检测图;

图2为本发明得到的Transformer特征提取网络结构;

图3为本发明得到的U型网络特征融合网络结构;

图4为本发明得到的残差通道空间注意力网络结构;

图5为本发明的算法流程图。

具体实施方式

本实施例中没有详细说明的部分请参照发明内容的描述。

本实施例提供了一种基于Transformer的红外弱小目标检测模型的方法,如图5所示,具体步骤如下:

步骤1、对于一幅待处理的输入图像U,输入图像见图1(a)。

步骤2、将灰度图像转换成RBG图像,再转换成优化彩色视频信号图X。并将图X统一拉伸成形状为(3,256,256)的X0矩阵作为网络的输入。

步骤3、根据图2,使用步长等于宽的16*16卷积核将图像X0切块成Patch,每张图都会生成16*16=256个patch,铺平这些patch后此时数据的维度是(256,768),加上一个数据头patch后数据的维度是(257,768),再对每个patch加相应的位置编码,位置编码的维度和patch的维度相等,最总数据的维度是(257,768),再输入Transformer,经过3个Transformer Block块后输出X3,经过6个后输出X6,经过9个后输出X9,经过12个后输出X12。

步骤4、将特征图X3,X6,X9,X12去掉数据头,然后将256个Patch展开成二维图,将每个Patch放入最初对应的位置上,最后输出的数据的维度为(768,16,16),再和X0一起输入到U型网络中。

步骤5、在U型网络中,X0经过一层卷积后维度是(16,256,256),X3经过一层反卷积后维度是(32,128,128),X6经过一层反卷积后维度是(64,64,64),X9经过一层反卷积后维度是(128,32,32),X12经过一层卷积层后维度是(256,16,16),然后U型网络的每一层X先经过多个残差通道空间注意力网络进行特征提取,到末尾将特征和下一层深层次特征上采样进行特征融合和特征优化,根据图3所示后得到最后特征图(16,256,256),再经过1×1的卷积层和Sigmoid函数将数据映射到0和1之间后输出检测图维度为(1,256,256)。

步骤6、利用公式1,进行二值处理输出灰度级为2的检测图,处理后得到图1(b)。

步骤7、在灰度图中灰度值为1的区域为白色像素,对应位置上检测出红外弱小目标。

步骤8、在灰度图中灰度值为0的区域为黑色像素,对应位置上的红外图像为背景。

相关技术
  • 一种基于张量鲁棒主成分分析的红外弱小目标检测方法
  • 一种基于非凸秩逼近极小化的红外弱小目标检测方法
  • 一种基于加权截断核范数的红外弱小目标检测方法
  • 基于红外特性及空时显著性的红外弱小目标检测方法
  • 一种基于加权核范数最小化的红外弱小目标检测方法
技术分类

06120115918087