导航：首页> 工程元件或部件；为产生和保持机器或设备的有效运行的一般措施；一般绝热>一种基于数据增强的红外小目标检测方法及装置

一种基于数据增强的红外小目标检测方法及装置

文献发布时间：2024-04-18 20:01:30

技术领域

本发明涉及计算机应用技术领域，特别涉及一种使用生成模型进行红外小目标图像数据扩增，以提高检测的方法及装置。

背景技术

红外图像小目标检测技术一直是军事侦察和空间探索的研究热点之一。在实际应用中，由于目标本身尺寸较小或与检测器距离较远，图像中目标所占据的像素数量通常有限。同时，由于大气散射和吸收的影响，目标的亮度普遍较弱。这种典型目标通常称为红外小目标。其主要挑战在于缺乏足够的目标特征信息，包括目标的大小、形状、亮度和纹理等。此外，在现实场景中，虚警是一个难以解决的问题，主要由两个因素造成。一方面，复杂场景下不可避免地会出现森林、云层、建筑物等各种复杂的成像背景；它们的亮度可能超过真实目标，边缘杂波信息复杂，容易干扰检测。另一方面，红外图像相比可见光图像更难获取，使得传统目标检测模型难以在复杂场景下有效学习目标特征信息，这导致在新场景中出现假警报。

传统的红外小目标检测方法通常是模型驱动的方法，可分为基于滤波的方法、基于人类视觉的方法和基于图像稀疏性的方法。基于滤波器的方法算法设计简单，但只适用于单一和固定的场景，限制了其实用性。基于人类视觉的方法仅适用于目标与背景对比度明显的场景。当目标亮度接近周围背景时，目标容易被淹没，导致性能显著下降。基于图像稀疏性的方法对各种场景的适应性较强，但算法性能开销相对较大。近年来，随着深度学习技术的发展，数据驱动的红外小目标检测方法成为研究热点。通常使用CNN提取图像特征并迭代训练以定位和分割目标。使用数据驱动的深度学习方法获得良好检测结果的前提是拥有足够的训练数据。然而，由于技术和设备的限制、环境条件、隐私和安全问题以及数据共享的限制，红外图像的可用性极其有限。此外，收集大量的数据和人工标注样本需要大量的人力物力。

数据增强是提高红外小目标检测性能的重要手段之一。在计算机视觉领域，通过传统的仿射变换方法进行数据增强，如旋转、翻转、颜色转换和裁剪图像，是常用的方法。然而，传统的仿射变换在增强红外小目标图像时存在一定的局限性。它们可能导致信息丢失，无法模拟复杂的场景和条件，以及数据多样性不足。近年来，深度生成模型因其出色的数据拟合能力而受到广泛关注和研究。其中，GAN和扩散模型是最经典、应用最广泛的深度生成模型。与传统的数据增强方法相比，基于深度生成模型的方法可以学习数据的复杂底层分布，从而生成与原始数据不同但仍然可信的样本。深度生成模型可以生成具有不同形状、角度和光照条件的背景图像，以增强样本的多样性，更有利于在不同场景下模拟复杂环境。

但由于目标像素相对于整个图像的比例极小，直接使用生成模型学习图像的整体分布时，很难有效地学习小目标的分布信息。因此，大多数生成的图像不包含目标信息。而且当同时生成图像和目标时，需要重新标注生成图像中的目标，这是非常困难和耗时的。这是因为当目标较小时，人眼很难观察到需要标注的目标信息，导致标准错误，引入噪声数据。

发明内容

为了解决现有的技术问题，本发明提出了一种基于扩散模型和GAN混合数据增强的红外小目标检测方法和装置，以克服现有红外图像数据量少导致深度检测模型性能较差，以及没有有效且具有多样性的红外小目标图像扩增方法。本发明提出两阶段的红外小目标图像扩增方法，第一阶段先通过填充背景像素得到干净的背景图像(没有小目标)；然后，在干净背景图像的基础上，利用扩散模型生成新的背景图像；第二阶段提出一种基于GAN的目标融合网络实现与新背景图像的目标融合，并设计了一种新的对比损失作为生成器的额外损失；旨在使目标与生成的背景相协调，使目标适应背景环境。通过两阶段的增强方案，将复杂的红外小目标图像增强分解为两个相对简单的问题，并使得生成高质量的红外小目标图像成为可能。

为了解决上述技术问题，本发明采用的技术方案如下：一种基于数据增强的红外小目标检测方法，包括如下步骤，

步骤S1，选取训练集中红外小目标图像作为原始图像，进行图像预处理操作，去除小目标获取干净的红外背景图像，选取训练集中目标掩膜图像作为小目标掩膜图像库；

步骤S2，使用步骤S1得到的红外背景图像来训练去噪扩散概率模型，之后使用训练好的去噪扩散概率模型生成新的红外背景图像；

步骤S3，对干净的红外背景图像和小目标图像进行粗略的初始融合，然后将初始融合后的图像输入目标融合网络进行更细致的融合；

步骤S4，构建基于GAN的目标融合网络，包括一个生成器和一个鉴别器，生成器为U-Net模型，输入为步骤S3中得到的预融合图像，输出微调后的融合后红外小目标图像；鉴别器采用PatchGAN结构，输入为融合后的红外小目标图像或者原始训练集中的红外小目标图像，鉴别器将生成的融合图像判别为假，将原始红外小目标图像判别为真；

步骤S5，对目标融合网络进行对抗训练完成后，将去噪扩散概率模型生成的背景图像与真实小目标的掩膜图像进行步骤S3的预融合，得到的预融合图像作为生成器的输入，输出为新的红外小目标图像；

步骤S6，构建基于U-Net的红外小目标检测模型，包括具有跳跃连接的卷积编码器和解码器结构，输入为带有小目标的红外图像，包括原始训练集中的红外小目标图像和得到的新的红外小目标图像，输出为小目标掩膜。

进一步的，步骤S1中所述预处理为，采用基于快速行进方法的图像修复技术来进行背景填充，直接填充小目标区域对应的背景像素。

进一步的，步骤S2中去噪扩散模型训练过程分为前向加噪过程和逆向去噪过程，前向加噪过程将给定的初始红外背景图像

其中，

逆向去噪过程通过训练参数化高斯转移核来恢复受干扰的数据分布，通过构建一个具有

和/>

其中，

对于训练好的去噪扩散模型，通过随机采样高斯噪声输入模型中，使其生成更多的红外图像：

首先，随机采样标准正太分布的噪声；

然后，根据逆向过程逐步循环，在已知

对于

这样即能在已知随机噪声

进一步的，步骤S3中粗略的初始融合的具体实现方式如下：

首先得到小目标所在区域的背景图像

其中

最后将小目标的像素强度取值与背景图像整合得到预融合的图像：

。

进一步的，目标融合网络中的生成器G的输入是初始融合后的图像，即预融合图像

表示含有红外小目标的原始真实图像，/>

在生成器中加入了两个额外的损失函数，即重建损失和对比度损失，重建损失

表示样本数量；

对比度损失

其中

基于以上，目标融合网络中生成器的整体损失如下：

其中，

进一步的，U-Net模型包括编码器、瓶颈层以及解码器，编码器的第一个卷积块由一个卷积和一个LeakyReLU激活函数组成，而第二个到第五个卷积块由一个卷积、批量归一化和LeakyReLU激活函数组成；瓶颈层连接编码器和解码器，由卷积和整流线性单元组成，用于对输入进行降采样；解码器的第一个到第五个卷积块由转置卷积、批量归一化和校正线性单元组成，而输出层由转置卷积和Tanh函数组成；

鉴别器PatchGAN由4个卷积块组成，第一个卷积块的内核大小为4，并使用LeakyReLU激活函数，第二个和第三个卷积块由4x4卷积、BN和斜率为0.2的LeakyReLU组成，第四个卷积块是具有4x4卷积的输出层。

进一步的，目标检测模型中的编码器采用ResNet-18网络，编码器包括输入部分和4个下采样卷积层来获取高级语义信息，其中，输入层包括一个步幅为2的7x7卷积，和步幅为2的卷积核为3的最大池化层；之后连接4个下采样卷积层，每个下采样卷积层通过堆叠2个3x3卷积块来实现信息的提取，每个卷积块实际为一个残差块，输入数据分成两条路，一条路经过两个3x3卷积，另一条路直接短接，二者相加经过relu输出；

解码器对编码的特征进行上采样，包括4个解码层，每个解码层通过最近邻插值将图片分辨率放大，与编码层编码特征进行连接操作，然后一起进行3x3的等尺度卷积；最后解码层将特征放大到与原始图片相同分辨率时，进入分割层，经过一个3x3的卷积和一个sigmoid层，对小目标进行分割。

进一步的，目标检测模型的训练损失函数为Dice损失：

其中，

进一步的，还包括步骤S7，将步骤S5中扩增得到的红外小目标图像构成的数据集与原始训练集合并构成扩增后的数据集，用来训练步骤S6中的目标检测模型，同时使用原始训练集训练步骤S6中的目标检测模型，二者进行对比，选择三个评估指标来量化评估检测效果，包括交并比、检测概率和虚警率。

本发明还提供一种基于数据增强的红外小目标检测装置，包括如下模块：

预处理模块，用于选取训练集中红外小目标图像作为原始图像，进行图像预处理操作，去除小目标获取干净的红外背景图像，选取训练集中目标掩膜图像作为小目标掩膜图像库；

背景图像生成模块，用于使用干净红外背景图像来训练去噪扩散概率模型，之后使用训练好的去噪扩散概率模型生成新的红外背景图像；

目标预融合模块，用于对干净的红外背景图像和小目标图像进行粗略的初始融合，然后将初始融合后的图像输入目标融合网络进行更细致的融合；

目标融合网络构建模块，用于构建基于GAN的目标融合网络，包括一个生成器和一个鉴别器，生成器为U-Net模型，输入为预融合的图像，输出为微调后的融合红外小目标图像；鉴别器采用PatchGAN结构，输入为融合后的红外小目标图像或者训练集中原始的红外小目标图像，鉴别器将生成的融合图像判别为假，将原始红外小目标图像判别为真；

目标融合模型训练生成模块，用于对目标融合网络进行对抗训练完成后，将去噪扩散概率模型生成的背景图像与真实小目标的掩膜图像进行预融合，将预融合后得到的图像作为生成器的输入，输出为新的红外小目标图像；

目标检测器模型构建模块，用于构建基于U-Net的红外小目标检测模型，包括具有跳跃连接的卷积编码器和解码器结构，输入为带有小目标的红外图像，包括原始训练集中的红外小目标图像和得到的新的红外小目标图像，输出为小目标掩膜。

本发明提供的技术方案实施可带来的有益效益是：

1.本发明提出使用扩散模型和GAN模型进行红外小目标检测的数据增强，不仅可以有效的生成更多逼真的且更多样性的红外小目标图像，还使得扩增数据集训练后的检测模型检测效果提升。解决了目前红外小目标的采集和标注具有挑战性，导致数量无法满足具有良好检测性能的基于CNN的深度学习检测模型的需求。

2.本发明提出一种两阶段的红外小目标图像增强方案。第一个阶段是使用生成模型生成红外背景，第二阶段是通过目标融合网络将小目标融合到红外背景图像中。将目前直接使用生成模型生成红外小目标图像的复杂问题简化，通过分解为两个相对简单的问题，使得生成的红外小目标图像具有更高的质量。

3.本发明第一阶段使用的背景生成模型是流行的扩散模型，可以生成更复杂和多样化的红外背景图像，第二阶段设计了一种基于生成对抗网络(GAN)的目标自适应融合网络，实现更逼真的目标融合。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，其中：

图1是本发明方法的流程图。

图2是本发明实施例中去噪扩散模型训练过程的流程图。

图3是本发明实施例中去噪扩散模型的工作流程示意图。

图4是本发明实施例中基于GAN的目标融合网络框架示意图。

图5是本发明实施例中基于GAN的目标融合网络中U-Net生成器结构示意图。

图6是本发明实施例中基于GAN的目标融合网络中PatchGAN鉴别器结构示意图。

图7是本发明实施例中基于U-Net的红外目标图像检测器结构示意图。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图细说明。本发明实施例提供了基于数据增强的红外小目标检测方法和装置。

图1是根据实施例示出的基于数据增强的红外小目标检测方法的流程图，参照图1，该方法包括如下步骤：

步骤S2，使用步骤S1得到的红外背景图像来训练去噪扩散概率模型，之后使用训练好的去噪扩散概率模型生成新的红外背景图像；

步骤S3，首先对干净的红外背景图像和小目标图像进行粗略的初始融合，然后将初始融合后的图像输入目标融合网络进行更细致的融合；

步骤S4，构建基于GAN的目标融合网络，网络包括一个生成器和一个鉴别器。生成器为U-Net模型，包括编码器和解码器结构，输入为步骤S3中得到的预融合图像，编码器提取输入的背景和小目标信息，编码器和解码器结构采用跳跃连接机制，跳跃连接机制可以有效保留原始图像的背景信息，然后通过解码器生成背景与原始背景一致的、小目标更细化的、融合后的红外小目标图像。鉴别器采用PatchGAN结构，输入为生成的融合图像（即融合后的红外小目标图像）或者原始训练集中的红外小目标图像，经过多层卷积块，输出为一个矩阵，代表输入图像的局部区域，这样可以关注到小目标局部区域的像素值。鉴别器将生成的融合图像判别为假，将原始红外目标图像判别为真；

步骤S5，对目标融合网络进行对抗训练完成后，将去噪扩散概率模型生成的背景图像与真实小目标的掩膜图像进行步骤S3的预融合后得到的图像，作为生成器的输入，输出为新的红外小目标图像；

步骤S6，构建基于U-Net的红外小目标检测模型，包括具有跳跃连接的卷积编码器和解码器结构，输入为带有小目标的红外图像，包括原始训练集中的红外小目标图像和得到的新的红外小目标图像，输出为小目标掩膜。U-Net模型简单高效，可以从小数据集中训练，编码层提取全局图像特征信息，解码层通过上采样输出高分辨率特征，预测小目标信息；

步骤S7，将步骤S5中扩增得到的红外小目标图像构成的数据集与原始训练集合并构成扩增后的数据集，用来训练步骤S6中的目标检测模型，同时使用原始训练集训练步骤S6中的目标检测模型，二者进行对比，以实现扩增后检测模型的性能测试。

具体的，对于S1中的去除小目标操作，由于小目标区域较小，采用基于快速行进方法（FMM）的图像修复技术来进行背景填充，可以直接填充小目标区域对应的背景像素，并能保证与周围背景像素保持和谐。通过修复区域边界不断动态更新，往内推进，推进的同时修复各个边界上的离散像素点，直至修复整个区域位置，即根据到边界距离的远近以此修复。FMM对于小范围的图像缺失区域修复效果较好。

以修复当前点

表示像素值，/>

实际需要用邻域

就是权值函数，用来限定邻域中各像素的贡献大小。

具体的，对于步骤S2中的使用的去噪扩散模型，通过构造2条参数化马尔可夫链，通过预先设定的噪声处理过程将有序图像扩散为无序随机噪声，然后从噪声中恢复出所需的图像样本。正向过程是一个逐步添加噪声的过程。在前向过程的每一步中，在样本数据分布中添加高斯噪声。通过不断添加高斯噪声，将原始样本数据分布转化为简单的标准高斯分布。逆过程从标准高斯分布中采样噪声，并且在每一步，它都会去除较小的高斯噪声，逐步逼近真实的数据分布。去噪扩散模型训练完成后，可以通过随机采样高斯噪声来生成新样本。

具体的，如图2所示，对于步骤S2中去噪扩散模型具体训练包括：

S2.1：选取NUDT-SIRST中的不同背景（山林、天空）图像作为数据集。

S2.2：将数据划分为训练数据和测试数据。

S2.3：将训练数据中的红外背景图像加噪得到不同程度的加噪红外图像，输入到扩散模型中，模型预测添加的噪声，真实添加的噪声作为标签训练模型。S2.4：在训练过程中通过随机生成噪声输入模型，验证模型生成效果，不断优化网络结构参数，直至模型训练达到最优。

其中S2.3中模型训练过程具体为：

根据选定红外小目标图像的训练数据，使用FMM背景填充方法，去除小目标，获得不带有小目标的干净背景的红外图像。

将红外背景图像从

求出模型的输出值与真实添加噪声之间的误差，使用L2距离损失函数作为误差损失。

将误差传回网络中，更新模型各层的参数。

以此过程训练模型，观察模型对于随机噪声的降噪效果，直至模型训练效果达到最优。

对于步骤S2中去噪扩散模型训练过程的加噪前向过程和去噪的逆向过程如图3所示。其中前向过程为给定初始数据分布

其中，

逆向过程通过训练参数化高斯转移核来恢复受干扰的数据分布。通过构建一个具有

和/>

其中

对于步骤S2中训练好的扩散模型，通过随机采样高斯噪声输入模型中，使其生成更多的红外图像。

首先，

然后，从T~1开始逐步循环，在已知

对于

这样，就可以在已知随机噪声

具体的，对于步骤S3中粗略的初始融合是在图像输入GAN之前进行的预融合操作，以增强融合结果并加快训练过程。具体步骤如下，首先得到小目标所在区域的背景图像

其中

通过制定的策略，能够将混合后的小目标像素与目标区域的背景像素区分开来。将小目标的像素值设置为对应背景像素均值的1.5倍。考虑到当背景处于较暗区域时，即使是平均像素值的1.5倍也是一个相对较小的值，会导致混合后的小目标淹没在背景中。因此将阈值设置为0.2以突出目标。当小目标对应的背景区域像素均值大于0.66(将最大像素值1除以1.5)时，为了保证对比度，设定小目标的像素值为1。这只是融合前阶段，范围设置是基于在相关图像上测试得到的近似取值。

最后将小目标的像素强度取值与背景图像整合得到预融合的图像：

具体的，对于步骤S4中的构建基于GAN的目标融合网络框架如图4所示，通过对抗训练实现了目标融合。目标融合网络包括一个生成器和一个鉴别器，生成器G的输入是预融合图像

表示含有红外小目标的原始真实图像，/>

为了提高图像生成质量，更有效地增强对目标区域的融合效果，在生成器中加入了两个额外的损失函数，即重建损失和对比度损失。重建损失

表示样本数量。

对比度损失

其中

基于以上描述，本发明中目标融合网络中生成器的整体损失如下：

和/>

对于使用U-Net作为GAN模型的生成器，鉴别器采用PatchGAN结构。U-Net作为生成器，通过跳跃连接机制可以有效保留原始图像的背景信息，保证生成的背景与原始背景一致。由于目标融合的训练机制主要关注目标区域是否能与背景很好地融合，因此鉴别器应主要关注该区域的像素值。传统GANs通过提取全局图像特征来判别输入的真实性，不能有效关注融合区域的真实性。PatchGAN鉴别器的输出是一个矩阵，其中每个元素代表输入图像的一个局部区域，从而能够更有效地评估融合效果。

本发明提出的目标融合网络中的生成器结构如图5所示。由一个编码器和一个解码器组成，并使用跳跃连接来合并低级特征和高级特征。U-Net包括编码器、瓶颈层以及解码器。编码器的第一个卷积块由一个4x4卷积(Conv)和一个LeakyReLU组成，而第二个到第五个卷积块由一个4x4卷积、批量归一化(BN)和斜率为0.2的LeakyReLU组成。瓶颈层连接编码器和解码器，由4x4卷积和整流线性单元(ReLU)组成，用于对输入进行降采样，使网络能够专注于高级特征和空间关系。瓶颈层中保留的信息然后用于引导解码器部分的上采样过程，帮助以增强和相关的细节重建原始输入。解码器的第一个到第五个卷积块由4x4转置卷积(ConvTrans)、批量归一化(BN)和校正线性单元(ReLU)组成，而输出层由4x4转置卷积(ConvTrans)和Tanh函数组成。

对于PatchGAN鉴别器的结构如图6所示，由4个卷积块组成。第一个卷积块的内核大小为4，并使用LeakyReLU激活函数。第二个和第三个卷积块由4x4卷积、BN和斜率为0.2的LeakyReLU组成。第四个卷积块是具有4x4卷积的输出层。

具体的，对于步骤S6中构建的基于U-Net的红外小目标检测模型结构如图7所示，编码器采用ResNet-18网络，编码器包括输入部分和4个下采样卷积层来获取高级语义信息。其中，输入层包括一个步幅为2的7x7卷积(Conv)，和步幅为2的卷积核为3的最大池化层，能够有效降低特征的大小。之后连接4个下采样卷积层，每个下采样卷积层通过堆叠2个3x3卷积块来实现信息的提取，每个卷积块实际为一个残差块，输入数据分成两条路，一条路经过两个3x3卷积，另一条路直接短接，二者相加经过relu输出。残差连接可以将图像的低维特征与高维特征连接，有效解决深层网络退化问题。解码器对编码的特征进行上采样，包括4个解码层，每个解码层通过最近邻插值将图片分辨率放大，与编码层编码特征进行连接操作，然后一起进行3x3的等尺度卷积。向解码器中引入编码器提取的特征能够使高分辨率的特征信息参与到后续的解码环节，进而帮助解码器更好地复原目标的细节信息。最后解码层将特征放大到与原始图片相同分辨率时，进入分割层，经过一个3x3的卷积和一个sigmoid层，对小目标进行分割。

具体的，对于步骤S7中目标检测模型的训练损失函数为Dice损失：

其中，

进一步，步骤S7将扩增之后的训练集与原始训练集的训练效果进行了比较，选择了三个评估指标来量化评估基于UNet的检测模型的检测效果，包括交并比(IoU)、检测概率(Pd)和虚警率(Fa)。IoU用于衡量目标的轮廓描述能力，Pd和Fa侧重于衡量目标的定位能力。IoU是一个像素级评估指标，用于评估预测标签和真实标签之间的相似性。IoU是通过预测标签和真实标签的交集和并集的比率得到的。Pd表示正确预测的目标数量与总目标数量的比率。将预测目标的质心与真实目标的质心之间的距离小于预先设定的阈值定义为正确预测目标，将阈值设置为3。Fa表示错误预测像素与所有像素的比率。三个评价指标的具体公式如下:

其中

定性测试结果：实验结果表明使用扩散模型能够生成更多样性的背景，基于GAN的目标融合网络融合目标和背景具有很好的效果。将未经处理的掩膜图像直接与背景图像混合时，目标与背景之间存在明显的亮度差异。在真实红外小目标图像中，目标与背景的亮度差异不显著。融合方法处理后的数据能够更好地将目标融入背景。一方面，目标的亮度与背景相近，但不会淹没在背景中;另一方面，目标与背景之间没有明显的边界。基于此，先生成背景，然后进行目标融合得到的增强图像可以更好地用于模型训练。

定量测试结果：在基于NUDT-SIRST数据集上对3个评价指标进行检测模型的定量测试。该数据集包括红外目标的主要场景为野外环境、和云层，野外类别包括高亮和常规场景。基于NUDT-SIRST数据集构建了3个实验数据集:数据集1，仅包含野外背景；数据集2，只包含云背景；以及数据集3，包含野外背景和云背景的混合。数据集1由160个训练样本和40个测试样本组成，数据集2由200个训练样本和60个测试样本组成，数据集3由360个训练样本和100个测试样本组成。实验结果如表1所示，表格中的第三列表示仅在合成数据上训练的模型的检测结果，第四列表示仅在原始数据上训练的模型的检测结果。从第五列到第八列，更多的合成数据逐渐添加到原始数据中，用于训练模型。相比于在原始数据上训练的模型，加入合成数据可以有效提高模型的检测精度和定位能力。表中的结果表明，基于检测算法，增广数据的检测性能要高于仅使用原始数据的检测性能。从最优值和次优值的分布来看，最优值（加粗）和次优值（下划线）几乎总是同时出现在增广数据上。

表 1 在基于NUDT-SIRST数据集上IoU、Pd和Fa三个指标的定量扩增效果

本发明还提供一种基于数据增强的红外小目标检测装置，包括如下模块：

背景图像生成模块，用于使用干净红外背景图像来训练去噪扩散概率模型，之后使用训练好的去噪扩散概率模型生成新的红外背景图像；

目标预融合模块，用于对干净的红外背景图像和小目标图像进行粗略的初始融合，然后将初始融合后的图像输入目标融合网络进行更细致的融合；

各模块的具体实现方式与各步骤相同，本发明不予撰述。

本发明的保护范围并不限于上述的实施例，显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的范围和精神。倘若这些改动和变形属于本发明权利要求及其等同技术的范围内，则本发明的意图也包含这些改动和变形在内。

完整全部详细技术资料下载