鲁棒的多模态遥感图像目标检测方法

文献发布时间：2023-06-19 11:45:49

技术领域

本发明属于图像信息处理技术领域，特别是涉及多模态图像目标检测的方法。

背景技术

目前，与本专利相关的方法包括两方面：第一是基于深度学习的目标检测算法；第二是知识蒸馏的深度学习算法。

基于深度学习的目标检测方法主要分为两类：两阶段的目标检测算法，这种大多设计特定的网络结构用于提取可能是目标的区域，Ren等人在文献《Faster R-CNN:TowardsReal-Time Object Detection with Region Proposal Networks》中提出的网络就设计了一个用于提取可能是目标区域的RPN网络，然后再将这些区域进行分类，有了特定的区域进行辅助，因此精度较高，但也存在检测速度较慢的问题；一阶段目标检测网络，则没有提取感兴趣区域的网络结构，为提升网络准确度，大量学者采取了众多的研究，Redmon等人在文献《You Only Look Once: Unified,Real-Time Object Detection》采用将图像分块的方法，将目标检测的任务分给图像块，Lin等人在《Focal Loss for Dense ObjectDetection》中解决了一阶段网络样本不平衡的问题，提升了网络的检测准确度。由于一阶段网络抛弃了提取感兴趣区域这一计算过程，因此与二阶段的网络相比有着更快的目标检测速度，但是抛弃提取感兴趣的区域，也不可避免地导致了目标检测准确度的下降。

知识蒸馏的深度学习算法，Hinton等人在文献《Distilling the Knowledge in aNeural Network》提出，该方法提出目的是将复杂的教师模型知识压缩到一个简单轻量的学生模型中，从而提升轻量模型的性能。即通过将数据送入一个预训练好的教师模型中产生软标签来训练学生模型。虽然最初的设想是通过匹配预测将复杂的模型压缩为更简单的模型，但是蒸馏将这一做法进一步扩展到匹配中间层特征，域间知识迁移等诸多方面。

针对于多模态图像的目标检测，解决该问题的一种常见的方法是利用图像融合的方式，将不同模态的图像融合为一张图像送入网络进行检测。这就要求在同一场景下三种模态的图像是同时存在的，这一要求在大部分情境下都难以满足，因此也难以使用该方法检测。

发明内容

针对同一场景下无法获得三种模态图像的问题，提出了一种基于知识蒸馏的鲁棒的多模态遥感图像目标检测方法。它可以适用于不同种类的输入源图像，均可以得到较好的预测结果。它将一系列为不同模态图像专门设计的目标检测器的知识进行归纳综合，并形成一个鲁棒的单一网络。

本发明的技术方案：

一种鲁棒的多模态遥感图像目标检测方法，步骤如下：

采用三种模态的图像分别训练三个目标检测器；

采用ResNet50作为三个目标检测器的骨干网络来提取用于目标检测的特征；

在网络训练阶段，三个目标检测器的损失函数相同，差异在于输入的数据，对于任一一个目标检测器的损失函数说明如下：由于一张图像中仅有少量目标，直接利用交叉熵计算每个位置的损失函数会导致正样本的损失值被负样本的损失值“淹没”影响网络对正样本特征的学习，所以我们利用Facol Loss损失函数来平衡正负样本对应的损失函数值：

其中，N

利用如下损失函数来监督网络：

其中N

L＝L

其中，ε用于平衡两种任务的损失，L

三个目标检测器进行知识蒸馏得到一个鲁棒的网络

我们提出了一个基于知识蒸馏的多模态遥感目标检测任务的归纳方法，它集成了多个源数据集上专门训练出来的不同目标检测网络的知识，是利用多个来自多个源的目标检测器强化后的模型。因此，我们仅仅使用一个单一模态目标检测网络，就可以完成对任意输入源图像进行预测。知识蒸馏的目的是将复杂的教师模型知识压缩到一个简单轻量的学生模型中。它们通过将数据送入一个预训练好的教师模型中产生软标签来训练学生模型。虽然最初的设想是通过匹配预测将复杂的模型压缩为更简单的模型，但是蒸馏将这一做法进一步扩展到匹配中间层特征，域间知识迁移等诸多方面。

学生网络根据输入选取对应的老师网络进行学习，三种模态的图像知识蒸馏的过程类似，因此我们仅对一种模态进行说明。这里假设我们拥有数据集 {a

其中，L

其中w

其中，y

即，我们认为当学生和教师模型预测误差超过一定范围了，我们对真值采用L2 损失。此处的教师模型的预测作为一个判断标准而非直接使用。其中，m是判别边界参数。使用教师的中间表现可以帮助学生模型的训练过程，并提高学生的最终表现.因此，我们分别在学生网络的中间层和末端层特征进行约束。我们使用学生和教师模型的L2距离进行约束，特征约束损失描述如下：

其中,F

其中λ

本发明的有益效果：本发明的多模态遥感图像目标检测方法利用了知识蒸馏的方式，目前常见的图像融合方式的算法在训练和推断时需要同一场景下的一组多模态图像，而这一需求一般难以满足。而本发明的方法不存在这个问题，仅利用不对齐的(同一场景下的多个模态图像无需同时存在)多模态的图像便可以得到一个对多个模态遥感图像鲁棒的目标检测网络。

附图说明

图1为三个目标检测器的训练方法流程图。

图2为三个目标检测器训练完成后，进行知识蒸馏的过程流程图，其中老师 1，老师2，老师3代表图一中训练的三个目标检测器。

图3为三个目标检测器的网络结构示意图。

图4为知识蒸馏过程示意图，由于模态二和三的知识蒸馏过程与模态一类似，为简洁地表达，图中仅表示了模态一的图像蒸馏的过程。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

图1为三个目标检测器的训练方法流程图，先搭建三个结构相同的(如图3所示)目标检测器，然后在模态1、2、3的数据上分别训练三个对应目标检测器：目标检测器1，目标检测器2和目标检测器3。三个目标检测器均利用式(1-4) 作为损失函数进行监督，当某一个目标检测器的损失函数收敛时结束该目标检测器的训练。待三个目标检测器均结束训练，本过程结束。经过这一过程，我们可以得到三个在对应模态数据上性能良好的目标检测器(老师网络)。

图2为知识蒸馏的过程流程图。对于网络训练的数据，我们先判断其模态：当训练图像来自模态1，学生网络则跟随老师1(目标检测器1)学习；当训练图像来自模态2，学生网络则跟随老师2(目标检测器2)学习；当训练图像来自模态3，学生网络则跟随老师3(目标检测器3)来学习；由于三个模态的学习过程是相同的，因此我们以模态1为例来说明具体过程，当输入的是一幅模态1的遥感图像时，将其同时输入老师网络(目标检测器1)和学生网络，利用式(1-9)来让学生网络输出和老师网络类似的特征，利用(1-7)和(1-8)来对学生网络预测结果分别与教师网络结果和真值之间进行约束，待上述损失在三个模态的遥感图像上均收敛时，即式(1-10)在三个模态的遥感图像上收敛时，本过程结束，得到的学生网络就是一个对三种模态鲁棒的模型。

总的来说，本方法设计了一种基于知识蒸馏的鲁棒的多模态遥感图像目标检测方法，可以有效的针对多模态的遥感图像进行目标检测。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：赵文达;解世赓;姚力波;
专利申请人：大连理工大学;

上一篇：梁柱混合框架节点、预制混凝土梁的制备方法及其施工方法
下一篇：一种自动化打磨抛光石板的加工机及其使用方法