掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及模式识别领域,特别是一种基于混合空洞卷积的弱监督遥感目标检测方法。

背景技术

随着航空技术与计算机视觉技术的发展与结合,高空高分辨率光学遥感图像越来越容易获取,并且被应用在各个领域。作为遥感影像分析中一个基本的特征提取问题,学术界针对这一领域的研究已经有相当长时间的历史。具体而言,遥感影像目标检测的目标包括地面物体的定位和物体类别的分类。近年来,遥感影像目标检测领域的研究成果进展迅速,很多算法能够同时实现高精度的地面物体定位与识别工作。其中,大部分将图像特征和目标识别阶段分解为两个阶段,而根据所提取的特征类型,可以将遥感影像中的目标检测方法分为基于传统手工特征的方法和基于深度学习的方法。

传统的面向遥感图像的目标检测方法大致可以分为三个流程:首先利用滑动窗口选择待检测区域,然后对每个选取的区域进行特征提取,最终利用分类器如支持向量机判断该区域中包含的物体类别。然而传统方法面临着两个主要问题。一方面,滑动窗口对全幅图像进行了扫面,缺乏针对性并且时间复杂度较高,存在大量冗余的待提取特征的窗口。另一方面,由于遥感图像中包含的信息非常复杂,物体类别以及尺寸多样化,并且物体与背景如城市或森林的边缘差异不是十分明显,因此传统的基于图像处理与机器学习的手工特征提取算法无法提取物体的语义信息,对于遥感图像目标检测的鲁棒性较差。

基于深度学习的遥感图像目标检测方法实际上是一种端到端的模型,包含了一个完整的框架,框架同时包含了图像中物体的识别阶段和物体检测框的回归阶段。首先利用区域提取器可以生成多个包含潜在感兴趣物体的区域。然后,特征提取器提取这些感兴趣区域的特征。最终,根据提取到的特征,分类器生成感兴趣区域内物体的类别,同时位置估计器会对物体位置进行更加精确的预测。基于深度学习的方法考虑的是全局尺度的特征,并且利用全连接层的特征来细化候选框的位置和大小,对图像中物体的大小具有一定的鲁棒性,但对物体的尺度变化却缺乏天然的鲁棒性。因此,现有工作通常对多个尺度的特征图进行融合来解决这一问题,如特征金字塔网络(FPN)等。该类方法弥补了在提取高级语义特征过程中,低级视觉特征的丢失,有助于网络的特征学习。然而,该类方法一般对多尺度特征图进行分别预测,网络将变得非常复杂且不利于训练。

此外,遥感影像目标检测领域的另一个重要难题是标记数据集的缺乏,遥感技术的进步带来了大量的高分辨率数据,这些图像数据中同时包含着大量待检测的目标物体,手动对这些图像中物体的检测框进行逐一标记的话需要花费大量的人力与物力。

发明内容

发明目的:针对以上现有技术存在的问题和不足,本发明提出一种基于混合空洞卷积的弱监督遥感目标检测方法。本发明设计了一种新型的骨干网络,能够极大降低特征提取过程中的信息丢失,并引入通道注意力模块和多层池化模块对提取的特征进一步强化和融合。同时,采用弱监督学习的方式,可以在无需检测框级别的监督信息的条件下进行目标检测任务的训练,协同提高检测精度。

技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于混合空洞卷积的弱监督遥感目标检测方法,包括如下步骤:

(1)获取待检测的遥感图像数据集,按比例将数据集划分为训练集、验证集和测试集;

(2)利用混合空洞卷积构造无损残差网络,并使用其对遥感图像中的目标物体进行多尺度特征的提取,即低级视觉特征和高级语义特征,该网络可以使得感受野覆盖整个区域,避免边缘信息的丢失,直接提高了整个网络对遥感图像中多尺度目标的鲁棒性;

(3)将步骤(2)中提取的特征送入通道注意力模块,强化对目标检测任务有效的关键特征信息,并抑制无效的特征信息;

(4)将步骤(3)中强化后的特征送入级联多层池化模块进行特征融合,实现低级视觉特征与高级语义特征的进一步融合,融合后的特征作为特征提取网络的最终输出;

(5)将步骤(4)得到的最终特征送入协同检测模块,该模块具有多实例学习分支和检测框回归分支两个分支,其中,弱监督检测网络WSDDN作为多实例学习分支来生成伪标签信息,强监督检测网络Fast R-CNN作为检测框回归分支来实现更准确的目标定位,图中目标的检测类别概率及其检测框共同作为该模块的检测结果;

(6)根据步骤(5)的检测结果计算两个分支训练的一致性误差,通过梯度下降算法同时更新两者的权重参数,进行协同训练,并通过验证集测试检测精度,不断调整网络模型,直到精度满足预期;

(7)将训练完成的网络模型作为检测器,将测试集的特征输入检测器中进行检测,得到检测结果即为遥感图像中该类目标物体的概率及其检测框。

进一步地,在步骤(2)中,利用混合空洞卷积构造无损残差网络,并对遥感图像中目标进行无损的多尺度特征提取,方法如下:

(2.1)以ResNet-101为基础模型,在原始残差块中的标准3x3卷积后插入2个扩张率分别为2和5的3×3空洞卷积,形成一个扩张率为1,2,5的连续空洞卷积组合,从而构建了一个新的残差块,即无损残差块。此外,在无损残差块中添加了密集连接,即将每个空洞卷积层的输出与输入特征连接,然后被输入下一个空洞卷积层中,进而共享和重用有利于目标定位的底层特征。此处的ResNet-101是指深度为101层的残差网络。

(2.2)保留ResNet-101的前三个阶段,然后在第4和第5个阶段分别堆叠23个和 3个无损残差块,取代原来网络中的第4和第5个阶段。这样的堆叠结构能够在保持接收野大小不变的情况下提高信息利用率,有效增强远程信息之间的相关性,缓解网格效应;

(2.3)第4和第5个阶段保持与第3个阶段相同的输入通道数,即256个卷积核,并且移除下采样操作,使得输出特征图的分辨率保持在原始图像的1/8。

进一步地,在步骤(3)中,将步骤(2)提取的特征作为通道注意力模块的输入,强化与目标定位最为相关的特征表达,具体过程如下:

(3.1)对于步骤(2.3)中第5个阶段提取的特征

(3.2)将步骤(3.1)中得到的特征在通道维度上进行分解,分别得到C张特征图

(3.3)将通道注意力矩阵M和特征图f

进一步地,在步骤(4)中,将步骤(3)的输出特征送入级联多层池化模块,+实现不同层次的特征融合,方法如下:

(4.1)本模块采用具有6个不同内核大小(1x1,2x2,4x4,8x8,10x2,2x20)的池化层对步骤(3.3)中得到的特征F

(4.2)利用1x1卷积对步骤(4.1)所提取特征图的通道数量压缩至输入特征F

(4.3)将步骤(4.2)中得到中间特征C

(4.4)对步骤(2.3)中第2个阶段提取的特征F

进一步地,步骤(5)构建具有多实例学习分支和检测框回归分支的两阶段协同检测模块对训练集中的遥感图像进行训练及检测;具体过程如下:

(5.1)对于每一张训练或测试图像,使用选择性搜索算法(SSW)来生成2000个待检测目标的候选框,并将每个候选框映射至步骤(4)输出的最终特征F

(5.2)将步骤(5.1)中得到的池化特征接入两个全连接层,转化为所有候选框的特征向量,并分别送入两条不同的支路:一条支路根据候选框的内容输出目标物体属于各类别的概率;另一个支路根据候选框位置,输出候选框包含的各类目标物体的概率,每条支路均由一个全连接层和一个Softmax层构成,将两个支路的输出矩阵逐元素相乘,得到每一个候选框的类别标签,每一个候选框的类别标签的计算公式为:

上述公式中,P

(5.3)将所有候选框的类别标签相加,得到各类别目标物体的预测概率,作为整幅遥感图像的图像级预测标签,各类别目标物体的预测概率的计算公式为:

上述公式中,

上述公式中,y

(5.4)当步骤(5.3)中的损失超过一个阈值时,比如阈值设置为0.5,提取WSDDN 中高置信度的弱监督预测结果(即伪标签),作为真实标签提供与Fast R-CNN得到的强监督预测结果计算误差,进而实现更加精准的检测框回归。具体而言,

将步骤(4.4)得到的最终特征F

(5.5)使用联合损失函数来规范两个强弱监督检测网络的协同训练过程,得出最终的预测结果,具体过程如下:

1)获取WSDDN和Fast R-CNN在同一张遥感图像中的预测标签{(p

2)计算WSDDN对于每一个候选框的类别损失L

3)计算WSDDN与Fast R-CNN之间对于每一个候选区的类别损失L

4)对三部分损失进行加权求和,得到该协同检测网络的联合损失函数,具体公式如下:

上述公式,J

其中,IoU是两个区域重叠的部分除以两个区域的集合部分的值,

综上,协同检测模块的整个损失函数如下:

L

有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:

针对遥感数据标记量不足的问题,本发明设计了一种联合弱监督检测器和强监督检测器的端到端遥感目标检测网络,构建联合损失函数将两者协同训练,参数共享,同步提升,显著提高了仅使用图像级标签训练的性能;

针对遥感图像中目标尺度差异巨大的特点,本发明利用混合空洞卷积设计了一个新型骨干网络,极大减少了特征提取过程中的信息丢失,实现了感受野的全覆盖;在其后端接入了一个注意力模块和一个级联多层池化模块,有效地抑制了网络对尺度变化的敏感性,进一步提高了特征学习的能力。

针对Fast R-CNN的检测分支在边框回归阶段的不足,本发明定义了一种基于DIoU的多任务损失函数,能够提升边框回归的准确性及收敛速度。

附图说明

图1是本发明的训练流程图;

图2是本发明所用网络的结构图;

图3是本发明训练得到的检测结果示意图;

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种基于协同学习的弱监督遥感图像多目标检测方法,算法框架如图 1所示,包括如下步骤:

(1)获取待检测的遥感图像数据集,按比例将数据集划分为训练集、验证集和测试集;

本实施例所用的遥感图像数据为TGRS-HRRSD和DIOR数据集。其中, TGRS-HRRSD一共包含21761张来自谷歌地球以及百度地图的高空图像,包含13类共 55740个目标对象实例;DIOR包含了20类共23463张特挑的高空遥感图像,数据集中包含了一共192472个目标实例。

在本实施例中,采用了Pytorch框架,结合python语言进行编程实验,Pytorch可以看成一个拥有自动求导功能的强大的深度神经网络。数据集分为训练集、验证集和测试集,分别用来训练、验证和测试检测模型,基本信息如表1所示:

表1

(2)利用混合空洞卷积构造无损残差网络,对遥感图像中的目标进行无损的多尺度特征提取,方法如下:

(2.1)以ResNet-101为基础模型,在原始残差块中的标准3x3卷积后插入2个扩张率分别为2和5的3×3空洞卷积,形成一个扩张率为1,2,5的连续空洞卷积组合,从而构建了一个新的残差块,即无损残差块。此外,在无损残差块中添加了密集连接,即将每个空洞卷积层的输出与输入特征连接,然后被输入下一个空洞卷积层中,进而共享和重用对目标定位影响较大的底层特征。此处的ResNet-101是指深度为101层的残差网络。

(2.2)保留ResNet-101的前三个阶段,然后在第4和第5个阶段分别堆叠23个和 3个无损残差块,取代原来网络中的第4和第5个阶段。这样的堆叠结构能够在保持接收野大小不变的情况下提高信息利用率,有效增强远程信息之间的相关性,缓解网格效应。

(2.3)第4和第5个阶段保持与第3个阶段相同的输入通道数,即256个卷积核,并且移除下采样操作,使得输出特征图的分辨率保持在原始图像的1/8。

(3)将步骤(2)提取的特征作为通道注意力模块的输入,强化与目标定位最为相关的特征表达,方法如下:

(3.1)对于步骤(2)提取的特征

(3.2)将步骤(3.1)中得到的特征在通道维度上进行分解,分别得到C张特征图

(3.3)将通道注意力图M和特征图f

进一步地,步骤(3)的整体表达式如下:

其中,

(4)将步骤(3)中强化后的特征送入级联多层池化模块,实现不同层次的特征融合,方法如下:

(4.1)本模块采用具有6个不同内核大小(1x1,2x2,4x4,8x8,10x2,2x20)的池化层对步骤(3.3)中得到的特征F

(4.2)利用1x1卷积对步骤(4.1)所提取特征图的通道数量压缩至原输入通道的1/8,用于限制后续特征融合阶段全局特征的权重,得到中间特征 C

(4.3)将步骤(4.2)中得到中间特征C

(4.4)对步骤(2.3)中第2个阶段提取的特征F

进一步地,步骤(4)的整体表达式如下:

C

其中,P

(5)构建具有多实例学习分支和检测框回归分支的两阶段协同检测模块对训练集中的遥感图像进行训练及检测,方法如下:

(5.1)对于每一张训练或测试图像,使用选择性搜索算法(SSW)来生成2000个待检测目标的候选框,并将每个候选框映射至步骤(4)输出的最终特征F

(5.2)将步骤(5.1)中得到的池化特征接入两个全连接层,转化为所有候选框的特征向量,并分别送入两条不同的支路:一条支路根据候选框的内容输出目标物体属于各类别的概率;另一个支路根据候选框位置,输出候选框包含的各类目标物体的概率,每条支路均由一个全连接层和一个Softmax层构成,将两个支路的输出矩阵逐元素相乘,得到每一个候选框的类别标签。

(5.3)将所有候选框的类别标签相加,得到各类别目标物体的预测概率,作为整幅遥感图像的图像级预测标签,与真实标签的交叉熵作为WSDDN的损失函数。

(5.4)当步骤(5.3)中的损失超过一个阈值时,比如阈值设置为0.5,提取WSDDN 中高置信度的弱监督预测结果(即伪标签),作为真实标签提供给Fast R-CNN进行更加精准的检测框回归。具体而言,将步骤(4.4)得到的最终特征F

(5.5)使用联合损失函数来规范两个强弱监督检测网络的协同训练过程,得出最终的预测结果。

进一步地,步骤(5.2)中每一个候选框的类别标签的计算公式为:

上述公式中,P

进一步地,步骤(5.3)中各类别目标物体的预测概率的计算公式为:

上述公式中,

进一步地,WSDDN的损失函数定义为:

上述公式中,y

进一步地,步骤(5.5)中使用联合损失函数来规范两个强弱监督检测网络的协同训练过程,具体如下:

1)获取WSDDN和Fast R-CNN在同一张遥感图像中的预测标签{(p

2)计算WSDDN对于每一个候选框的类别损失L

3)计算WSDDN与Fast R-CNN之间对于每一个候选区的类别损失L

4)对三部分损失进行加权求和,得到该协同检测网络的联合损失函数,具体公式如下:

上述公式,J

进一步地,上述协同损失函数中的边框回归操作采用的是DIoU,其计算步骤如下:

其中,IoU是两个区域重叠的部分除以两个区域的集合部分的值,

进一步地,上述边框回归损失函数的计算公式如下:

进一步地,协同检测模块的整个损失函数如下:

L

本实施例对TGRS-HRRSD和DIOR两个数据集进行测试,部分检测结果如图3所示。从实验结果来看,本发明的检测精度明显优于目前其他弱监督检测模型,能够生成更加全面和紧凑的包围框预测结果。同时,在某些类别的检测上,与部分强监督检测模型相比也具有很大的竞争力。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

技术分类

06120112170665