掌桥专利:专业的专利平台
掌桥专利
首页

基于自注意力机制的遥感图像弱监督目标检测方法及系统

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及数字图像处理领域,特别涉及深度学习和弱监督目标检测技术领域,具体涉及一种基于自注意力机制的遥感图像弱监督目标检测方法及系统。

背景技术

标检测技术是一种根据图像特征找到图像中感兴趣的目标,并且确定出它们的位置和类别的技术。在深度学习兴起的今日,基于卷积神经网络的目标检测算法发展迅速,涌现出像Faster-RCNN、YOLOv3、SSD等具有带表型的算法。弱监督目标检测技术是利用图像级的标注(即真值标签仅给出待检测图像中存在哪些类别的目标,而不给出目标具体的位置信息)来对算法模型进行训练,并在测试阶段仍然能够给出感兴趣目标的位置和类别的技术。

现如今遥感数据呈爆炸式增长,而遥感图像的处理和利用能力并未与遥感数据量同步增长,遥感图像分析的自动化处理水平相对较低,获得的目标信息存在漏报、误报等现象,难以满足越来越高的实用要求。单独依靠专家判读难以从大量海洋背景可见光遥感图像中快速准确地发现有价值的信息,更难以实时生成情报,且图像数据量大,无失真传输过程费时且可靠性差。为了解决物体级标记难以获得的问题,基于弱监督学习的目标检测算法应运而生。

一方面,在进行人工标注时,进行图像级标注(如图1中左半部分)的难度远远低于物体级标注(如图1中右半部分),能够以更高的效率构建训练数据集。另一方面,由于搜索引擎的存在,人们甚至可以轻而易举地通过网络获取带有特定图像级标注的样本,进一步削减了构建数据集的工作量。因此,在实际应用中,基于弱监督学习的目标检测方法是更有应用前景的。

现有的主流弱监督目标检测技术是事先通过某种候选框提取算法在图像中提取出大量候选框,对每一个候选框提取出一个特征。然后利用多示例学习技术单独给每一个候选框所包含的特征打出类别和目标可能性的得分,得分高的候选框即为弱监督检测的输出结果。

然而,现有算法将所有候选框特征分开处理,并没有考虑到候选框特征之间的关系(比如两个候选框分别是同一个物体的一部分,那么这两个候选框具有相似的特征),没有利用到候选框间的信息。此外,对于图像来说,候选框的位置和大小信息也是判断其是否为目标的一个依据,而现有的弱监督算法并没有考虑到这方面所带来的额外先验信息。

发明内容

本发明的主要目的在于提出一种基于自注意力机制的遥感图像弱监督目标检测方法及系统,通过自注意力机制来对候选框之间的关系进行建模,从而为候选框伪标签的选择提供全局信息,进行从而解决弱监督目标检测算法处理遥感图像造成的小预测框主导问题。该方法将候选框自带的位置和大小信息作为特征的一部分与原有特征进行拼接,从而能够获得更丰富的信息,进而获得更好的检测结果。

为实现上述目的,本发明采取的技术方案为:

本发明实施例提供基于自注意力机制的遥感图像弱监督目标检测方法,包括:

S10、获取训练图像和带有的候选框,以及训练图像相对应的图像级标注信息;

S20、将训练图像、候选框及标注信息输入识别模型进行训练;所述识别模型包括:候选框簇学习模块和自注意力机制模块;所述自注意力机制模块包括:编码器模块和解码器模块;

S30、将待识别目标的图像与带有的候选框输入训练后的识别模型,依次经所述候选框簇学习模块、编码器模块和解码器模块,输出识别结果;所述识别结果包括:图像中对应的目标位置、大小和类别。

进一步地,在所述S30步骤中,所述编码器模块的编码流程如下:

对所述候选框簇学习模块输出的目标候选框,提取高维特征F∈R

根据所述高维特征的维度d、目标候选框的数量m,生成特征图M∈R

将所述特征图M通过不同的线性映射层映射为Q,K,V,获得新的自注意力特征图:

新的自注意力特征图M

进一步地,在所述S30步骤中,所述解码器模块的解码流程如下:

解码器模块的输入为一组学习获得的查询向量q∈R

将所述解码器模块的输入通过不同的线性映射层映射为Q’,K’,V’,获得对H矩阵的更新:

更新后的H

进一步地,在所述S30步骤中,输出识别结果,包括:

利用解码后的查询向量集H

进一步地,利用解码后的查询向量集H

H

H

进一步地,在所述S20步骤中,所述自注意力机制模块部分所用到的损失函数为:

L

其中,λ

L

L

L

第二方面,本发明实施例还提供一种基于自注意力机制的遥感图像弱监督目标检测系统,包括:

获取模块,用于获取训练图像和带有的候选框,以及训练图像相对应的图像级标注信息;

训练模块,用于将训练图像、候选框及标注信息输入识别模型进行训练;所述识别模型包括:候选框簇学习模块和自注意力机制模块;所述自注意力机制模块包括:编码器模块和解码器模块;

检测模块,用于将待识别目标的图像与带有的候选框输入训练后的识别模型,依次经所述候选框簇学习模块、编码器模块和解码器模块,输出识别结果;所述识别结果包括:图像中对应的目标位置、大小和类别。

与现有技术相比,本发明具有如下有益效果:

本发明实施例提供的基于自注意力机制的遥感图像弱监督目标检测方法,包括:获取训练图像和带有的候选框,以及训练图像相对应的图像级标注信息;将训练图像、候选框及标注信息输入识别模型进行训练;所述识别模型包括:候选框簇学习模块和自注意力机制模块;所述自注意力机制模块包括:编码器模块和解码器模块;将待识别目标的图像与带有的候选框输入训练后的识别模型,依次经所述候选框簇学习模块、编码器模块和解码器模块,输出识别结果;所述识别结果包括:图像中对应的目标位置、大小和类别。该方法的识别模型通过自注意力机制来对候选框之间的关系进行建模,并且将候选框自带的位置和大小信息作为特征的一部分与原有特征进行拼接,从而能够获得更丰富的信息,进而获得更好的检测结果。

附图说明

图1为现有技术的图像包含人工标注的示意图;

图2为本发明实施例提供的基于自注意力机制的遥感图像弱监督目标检测方法的流程图;

图3为本发明实施例提供的基识别模型的框架示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。

在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供的基于自注意力机制的遥感图像弱监督目标检测方法,如图1所示,包括:

S10、获取训练图像和带有的候选框,以及训练图像相对应的图像级标注信息;

S20、将训练图像、候选框及标注信息输入识别模型进行训练;所述识别模型包括:候选框簇学习模块和自注意力机制模块;所述自注意力机制模块包括:编码器模块和解码器模块;

S30、将待识别目标的图像与带有的候选框输入训练后的识别模型,依次经所述候选框簇学习模块、编码器模块和解码器模块,输出识别结果;所述识别结果包括:图像中对应的目标位置、大小和类别。

本实施例中,比如以识别航空母舰和攻击舰目标为例,首先获得需要进行目标识别的图像,输入到识别模型中,然后得到输出识别结果;其中,该识别模型包括:候选框簇学习模块和自注意力机制模块;自注意力机制模块包括:编码器模块和解码器模块。该识别结果,可以是该图像中不存在需要识别的航空母舰和/或攻击舰目标,也可以是识别到的航空母舰和/或攻击舰的位置、大小和类别。

上述步骤S20中的识别模型,是在现有弱监督候选框簇学习算法(ProposalCluster Learning for Weakly Supervised Object Detection,PCL)的基础上,通过构建一个额外的自注意力编解码器分支对候选框之间的关系进行建模,并且利用上候选框的大小和位置信息作为额外的先验知识,进而改进检测结果。

整体流程如图3所示:

1.编码器模块部分:

图3中,上半部分框部分为原本的PCL算法的框架,下半部分框内的部分为自注意力机制模块,属于改进分支。改进分支的输入为每一个候选框经过CNN和SPP层后提取出的高维特征经过线性层降维生成的F∈R

F

其中,d为降维后特征的维度,本实施例中,将d设置为128。与降维前的4096相比,利用降维后的特征进行计算大幅减小计算量,节省计算时间。对于一幅输入图像,通过候选框提取算法得到的候选框数量为m,则输入到编码器层的特征图为M∈R

将M输入到编码器层中,即可对候选框高维特征F之间的关系信息进行编码和学习,从而得到赋含候选框之间关系语义和位置大小信息程度的候选框特征。编码器层的结构是自注意力机制层,被广泛应用在计算机视觉领域,首先将M通过不同的线性映射层映射为Q,K,V,然后获得新的自注意力特征图:

连续经过三个自注意力机制层,即得到编码后的候选框特征图M

2.解码器模块部分:

图3中,解码器的输入为由一组学习获得的查询向量q∈R

同样连续经过三个自注意力机制层,便得到解码后的查询向量特征图H

3.预测部分:

利用解码后的查询向量集H

4.损失函数:

自注意力机制模块部分所用到的损失函数就是预测的结果集和PCL部分生成的伪标签真值结果之间的类别和检测框信息的差异,其中候选框位置信息使用的是L1损失函数,而类别信息使用的使Focal loss损失函数:

L

将两个损失函数有机结合即可获得这一部分的损失函数:

L

λ

b

L

利用该损失函数,即可使得自注意力机制模块能够获得预测目标类别的能力,利用该部分的反馈可以跟PCL部分一起对整个框架的特征提取部分进行联合训练,进而利用候选框之间的关联信息以及候选框自身的大小和位置信息来提高算法的检测性能,最终实现对目标的准确识别。

举例来说:采用基于自注意力机制模块的弱监督遥感图像目标检测方法对遥感图像进行目标检测。在实验部分,使用了公开的Worldview遥感舰船图像数据集。利用该数据集分割获得14252张遥感舰船图像,大小均为1024×1024,共包含4类56539个目标实例,其中类别为:航空母舰、两栖攻击舰、驱逐舰和其他舰船。实验中使用的评价指标为mAP和Corloc,其中mAP是在1650张测试集上测试,值越高代表检测结果越好;CorLoc是在12602张训练集上测试,值越高代表算法的训练效果越好。

表1本发明方法(Ours)同基准方法PCL的性mAP对比

表2本专利方法同基准方法PCL的CorLoc对比

从表中可以看出,本发明提供的方法在定量结果上,从在训练集上的CorLoc的结果可以看出,本发明提供的方法可以使得训练时寻找到更加精确的候选框,从而提升模型的训练效果。由于模型在训练时利用到了更加精准的候选框,检测指标mAP在不同IoU阈值下均优于基准算法PCL,体现了本发明提供的方法能够使得模型在测试集上获得更加准确的检测框。这两个表中的结果证明了本发明提供的方法的有效性以及弱监督目标检测算法在遥感领域的应用价值。

本发明提供的基于自注意力机制的遥感图像弱监督目标检测方法,通过识别模型对需要识别的图像进行检测,该识别模型打破了现有算法仅对单个候选框进行判别的局限性,利用自注意力机制模块提取候选框之间的关系信息来提升检测结果。并且增加候选框自身的大小和位置信息作为额外的信息,从而提升候选框的选择的准确性。进一步地,通过构建编解码器利用查询向量进行预测,将多示例分类问题转换为目标集的预测问题,利用整幅图像的信息提升提取网络的训练效果,进而有助于对目标的精准识别。

基于同一发明构思,本发明实施例还提供了一种基于自注意力机制的遥感图像弱监督目标检测系统,由于该系统所解决问题的原理与基于自注意力机制的遥感图像弱监督目标检测方法相似,因此该系统的实施可以参见前述方法的实施,重复之处不再赘述。

本发明实施例提供的基于自注意力机制的遥感图像弱监督目标检测系统,包括:

获取模块,用于获取训练图像和带有的候选框,以及训练图像相对应的图像级标注信息;

训练模块,用于将训练图像、候选框及标注信息输入识别模型进行训练;所述识别模型包括:候选框簇学习模块和自注意力机制模块;所述自注意力机制模块包括:编码器模块和解码器模块;

检测模块,用于将待识别目标的图像与带有的候选框输入训练后的识别模型,依次经所述候选框簇学习模块、编码器模块和解码器模块,输出识别结果;所述识别结果包括:图像中对应的目标位置、大小和类别。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

技术分类

06120114724107