掌桥专利:专业的专利平台
掌桥专利
首页

一种基于改进Transformer孪生网络的遥感图像变化检测方法

文献发布时间:2023-06-19 19:30:30


一种基于改进Transformer孪生网络的遥感图像变化检测方法

技术领域

本发明涉及遥感图像处理与人工智能技术领域,具体为一种基于改进Transformer孪生网络的遥感图像变化检测方法。

背景技术

随着人工智能技术的兴起,特别是基于深度学习的图像识别方法获得了极大的发展,相关技术也推动了遥感领域的变革。CNN是近年来计算机视觉领域使用较多的网络结构,其具有很好地局部特征捕捉能力,但由于感受野较小,在全局上会丢失掉较多的信息。相对于CNN而言,Transformer网络是从自然语言处理领域移植到计算机视觉领域中的一项技术,得益于其自注意力机制,网络结构能够汇聚空间层面上的信息,最终获得更加丰富的语义信息,能够更好地保留全局信息。所以,将二者结合起来,能够达到捕捉局部特征的同时保留全局信息的目的。

传统的VIT中,网络实质上是用一个分类的token去学习整合transformer的特征的,然后依靠token进行分类预测的。本发明提出可以用少量的语义标签(semantictokens)去学习整合两张图片真正变化的部分和高维像素点代表的特征,然后用语义标签联合表示,那么网络即可以得到高效性和高性能。

同时,在CV下游任务中,任务精度往往与backbone的特征表达能力有关,虽然当今比较火热的Resnet18网络结构能够有效地解决网络退化以及梯度爆炸或消失等问题,但其串联结构简单,不能够很好地提取高分辨率的语义信息。针对该问题,本发明提出用更为高级的异构结构HRNet作为CNN主干网络,其并行提取特征的结构以及特殊的融合特征图机制使得能够在提取高维特征的同时保留丰富的空间信息。

由于遥感图像常受季节以及天气变化等外界因素的影响,两个时期的图片色彩差异通常较大,导致模型识别准确度下降。并且由于变化检测任务的特殊性,类别严重不平衡的问题时常发生,即变化类区域通常远少于未变化类区域,导致模型时常会识别出部分伪变化噪声点。为解决上述问题,本发明提出以改进Transformer孪生网络模型为基础,结合相应的图像预处理和后处理的高分辨率遥感图像变化检测方法。

发明内容

本发明的目的在于针对CNN模型对全局捕捉能力差的问题,提出一种基于改进Transformer孪生网络的方法,从而结合CNN和Transformer的优点,在捕捉局部特征的同时保留全局信息,从而达到更好地语义理解,有效提高了变化检测预测的准确率。而针对遥感图像易受天气、季节变化等原因的影响使模型预测准确率下降,采用直方图匹配的方式对图像进行预处理可以大幅减少此类因素带来的影响。在经过模型预测得到预测图后选择对其进行连通域滤波处理,可以进一步提升预测准确率,最终得到更加接近真实结果的预测图。

为实现上述目的,本发明提供如下方案,包含以下步骤:

步骤1:图像预处理,判断两幅不同时期的遥感图像I

步骤2:对图像进行直方图匹配处理,得到两幅处理过后图像,记作

步骤3:将I

步骤4:将X

步骤5:拼接语义标签T

步骤6:将T输入到Transformer编码器中,生成编码后的标签T

步骤7:对两个语义标签集T

步骤8:将高级语义信息表示映射到像素空间,获得像素级的特征,即将

步骤9:将特征图

步骤10:对预测变化图M进行连通域滤波处理,得到最终结果图M

通过以上步骤即可获得变化检测结果图。

步骤3的具体步骤如下:

步骤3-1:将I

步骤3-2:将卷积后的结果通过批归一化层和ReLU激活层让网络具有非线性表达能力;

步骤3-3:将上述输出通过4组Transition和Stage结构,不断增加尺度分支并进行特征融合,得到X

在步骤3-3中使用的上采样和下采样的具体实施方案是:对于所有的上采样模块,通过一个卷积核大小为1×1的卷积层然后通过批归一化层,最后通过Upsample直接放大n倍后即可得到上采样的结果。对于所有的下采样模块,每次Downsample缩小2倍后都要增加一个卷积核大小为3x3,步长为2的卷积层。

步骤4中使用卷积、注意力机制来获取semantic tokens。输入X

步骤8中的Transformer解码器包含了N

附图说明

图1为本发明方法原理图;

图2为基于改进Transformer孪生网络的结构示意图;

图3为Transformer编码器及解码器的结构示意图;

图4为本发明实施例的变化检测结果图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明中,除非另有明确的规定和限定,本文所使用的的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书所使用的的属于只是为了描述具体的实施例的目的,不是在于限制本申请。

本发明实施例提供了一种基于改进Transformer孪生网络的遥感图像变化检测方法,包括图像预处理过程、CNN主干网络、改进的Transformer、预测头以及图像后处理过程。如图1-4所示,一种基于改进Transformer孪生网络的遥感图像变化检测方法,包括如下步骤:

步骤1:图像预处理,判断两幅不同时期的遥感图像I

步骤2:对图像进行直方图匹配处理,得到两幅处理过后图像,记作

步骤3:如图1所示,将I

步骤3-1:将I

步骤3-2:将卷积后的结果通过批归一化层和ReLU激活层让网络具有非线性表达能力;

步骤3-3:将上述输出通过4组Transition和Stage结构,不断增加尺度分支并进行特征融合,得到X

步骤4:构造语义标记器,使用卷积、注意力机制来获取semantic tokens。输入X

步骤4-1:对于特征图X

步骤4-2:在HW维度上用softmax函数对每组语义信息计算,得到空间注意力特征图。softmax函数计算公式如下:

其中,z

步骤4-3:利用计算得到的注意力特征图去计算像素集合X

T

其中,φ(·)代表卷积核为

对于每一层l,自注意力机制的输入分别为queryQ,keyK,valueV,它们都是由

Q=T

K=T

V=T

其中,

其中,σ(·)代表在通道这一维度上使用的softmax函数。

Transformer编码器的核心思想是多头自注意力机制(MSA),多头自注意力机制的优点是其可以同时处理来自不同子空间的信息,并将不同的输出融合为最终值。多头自注意力的计算公式如下:

MSA(T

其中,

多层感知机(MLP)模块包含了两个线性变换层,并加入了GELU激活函数在这两个线性变换层之间,让其具有非线性表达能力。输入和输出的维度都是C,并且内置层的维度为2C。则多层感知机的计算公式如下:

MLP(T

其中,

步骤7:将T

步骤8:将高级语义信息表示映射到像素空间,获得像素级的特征,即将

其中,

步骤9:将特征图

步骤9-1:输入两幅经上采样后得到的特征图X

步骤9-2:计算预测变化概率图

P=σ(g(D))=σ(g(|X

其中,特征差异图像

步骤9-3:在通道维度上对P逐像素进行取最大值的操作,获得取值范围在[0,1]的像素级变化概率,再用阈值法将此值与阈值作对比,如果大于阈值(取0.5)则认为变化,小于阈值认为未变化。最终得到预测变化图M;

步骤10:对预测变化图M进行连通域滤波处理,得到最终结果图M

需要说明的是,步骤1、2是在网络已经完成训练后用于预测时所用的图像预处理方法,可明显降低因天气变化等原因造成图像风格差异大对模型预测精度带来的影响。但在模型训练阶段不使用该图像预处理方法,为了让模型具有更好地鲁棒性和泛化性,本发明采用以下数据增强方式进行模型的训练:

(1)随机裁剪(大小256x256)

(2)添加高斯噪声

(3)随机色彩变换

(4)几何变换:随机旋转、翻转

网络参数的训练方式为使用Cross Entropy Loss和Focal Loss以0.8:0.2的比例组成的混合损失函数结合真实变化结果图和预测变化图对网络进行评估并通过反向传播的方式训练网络参数。引入Focal Loss是为了解决变化检测任务中正负样本严重失衡的问题,即变化区域明显少于未变化区域的问题。Cross Entropy Loss的计算公式如下:

其中,l(P

/>

其中,

为便于本领域普通技术人员进一步了解本发明,进一步说明如下:在实施例中,采用由北京航空航天大学LEVIR团队在公开论文“C.Hao,and Z.Shi."A spatial-temporalattention-based method and a new dataset for remote sensing image changedetection."Remote Sensing 12.10(2020):1662.”中发表的遥感图像建筑变化检测数据集进行实验,该数据集包含637对像元分辨率为0.5米的高分辨率遥感图像训练样本,大小为1024x1024。每个样本包括前时向遥感图像,后时相遥感图像以及对应的变化标签图。由于所用GPU显存有限,为便于网络训练,将两组大图像分割为256x256的小图像组,并按7120/1024/2048的数量划分为训练集/验证集/测试集。

为验证本发明的遥感图像变化检测效果,本发明与4种现今前沿的深度学习变化检测技术进行对比。分别是全卷积孪生神经网络(FC-Siam-Conv)、基于双任务约束的孪生卷积神经网络(DTCDSCN)、时空注意力神经网络(STANet)、稠密链接网络(SNUNet)。采用5种在变化检测领域常用的定量指标来评估不同算法的性能,分别是精确率(precision)、召回率(recall)、交并比(IoU)、总体准确率(overall accuracy,OA)以及F1分数,计算公式分别如下:

OA=(TP+TN)/(TP+FN+TN+FP)

其中,TP,FP,FN分别代表判断为正,且实际为正、判断为正,实际为负和判断为负,实际为正的部分。表1给出不同变化检测算法在实验数据集上的5种定量指标结果。

表1不同变化检测算法结果的定量指标

对比其他变化检测算法,本发明在交并比、整体准确率和F1分数上均优于其他所有方法,可以证明本发明在遥感图像变化检测任务上的有效性。实施例的变化检测结果示例如图4所示。

为验证本发明提出的图像预处理(直方图匹配)和图像后处理(连通域滤波)的有效性,还进行了一组消融实验进行对比验证。表2给出了实验结果。

表2添加预处理和后处理的变化检测算法结果的定量指标

实验结果验证了本发明所使用的针对遥感图像变化检测图像预处理和后处理方法的有效性,能够减少天气等变化因素对模型识别精度的干扰,同时去除伪变化点,提升识别精度。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术分类

06120115935515