掌桥专利:专业的专利平台
掌桥专利
首页

一种基于局部-全局Transformer网络的遥感图像变化检测方法

文献发布时间:2024-04-18 19:54:45


一种基于局部-全局Transformer网络的遥感图像变化检测方法

技术领域

本发明属于变化检测网络技术领域,特别是一种基于局部-全局Transformer网络的遥感图像变化检测方法。

背景技术

自然环境和人类生产活动的演变导致地表持续发生着变化,因此定期关注并及时发现土地覆盖的变化,对人与自然的和谐共生具有重要意义。遥感图像变化检测研究旨在利用在不同时期拍摄于同一地表区域的多时相遥感图像和地理空间数据来确定和分析地物的变化,包括地物的范围和状态的变化等,是实现地表观测的重要途径和手段。目前,该项技术已被广泛应用于城市规划、土地利用监测、农林业监测、自然灾害监测以及众多其他领域。

现有的基于深度学习的遥感图像变化检测方法大多依赖于卷积网络。由于卷积核的固有属性,卷积网络天然缺乏长距离依赖性建模的能力,这可能会限制卷积网络在变化检测领域的进一步发展。

近年来,一些工作已经开始利用非局部关系建模来有效地提取像素之间的全局关系。与基于卷积网络的变化检测方法相比,该方法能够充分利用任意像素之间的联系,使得有限的感受野不再是影响模型性能的关键因素。然而,大多数现有的非局部建模方法难以捕获多尺度特征之间的信息流。它们通常在网络末端级联一个非局部特征提取模块,却忽略了变化检测领域中一个更为关键的问题,即多尺度地理空间问题。

此外,变化区域的边界检测效果直接影响最终的检测精度。对于实际的航拍遥感图像,由于光谱变化或阴影遮挡,一些变化区域的具体边界变得难以界定。现有的变化检测算法通常采用U形结构来逐层捕获变化边界的细节信息。然而,这种方法不可避免地牺牲了模型设计上的灵活性。

发明内容

发明目的:本发明的目的在于克服现有方法的不足,提供一种基于局部-全局Transformer网络的遥感图像变化检测方法,解决了遥感图像变化检测准确率低的问题。

技术方案:本发明公开一种基于局部-全局Transformer网络的遥感图像变化检测方法,该方法包括以下步骤:

S1对多组图像样本数据进行预处理得到标准化的多组图像数据,所述每组图像样本数据包括双时相遥感图像,所述双时相遥感图像包含前时向遥感图像和后时相遥感图像;

S2将每组标准化的图像数据依次输入到局部-全局Transformer网络中,所述局部-全局Transformer网络包括图像块嵌入和主干网络,所述主干网络包括四个阶段,即第一阶段、第二阶段、第三阶段和第四阶段,将所述图像块嵌入后的前时向遥感图像和后时相遥感图像输入到第一阶段,且前面一阶段的输出作为后面一阶段的输入,每个阶段包括两个暹罗Transformer模型,其中第一个暹罗Transformer模型用于将自注意力的计算限制在局部窗口中以建模输入图像的局部像素关系,第二个暹罗Transformer模型用于对图像整体像素进行注意力计算以建模输入图像的全局像素关系,且每两个阶段之间存在图像块合并操作,即将特征图大小减半,通道数加倍;

S3对每阶段中前时向遥感图像的输出和后时相遥感图像的输出进行差分运算后输入到高频增强单元中,得到各个阶段变化区域边缘的高频特征;

S4将第二阶段、第三阶段和第四阶段的高频特征输入到多尺度融合注意力单元中,得到各阶段细粒度融合特征;

S5将第一阶段变化区域边缘的高频特征、第二阶段、第三阶段以及第三阶段得到的细粒度融合特征输入到深层特征引导单元,获得更加精细的检测图;

S6对深层特征引导单元的输出与第二阶段、第三阶段以及第三阶段得到的细粒度融合特征进行特征融合得到模型输出特征;

S7采用训练数据对上述模型进行模型训练后进行数据测试,进而得到最终的预测结果。

进一步的,包括:

所述第一阶段包括两个暹罗Transformer模型,且两个暹罗Transformer模型均用于将自注意力的计算限制在局部窗口中以建模输入图像的局部像素关系。

进一步的,包括:

所述图像块嵌入具体包括一个卷积核为4×4、步长为4的二维卷积,即双时相图像I

进一步的,包括:

所述暹罗Transformer模型包括两个权值共享的标准Transformer块,分别根据区域功能的不同分为令牌混合器和通道混合器,所述令牌混合器用于捕获双时相图像的空间特征表示,首先将双时相图像的特征对进行层归一化操作,然后经过线性变换得到三个输入特征Q,K,V,将三个输入特征输入到自注意力计算中,最后,通过双时相图像的特征的跳跃连接和自注意力计算的输出相加得到令牌混合器的输出特征,得到对应的输出特征;

所述通道混合器用于融合通道维度上的特征,首先将令牌混合器的输出特征进行归一化操作,后进入第一多层感知机中,进行深度卷积,并将深度卷积的结果与线性变换的结果进行激活函数的操作后输入到第二多层感知机中,第二多层感知机的输出特征与令牌混合器的输出特征进行相加得到通道混合器的输出特征Y,所述第一多层感知机与第二多层感知机均是线性变换。

进一步的,包括:

所述令牌混合器利用自注意力机制充分捕获图像全局空间特征关系,其数学表达式如公式(1)-(2)所示:

MHSA

其中,SA

X′

pos=T

Y=Φ

其中,X′

进一步的,包括:

所述高频增强单元包括:

输入特征X首先经过一个3×3卷积进行差分特征优化得到浅层差分特征E

具体表示为:

E

E

Y=W

其中,X表示输入特征,Y表示输出特征,E

进一步的,包括:

所述多尺度融合注意力单元包括第一路首先将三个输入特征分别进行1×1卷积,然后,利用重塑操作将三个二维图像特征转换成一维令牌序列,为了充分地交互多尺度令牌间的特征,一维令牌序列被沿着空间维度连接在一起,并经过N个多头自注意力连续地聚合不同尺度特征的空间关系;沿着空间维度分割多头自注意力的输出特征,然后通过重塑操作将一维令牌序列还原为二维图像特征,二维图像特征经过1×1卷积、批归一化和Sigmoid激活得到对应的注意力权重,另一路,利用平均池化和上采样将三个不同尺度的输入特征在三个不同空间维度进行融合得到三种粗粒度融合特征,然后这三种粗粒度融合特征经过3×3卷积、批归一化和ReLU激活函数进行优化,得到对应的校准特征,最后,利用对应的注意力权重对三个校准特征分别进行注意力加权计算,得到最终的细粒度融合特征。

进一步的,包括:

所述多尺度融合注意力单元表示为:

其中,

进一步的,包括:

所述深层特征引导单元包括将第二阶段、第三阶段以及第三阶段得到的细粒度融合特征进行尺度校准,得到校准后的深层融合特征,后与第一阶段变化区域边缘的高频特征进行交叉注意力计算,后经过1×1卷积、批归一化和Sigmoid激活得到对应的注意力权重,并且得到校准后的深层融合特征与第一阶段变化区域边缘的高频特征相加后,经过3×3卷积、批归一化和ReLU激活函数进行优化,得到对应的优化特征,最后,利用所述注意力权重和优化特征进行注意力加权计算,得到获得更加精细的检测图。

进一步的,包括:

所述深层特征引导单元表示为如公式(10)-(12)所示:

ReLU(BN(W

MHCA

其中,X

有益效果:本发明所述的方法在利用Transformer提取图像局部和全局特征的同时还考虑到了地物多尺度特征建模问题,该方法提出一种局部-全局暹罗Transformer作为主干网络来提取语义辨别性特征;首先,为了解决特征边界的严重的误检漏检问题,提出一种即插即用的高频增强单元来替代不够灵活的U形结构以优化检测边界;其次,针对地物多尺度建模问题,提出一种多尺度融合注意力单元,将多尺度信息流集成到自注意力的计算过程中;最后,利用深层特征引导单元来优化浅层细节特征信息,以得到精细化的检测结果。

附图说明

图1为本发明实施例所述的检测方法步骤流程图;

图2为本发明实施例所述的基于局部-全局Transformer网络的遥感图像变化检测模型的结构示意图;

图3为本发明实施例所述的暹罗Transformer网络的结构示意图;

图4为本发明实施例所述的高频增强单元的结构示意图;

图5为本发明实施例所述的多尺度融合注意力单元的结构示意图;

图6为本发明实施例所述的深层特征引导单元的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的说明。

本发明是公开一种基于局部-全局Transformer网络的遥感图像变化检测方法,首先,考虑到现有的变化检测方法由于严重依赖于CNN来提取特征,受限于卷积核感受野大小,这些方法往往难以有效捕获图像的长距离依赖性,因此本发明提出一种局部-全局Transformer作为主干网络同时兼顾双时相图像的局部特征和全局特征;其次,针对变化区域边界细节信息丢失问题和遥感地物多尺度特征建模问题,提出一种即插即用的高频增强单元和一种多尺度融合注意力单元;最后,提出一种深层特征引导单元利用深层抽象语义特征引导优化网络浅层的细粒度特征以实现更加精细的检测结果;上述内容统一于一个端到端的基于Transformer的遥感图像变化检测网络,无需繁琐复杂的分步训练过程。

如图1所示,本发明包括以下步骤:

步骤(1):输入一组双时相遥感图像为样本测试本发明算法。由于神经网络对数据分布非常敏感,因此首先对输入的双时相遥感图像进行数据预处理操作。为了方便后续进行批训练,所有的双时相遥感图像都被裁剪成统一的256×256像素大小;随机水平翻转、随机竖直翻转和随机0-180°旋转被用作数据增强手段以训练更强大的变化检测模型;在数据被馈送入模型之前,对双时相图像进行数据归一化步骤以得到标准化图像数据。

步骤(2):从步骤(1)获取标准化双时相遥感图像数据,构建基于局部-全局Transformer的主干网络以在特征提取阶段同时关注双时相遥感图像的局部高频特征和全局低频特征。

如图2所示,局部-全局Transformer网络总共分为四个阶段,图像特征每经过一个阶段,其尺度大小都会缩小一半,特征维度都会增大一倍,以此构建一种更加灵活的特征表达方式。具体来说,首先双时相图像I

它由两个暹罗Transformer构成,其中第一个将自注意力的计算限制在局部窗口中以建模图像的局部像素关系,第二个对图像整体像素进行注意力计算以建模全局像素关系。考虑到直接对网络浅层特征进行自注意力计算的成本较高,因此在第一阶段中只进行局部注意力。此外,每两个阶段之间存在图像块合并操作,将特征图大小减半,通道数加倍。

暹罗Transformer的结构示意图如图3所示,该模块由两个权值共享的标准Transformer块组成,每个Transformer块根据区域功能的不同分为令牌混合器和通道混合器。假设双时相图像的特征对表示为X

具体来说,对于令牌混合器,X

MHSA

其中,SA

对于通道混合器,其核心在于多层感知机,多层感知机由两个线性变换层和一个中间的激活函数构成,用于建模通道维度的特征关系。此外,为了解决Transformer对空间位置不敏感的问题,本发明将基于深度卷积的条件位置编码引入多层感知机。通道混合器的数学表达式如公式(3)-(5)所示:

X′

pos=T

Y=Φ

其中,X′

步骤(3):从步骤(2)获取双时相图像的局部特征和全局特征,利用差分代数运算得到差分图,构建高频增强单元、多尺度融合注意力单元和深层特征引导单元,并以此构建完整的基于局部-全局Transformer网络的遥感图像变化检测模型。

步骤(3.1):搭建高频增强单元。在变化检测任务中,变化区域边缘的检测效果对最终模型的性能指标有很大的影响。大多数现有的变化检测方法利用复杂的U型结构并结合注意力机制来细化变化区域边界,它们通常从全局视角优化特征,这对于边界信息建模缺乏针对性。此外,U型结构往往在网络设计上较为复杂。因此,本发明提出一种简单但有效的高频增强单元,利用自注意力机制以及前后特征间的关联来有效地提取变化区域边缘的高频特征信息。

如图4所示,假设输入特征表示为

E

E

Y=W

其中,X表示输入特征,Y表示输出特征,E

步骤(3.2):搭建多尺度融合注意力单元。遥感图像中存在着很多尺度大小各异的多种地物,因此,多尺度建模能力是衡量遥感图像变化检测模型的重要指标之一。现有的大多数变化检测算法通常采用多尺度卷积或池化、U型融合模块等方式来解决多尺度问题。和这些方法不同,本发明基于多头自注意力提出一种新的多尺度融合注意力单元,其结构示意图如图5所示。

该模块的输入特征来源于步骤(2)中局部-全局Transformer主干网络后三个阶段的输出,表示为

具体来说,首先沿着空间维度分割多头自注意力的输出特征,然后通过重塑操作将一维令牌序列还原为二维图像特征。二维图像特征经过1×1卷积、批归一化和Sigmoid激活得到注意力权重。为了更充分地聚合多尺度特征,本发明提出一种尺度校准操作,即利用平均池化和上采样将三个不同尺度的特征在三个不同空间维度进行融合得到三种粗粒度融合特征。然后,三个特征经过3×3卷积、批归一化和ReLU激活函数进行优化。最后,利用对应的注意力权重对三个特征分别进行注意力加权计算得到最终的细粒度融合特征,表示为

其中,

步骤(3.3):搭建深层特征引导单元。网络的浅层特征通常包含更多的细粒度信息,如纹理、颜色、边界等,另外还包含更多的背景干扰信息。网络的深层特征具有语义指向性,通常包含更抽象的语义信息。从这个角度来看,利用深层语义特征来引导浅层细节特征能够获得更好的检测精度。现有的工作已经将该想法融入模型设计中,但它们往往只考虑单一尺度下的深层语义特征。本发明提出一种新的深层特征引导单元,能够利用深层多尺度语义特征有效地优化浅层细粒度特征以获得更加精细的检测图,其结构示意图如图6所示。

整体结构和步骤(3.2)中的多尺度融合注意力单元有些相似。同样地,尺度校准操作被用于在阶段1的空间维度上对多尺度融合注意力单元的三个输出特征进行融合。为了将深层特征的语义信息迁移至浅层特征,类似的注意力加权机制被引入其中。不同的是,多头自注意力被多头交叉注意力所取代。

多头交叉注意力的输入同样为三个特征,分别表示为Q,K,

ReLU(BN(W

MHCA

其中,X

步骤(4):构建基于局部-全局Transformer网络的遥感图像变化检测模型,并利用标准化双时相图像数据进行模型训练。如图2所示为本发明提出的模型。本发明采用CDD、BTCDD、LEVIR-CD和Google四个二元遥感图像变化检测数据集进行实验,所有的实验都是基于Pytorch框架进行,配备一张英伟达TITAN RTX GPU。采用二元交叉熵作为训练损失函数,AdamW作为训练优化器,权重衰减系数为0.01,学习率为0.0001,批量大小设置为16,训练周期设置为200。最后,模型输出特征经过Sigmoid激活得到最终的预测结果,其所有的预测值都被压缩至0-1之间。其中,大于等于0.5阈值的像素值所在的区域被判定为变化区域(用白色表示),小于0.5阈值的像素值所在的区域被判定为无变化区域(用黑色表示)。

步骤(5):模型变化检测性能评估。由步骤(4)能够得到200个训练后的变化检测模型,根据精确率(PR)、召回率(RC)、F1分数(F1)、交并比(IoU)和总体准确率(OA)五个评价指标从这200个模型中挑选出最佳模型,并利用这五个评价指标对其进行性能评估。五个评价指标的数学表达式如公式(13)-(17)所示:

其中,TP、TN、FP和FN分别表示真阳、真阴、假阳和假阴。

通过实现本发明的模型,最终的变化检测精度得到较大的提升。本发明提出局部-全局Transformer作为主干网络对双时相遥感图像进行特征提取,有效地捕获到双时相图像的局部特征和全局特征;提出高频增强单元替代复杂的U型网络结构,以一种简单但高效的方式实现了对变化区域边界的高频特征的优化;提出多尺度融合注意力单元,利用多头自注意力机制充分地交互多尺度特征间的联系;最后,提出深层特征引导单元,基于多头交叉注意力机制用深层多尺度语义特征引导优化网络浅层的细粒度特征,实现更加精细化的检测结果。上述内容共同构成了本专利的基于局部-全局Transformer网络的遥感图像变化检测方法。

相关技术
  • 一种基于改进Transformer孪生网络的遥感图像变化检测方法
  • 基于多尺度语义标记Transformer网络的遥感图像变化检测方法
技术分类

06120116380488