掌桥专利:专业的专利平台
掌桥专利
首页

基于分层次跨尺度全局特征融合深度网络的遥感图像变化检测方法

文献发布时间:2024-04-18 20:02:18


基于分层次跨尺度全局特征融合深度网络的遥感图像变化检测方法

技术领域

本发明涉及遥感图像变化检测领域,具体为基于分层次跨尺度全局特征融合深度网络的遥感图像变化检测方法。

背景技术

遥感图像变化检测旨在比较不同时段同一区域图像差异并标记出变化区域,已广泛应用于城市扩张分析、灾害评估、植被覆盖检测等领域。目前,变化检测领域正经历以下挑战:首先,不同时期拍摄条件(如光照、季节等)可能导致双时相图像中具有相同语义信息的物体表现形式不同;然后,不变化区域及噪声的干扰往往会影响真实变化特征识别。

传统变化检测方法大致可分为三类:分别是基于图像算术、图像变换、后分类的方法。基于图像算术方法包括图像差分、图像比值、变化向量分析(Change Vector Analysis,CVA)等,这类算法使用相关算术(如减法或除法)得到特征图,然后通过分割阈值来区分变化与未变化信息。显然,分割阈值是这类方法的难点和关键点。基于图像变换方法包括主成分分析法(Principal Component Analysis,PCA)、多元变化检测法(MultivariateAlteration Detection,MAD)等。它们将图像转化到特定特征空间,通过突出变化区域并抑制未变化区域来提升变化检测精度。后分类方法首先对两个时相图像进行分类,然后对分类结果进行比较分析进而生成变化结果图。后分类方法准确性取决于分类精度,故其误差累积效应严重。

机器学习的发展在一定程度上提高了变化检测精度,如支持向量机(SupportingVector Machine,SVM)、随机森林(Random Forest,RF)等,但面对不同场景,机器学习方法选择、模型泛化能力都对实际应用形成挑战。

以卷积神经网络(Convolutional Neural Networks,CNN)为代表的深度学习方法展现出其强大特征提取方式和非线性表示能力,目前已被广泛应用于变化检测任务并表现出良好性能。这归咎于各种深度网络可突破变化噪声的表象干扰,挖掘感兴趣区域高级语义信息,进而实现目标智能识别。

根据特征图提取及融合方式,基于深度学习变化检测框架可以大致分为早期特征融合、晚期特征融合和多级特征融合(也称关联性融合)三大类。基于早期融合的变化检测深度网络在开始时便将输入成对图像级联起来,进行特征提取、编码、解码等操作以得到最终变化检测结果。基于晚期的变化检测网络往往采取双流结构分别提取原始图像深度特征,最终进行特征融合及像素分类。但是上述两种方法缺乏多尺度深度特征间层级交互和全局融合,这对变化检测高级语义信息提取会造成一定影响。

近期,更多研究工作致力于通过孪生神经网络结构提取深度信息,并融合对应层特征对以确定变化区域,这就是基于多级特征融合的变化检测方法。显然,该方法可将浅层特征(如目标纹理、角点、边缘等)和深层语义信息(如图像内容,语义概念)充分融合,缓解甚至消除不同特征层间语义鸿沟进而提升变化检测性能。

但是,目前一些工作倾向于研究同一尺度特征图间潜在关联关系;显然,不同尺度特征融合可以兼顾高级语义特征和图像分辨率,使得提取的特征信息更具识别力。诸多定量和可视化结果都表明,多尺度特征图之间关系挖掘仍有巨大研究空间。另一方面,现有多级特征融合方式往往采用较为简单的方式,即级联或相加。这种过分简单的融合模式很难跨越不同特征图间语义鸿沟,进而综合全面地提取有效信息。为此,一些研究工作基于注意力机制来识别双时相遥感图像发生的感兴趣变化。然而大多数现有方法只将注意力施加到每个时间段图像以增强其特征表示;亦或是简单地使用注意力机制在通道或空间维度中对双时态特征图重新加权融合。尽管这些操作都在固定邻域学到了特征图之间相关性,然而有限的采样范围使其无法对长距离信息进行关系建模。最近,一些研究通过自注意力机制实现了空间和时间范围内的上下文建模,有效提高了高分辨率遥感图像变化检测的全局性。

另外,大多数基于深度学习的变化检测网络仅仅在预测值和标签端采用损失函数监督模型,如交叉熵、骰子损失、对比损失及其简单的线性组合。然而通过测试发现,多层级地监督训练过程有利于模型收敛及检测性能的提升,故对模型全过程监督的深入研究非常有必要。

发明内容

在获取高级语义特征时,大部分变化检测算法未能充分考虑多级特征融合及长距离关系建模的重要性;另外,针对变化检测模型训练过程的深度监督方式亦不能忽视。针对上述问题,本发明提供了基于分层次跨尺度全局特征融合深度网络的遥感图像变化检测方法。

本发明是采用如下的技术方案实现的:基于分层次跨尺度全局特征融合深度网络的遥感图像变化检测方法,提出一种面向遥感图像变化检测的分层多尺度深度信息提取与融合模型框架,包括一个特征提取网络和同级差异特征增强模块SLDFEM、跨尺度邻级特征融合模块CSALFFM和基于Transformer的多尺度全局特征融合模块MSGFFM;

首先,将双时相遥感图像T

然后,将第i阶段成对特征

同时,把相邻特征张量

多尺度全局特征融合模块MSGFFM中利用Transformer解码器对上述增强的多尺度特征

最后,由网络检测头对Transformer解码器的输出F

上述的基于分层次跨尺度全局特征融合深度网络的遥感图像变化检测方法,同级差异特征增强模块SLDFEM中特征

对于第i层成对输入特征

对于

上述的基于分层次跨尺度全局特征融合深度网络的遥感图像变化检测方法,跨尺度邻级特征融合模块CSALFFM中特征

CSALFFM的输入为两组相邻特征对

其中,/>

最后,按照残差连接范式将

再对深层特征

其中,/>

最后,按照残差连接范式将

在充分融合相邻特征后,CSALFFM进一步提取其全局信息、显著信息和差异信息,并对其进行自注意力操作,充分挖掘当前相邻特征层潜在的高级语义信息,整个过程如下所示:

上述的基于分层次跨尺度全局特征融合深度网络的遥感图像变化检测方法,多尺度全局特征融合模块MSGFFM输出F

首先,大尺度特征

然后,将不同尺度的特征

其次,大尺度特征

如此,便可得到SLDFEM和CSALFFM提取的多尺度融合结果

最终输出/>

上述的基于分层次跨尺度全局特征融合深度网络的遥感图像变化检测方法,设计了主损失函数和辅助损失函数,

主损失函数如下所示:

L

L

L

,其中y代表真实标签,y′表示模型的预测值;

辅助损失函数如下所示:

其中Z

最终损失

L

这里λ

本发明方法首先搭建遥感图像变化检测成对分层次多尺度信息融合深度学习网络架构,旨在提取鲁棒性高级语义特征以辨识变化区域和未变化区域;然后,为实现双时相遥感图像相关信息增强,提出了双时相图像同层差异特征增强模块(the same-leveldifference feature enhancement module,SLDFEM)、跨尺度相邻层特征融合模块(cross-scale adjacent level feature fusion module,CSALFFM);其次,为进一步增强全局上下文信息关联性,本发明基于交叉注意力机制提取了双时相图像全局依赖关系,提出多尺度全局特征融合模块(multiscale global feature fusion module,MSGFFM);最后,本发明设计了全过程监督损失函数,加速模型收敛且缓解了梯度消失等问题。

附图说明

图1为分层跨尺度全局特征融合变化检测网络架构HCGFFNet的结构图。

图2为SLDFEM模块总体结构图。

图3为注意力模块示意图。

图4为跨尺度邻级特征融合模块CSALFFM结构图。

图5为多尺度全局特征融合模块MSGFFM结构图。

图6为不同方法在LEVIR-CD数据集上的检测结果图。

图7为不同方法在CDD数据集上的检测结果图。

图8为不同方法在SYSUCD数据集上的检测结果图。

图9为HCGFFNet在训练/验证集期间在LEVIR-CD上的收敛性和准确性示意图,其中(a)显示训练/验证集损失值的总体趋势,(b)显示训练/验证集F1分数的总体趋势。

图10为HCGFFNet关键模块的可视化示意图,每个热力图都是通过相应的特征张量同一通道元素相加并归一化生成,为了方便观察,每个可视化图像都通过双线性插值上采样到256x256。

具体实施方式

由于季节、光照、传感器等成像条件差异,以及地表场景复杂性,双时相遥感图像中具有相同语义信息的对象在不同时空往往会表现出不同特征。为了跨越此语义鸿沟,本发明提出一种遥感图像变化检测深度网络框架实现复杂场景下高级语义信息鲁棒性辨识,该模型充分利用了CNN局部特征提取能力及Transformer长距离关系建模。

A.总体架构

HCGFFNet网络结构如图1所示,直观上它采用了孪生卷积神经网络(SiameseConvolutional neural network,SCNN)架构,由一个特征提取网络和三个辅助模块(SLDFEM、CSALFFM、MSGFFM)组成。

HCGFFNet框架可以总结为算法1:

首先,将双时相遥感图像

然后,将第i阶段成对特征

同时,把相邻特征张量

接下来,利用Transformer对上述增强的多尺度特征进行细化和解码。Transformer解码器的输出

最后,由网络检测头生成变化结果预测值

B.同级差异特征增强模块

一般情况下,变化检测差异图是通过直接对双时相图像进行作差,然后经过一系列卷积、池化或注意力机制等操作来进行差异特征增强。但是,双时相图像中往往存在光照、阴影和未变化信息等噪声干扰,直接作差可能会造成错误信息积累,从而不利于区分变化检测目标。此外,由于孪生网络结构通过权重共享方式提取双时相图像高级语义特征,因此对于同级成对特征图中未变化区域应该具有相同语义特征,但由于噪声等因素影响,部分未变化区域在像素层面表现出较大差异,从而对最终变化检测造成干扰。

针对以上问题,本发明提出了同级差异特征增强模块SLDFEM来提高局部差分特征的深层语义表达,如图2所示。SLDFEM首先级联输入信息并从空间和通道方面进行特征增强,然后使用融合特征分别提取原图有效信息,最后通过元素级加减操作得到差异特征和显著特征,并利用交叉自注意力充分挖掘同级特征图有用信息。

如图2所示,对于第i层成对输入特征

整个S-CPAM过程可用如下公式表示:

其中,x表示为张量。

对于

整个注意力过程可用如下公式表示:

最终输出

上式中,W

C.跨尺度邻级特征融合模块

随着深度增加,网络所提取信息也从低层特征(如边缘、纹理等)逐步过渡到高级语义信息。针对遥感图像地物复杂性,强化特征图间相关性显然有利于模型理解变化特征语义信息。而纵观整个特征提取过程,显然相邻层特征图间相关性最强。受此启发,本发明提出跨尺度邻级特征融合模块(CSALFFM)用于提取相邻层特征图潜在的有用信息。

如图4所示,CSALFFM的输入为两组相邻特征对

整个过程如下所示:

其中,

同步地,由于深层特征感受野更广,故将其转化为通道权重可突出浅层特征有效信息。所以,对

整个过程如下所示:

最后,按照残差连接范式将

同理可得

在充分融合相邻特征后,CSALFFM进一步提取其全局信息(级联)、显著信息(相加)和差异信息(相减)。并对其进行自注意力操作,充分挖掘当前相邻特征层潜在的高级语义信息。

整个过程如下所示:

最终输出

D.多尺度全局特征融合模块

SLDFEM和CSALFFM两个模块分别提升了局部相关性和局部上下文信息。为了实现空间和语义信息的平衡并建立双时相图像的全局依赖关系,本发明提出了基于Transformer的多尺度全局特征融合模块(MSGFFM)。

针对SLDFEM和CSALFFM两个模块提取的多尺度特征,本发明拟采用Resnet网络残差块的范式对其进行融合及增强。

首先,大尺度特征通过逐级信息增强形式实现多尺度信息融合,如下式所示:

其中g

然后,将不同尺度的特征

其中C(·)表示级联函数,d

其次,大尺度特征再次通过逐级信息增强形式实现多尺度信息融合,

如此,便可得到SLDFEM和CSALFFM提取的多尺度融合结果

其中u

整个注意力过程可用如下公式表示:

最终输出

其中,

为了得到最终的变化检测结果PV,检测头对Transformer解码器的输出F

E.损失函数

一般情况下,变化检测损失函数往往只定位于网络末端,然而模型最终决策能力一般严重依赖于中间层特征表示水平。受此启发,本发明采用多层侧输出的策略设计主要损失函数和辅助损失函数。一方面可有效监督深度网络各层的特征学习,另一方面能在一定程度缓解训练过程梯度消失问题。

1)主要损失函数

变化检测固有问题是正负样本类不平衡问题。不论是哪个数据集,负样本(不变像素)数量几乎总是超过正样本(变化像素)数目。这会导致神经网络会忽略了对正样本的学习,转而去学习那些并不重要的负样本信息。为了解决这个问题,本发明主损失函数采用二值交叉熵(BCE)和骰子系数(DICE)线性组合的损失函数来指导网络训练过程。其中,二值交叉熵可以度量两个给定随机变量概率分布之间的差异;骰子系数则可以用来测试不同变量集合(此处为两个不同时段图像的像素)之间的相似性。

主损失函数如下所示:

L

L

L

其中y代表真实标签,y′表示模型的预测值。

2)辅助损失函数

为了监督深度网络中间层的特征学习,对每个融合模块后都设置了交叉熵损失函数。考虑到不同中间特征尺寸都不尽相同,为此通过下采样变化检测标签的方式作为中间层的样本。

辅助函数如下所示:

其中Z

3)最终损失

L

这里λ

实验验证

A.数据集

为了验证HCGFFNet的有效性,本发明在三个具有代表性的高分辨率遥感图像变化检测数据集(即LEVIR-CD、CDD和SYSUCD)上进行了实验。每个数据集由一张变化图和两张在同一地区不同时间拍摄的高分辨率遥感图像组成。三个数据集的详细情况如下:

LEVIR-CD数据集

LEVIR-CD数据集由637对大小为1024×1024的高分辨率遥感图像组成,这些图像来自于德克萨斯州几个城市的20个不同地区,空间分辨率为0.5米,主要变化类型为建筑物变化。实验中,将每张图像裁剪为256×256大小且不重叠的图像块,分别选取7120、1024、2048对图像用于训练、验证和测试。

CDD数据集

CDD数据集由16000对大小为256×256的图像组成,包含了10000对训练集,3000对验证集和3000对测试集。CDD的空间分辨率为0.3-1米,包含了建筑物、道路、车辆等不同对象的变化,并忽略了季节差异、亮度等因素引起的变化。

SYSUCD数据集

该数据集包含20000对2007年至2014年间在某地拍摄的256×256大小的0.5米航空影像。数据集中的主要变化类型包括:(a)新建城市建筑;(b)郊区扩张;(c)施工前的基础工作;(d)植被变化;(e)道路扩建;(f)海上建设。另外,将20000个图像对数据划分为训练集(10000对)、验证集(4000对)和测试集(4000对)。

B.实验参数

HCGFFNet使用单个NVIDIA RTX3090 GPU进行训练和测试。采用Adam优化器来改造模型,使初始学习率0.001线性衰减到0。此外,在每个训练周期后进行验证,并使用验证集上的最佳模型对测试集进行评估。本发明特征提取骨干网络层数M统一设置为5,第i层特征图层数

C.评价指标

为全面反映模型性能,采用精确度(P)、召回率(Re)、F1、总体准确率(OA)和平均交并比(mIoU)等5个指标对实验结果进行评估。上述各指标定义如下:

实验结果

A.对比方法

为了验证所提出的HCGFFNet的有效性,本发明选择几种先进变化检测方法进行比较,包括FC-EF、FC-Siam-conc、FC-Siam-diff、STANet、DTCDSCN、SRCDNet、MSPSNet、ChangeFormer和BiT。为了公平起见,在统一平台上使用其公开代码及默认超参数训练并测试了上述变化检测网络。关于数据集相关指标对比如表1所示;图6-8则展示了模型可视化比较结果。为了综合评价模型性能,选择了不同大小、不同数量的变化目标进行比较。

B.定量比较

表1不同算法在不同数据集的性能比较

*所有数值均表示百分比(%),另外,斜体、斜体加粗表示最佳、次佳,黑色加粗表示第3佳。

Optimum表示模型最优参数配置。

表1展示了3个数据集(LEVIR-CD,CDD,SYSUCD)整体性能指标对比结果。定量指标表明HCGFFNet经过正则项调优的模型几乎一致性地优于其它算法。比如F1、mIoU在3个数据集分别优于BIT模型2.29/0.98/4.42百分点,1.98/1.01/3.93百分点。此外,CNN backbone也只是用了resnet34,并没有涉及更加复杂的结构,比如resnet50、FPN和UneT等复杂结构。这可能得益于模型能融合多尺度时空信息,并能通过全局上下文信息建模增强模型特征表示能力。C.LEVIR-CD数据集上的结果与讨论

各方法在LEVIR-CD数据集上检测结果的视觉比较如图6所示。对于小目标很多算法都极易遭受漏检情况,比如FC-EF,FC-CONC,FC-iff,SRCD,MSPS,changeformer等。当变化检测目标为多个时,算法在边缘附近会遭受不同程度误检,尤其是STANet,SRCD。对于排列较为复杂和密集的建筑物来说,误检(MSPS、BiT、changeformer)和漏检(STANet、SRCD)的问题一般还是会出现在边缘附近。所以各个建筑物的边界是否完整且平滑能够直观反映模型性能。复杂场景也会时干扰一些算法的检测性能,如MSPS、BiT、changeformer。相对来说不论检测目标大小,HCGFFNet在目标完整性和边界精确度方面均表现出更优越的性能,这可能是由于本文模型充分融合了各个尺度信息导致的。

D.CDD数据集上的结果与讨论

在CDD数据集上的检测结果如图7所示。与其他两个数据集相比,CDD数据集场景更加复杂,变化区域受到干扰更大。另外,变化区域分布不均匀,变化目标种类、大小不一。从视觉上看,FC-Siam-conc、FC-Siam-diff和STANet总体上表现出明显的假阴性;MSPSNet和FC-Siam-conc在不同尺度上表现出一定的假阳性。FC-Siam-conc、FC-Siam-diff、MSPS、BiT和Changeformer等模型很容易丢失一些分布分散的小目标。对于较大的变化区域,许多方法在目标边缘呈现漏检(例如,FC-Siam-conc,FC-Siam-diff,MSPS等)或检测错误(例如,MSPS,STANet,FC-Siam-conc等)。相比之下,HCGFFNet对于检测范围更大的变化目标表现出更好的适应性。

E.SYSUCD数据集上的结果与讨论

图8展示了算法在SYSUCD数据集上的可视化变化检测结果。由于SYSUCD数据集中变化类型的数量和复杂性更大,与LEVIR-CD相比,一些模型变化检测性能相对较差。在类似照明条件下,FC-Siam-conc、FC-Siam-diff和DTCDNet的小目标区域存在明显的假阴性。对于较大的目标,场景复杂性导致检测到的目标边界受到不同程度影响。当受到光线干扰时,FC-Siam-conc、STANet、DTCDNet、SRCDNet、MSPS和BiT均表现出明显的假阳性,而FC-Siam-diff、STANet和ChangeFormer假阴性情况比较严重。总体而言,HCGFFNet检测出的变化区域边界清晰,假阳性和假阴性较少,对于检测变化种类更为丰富目标区域表现出更好的适应性。这可能是因为HCGFFNet可以通过多尺度特征融合提取高级语义信息,使模型拥有更好的鲁棒性。

F.正则化参数设置

表2:正则化系数的实验结果

*所有数值均表示百分比(%),黑色加粗表示最佳。

为了评估每个损失项的贡献,对超参数λ1、λ2和λ3进行了消融实验,实验结果见表2。对于LEVIR-CD数据集,不同权衡参数下模型总体性能差异较小。可见,交叉熵、骰子损失和深度监督辅助损失对模型和数据集的影响相对平衡。选择召回率最高的权重比(1:1:1)作为最优参数,其召回率比最差值高2.2%(90.6VS 88.4)。对于CDD,最佳参数配置(2:2:1)比较显著。其交叉熵和骰子损失的占比相同,均高于深度监督损失。同样,SYSUCD数据集的最优正则化系数配比为(2:2:3)。他们在综合指标评定方面(F1,mIoU)显然优于其他配置。这表明对于不同数据集,模型对于深度监督的要求程度是不同。

G.消融实验

如表3所示,进行了消融实验来验证模块的有效性。实验表明无论哪个数据集,每个模块都对提高模型性能做出了自己的贡献。

表3:模块消融实验

*所有数值均表示百分比(%),黑色加粗表示最佳。

H.收敛性分析

为了可视化训练过程,在LEVIR-CD上测试了HCGFFNet的收敛性和准确性。图9(a)表明,无论是测试集还是验证集,模型损失在前25个epoch内都迅速下降;验证集损失在100epoch后趋于稳定,表明HCGFFNet具有较好的收敛性。

同样,F1指标在前25个epoch内迅速上升,并且验证集在100个epoch后保持稳定。结果表明,HCGFFNet具有一定的收敛性、稳定性和有效性。这可能归因于HCGFFNet可以学习有效的多尺度特征和全局上下文信息,从而准确地表示检测到感兴趣变化区域。

为了更好地显示HCGFFNet在各阶段的学习效果,使用测试集中的一个样本来可视化HCGFFNet中各个阶段的热力图,通过热力图可以直观地解释网络各阶段对图像中变化目标的学习情况,可视化结果如图10所示。给定双时相图像,首先通过Resnet提取了由浅到深的多层次特征信息;然后本文设计的同级及相邻级特征融合模块则将注意力机制集中到了感兴趣变化区域,显然同级融合特征更加精细,而邻级融合特征尺度更加丰富,这充分体现了模块有效性;在特征解码阶段,Q展示了变化区域目标轮廓和位置信息,充分体现了变化检测的需求目标,而K和V则主要蕴含了变化区域可能存在的空间及高级语义信息。同时,解码阶段对未变化目标的关注也明显减少。总体来说,HCGFFNet在逐级有效学习语义特征以突出显示变化目标。

本发明提出了一种新的高分辨率遥感图像变化检测网络HCGFFNet。首先,HCGFFNet采用ResNet34作为骨干网络,充分提取双时相遥感图像多尺度局部特征;然后,本发明提出了SLDFEM,CSALFFM和MSGFFM等模块实现了多尺度的特征融合,并增强了全局上下文信息表示能力,最后引入辅助损失函数以监督中间层特征学习。实验方面,HCGFFNet在LEVIR-CD、CDD、SYSUCD等三个数据集上综合评价指标(F1、mIoU)和定性比较都获得了较好结果,这证明了HCGFFNet对于不同类型变化目标检测适应性较强。

技术分类

06120116581861