掌桥专利:专业的专利平台
掌桥专利
首页

一种基于编解码结构的多模态遥感图像语义分割方法

文献发布时间:2023-06-19 19:30:30


一种基于编解码结构的多模态遥感图像语义分割方法

技术领域

本发明涉及图像处理方法,尤其涉及一种基于编解码结构的多模态遥感图像语义分割方法。

背景技术

近年来,深度卷积神经网络在语义分割等计算机视觉任务中展示了卓越的特征学习能力,并且在自然场景的分割任务中也取得了许多重大突破,但是与自然场景可见光图像不同,遥感图像具有复杂的光谱特征,并且目标多样、分布不均衡。仅利用可见光图像很难区分光谱特征相似的区域,高程信息的引入可以显著改善分类结果,如Audebert等人提出的V-Fusenet对遥感图像的光谱数据和DSM数据进行特征提取,并采用元素相加的方式进行融合,张文凯等人提出多源特征自适应融合网络MSFAFNet也显著提高了遥感图像的分割效果,但分割效果仍有提升空间。

可见光图像与高程数据的特征分布差异较大,简单的融合方式不能有效处理两种模态融合时的噪声,使得融合效果不佳。

发明内容

发明目的:本发明的目的是提供一种能融合遥感图像的多模态信息、改善遥感图像分割效果的基于编解码结构的多模态遥感图像语义分割方法。

技术方案:本发明的多模态遥感图像语义分割方法,包括步骤如下:

S1,获取包含可见光图像、DSM图像和标签图的遥感图像数据集,对遥感图像数据集进行预处理后,按照设定的比例划分为训练集、验证集和测试集;

S2,搭建基于编解码结构的多模态遥感图像语义分割网络;

S3,将训练集和验证集输入至多模态遥感图像语义分割网络中训练,计算交叉熵损失函数并进行反向传播,更新网络参数,获取最佳参数模型;

S4,将测试集输入到训练好的最佳参数模型中,输出遥感图像的精确分割图。

进一步,步骤S1中,将遥感图像数据集中的IRRG图、DSM图和标签图按顺序、同时裁剪为224×224大小的子图像;并将子图像数据集随机分为三个部分:训练集占80%,验证集占10%,测试集占10%。

进一步,步骤S2中,所述多模态遥感图像语义分割网络包括编码模块、模态融合块、全局特征提取模块和解码模块;

所述编码模块包括两个主干网络和Add模块,实现IRRG图像和DSM图像从低层细节特征到高层语义特征的分层特征提取和特征融合;

所述模态融合块通过卷积操作从空间和通道的角度重新校准IRRG图像和DSM图像的特征映射,将DSM图像应用到IRRG图像特征中,实现多模态特征融合;

所述全局特征提取模块通过卷积操作将全局上下文信息添加到所有位置来捕获远程依赖,实现全局特征提取;

所述解码模块完成上采样特征融合和恢复,实现网络对遥感图像的精准语义分割。

进一步,步骤S2中,所述多模态遥感图像语义分割网络的实现步骤如下:

S21,将IRRG图像和DSM图像分别输入编码模块,分别得到DSM特征图和融合后的IRRG特征图;

S22,将多模态特征图经过模态融合块处理后,得到融合多模态信息的特征图;

S23,将融合多模态信息的特征图经过全局特征提取模块处理后,得到具有更多深层信息的全局特征图;

S24,将全局特征图和融合后的IRRG特征图经过解码模块处理,得到遥感分割图。

进一步,步骤S23中,先对融合特征图进行两次卷积操作实现网络的深层特征提取,再采用Sigmoid函数获取全局像素权重,最后对融合特征图进行加权操作输出全局特征图。

进一步,步骤S3中,获取最佳参数模型的具体实现步骤如下:

S31,对遥感图像语义分割网络进行参数随机初始化,将训练集和验证集数据输入多模态遥感图像语义分割网络,生成遥感图像的语义分割概率图,计算交叉熵损失;

S32,交叉熵损失反向传播,更新网络参数,以损失函数最小作为优化目标,获取最佳参数模型并保存。

本发明与现有技术相比,其显著效果如下:

1、本发明的模态融合块从空间和通道角度捕获多模态特征之间的映射关系,动态的利用高程信息校准光谱特征,使DSM特征从空间和通道方向上对光谱特征进行强化,有效融合光谱特征和高程特征,同时避免冗余特征和过多噪声对图像分割产生影响,提高遥感图像分割效率;

2、本发明的全局特征提取模块对注意力机制进行改进,直接对全局上下文进行建模,从全局角度进一步提取深层语义信息,同时过滤多模态融合产生的冗余信息,进一步提高遥感图像分割准确率;

3、本发明采用多个解码器组成的解码模块,用高层特征对较高层特征进行加权,得到新的特征;再用新的特征对低层特征进行加权,使低层特征在上采样过程中不断获得高层特征丰富的指导信息,实现上采样信息充分恢复,提高遥感图像分割准确率。

附图说明

图1为本发明的流程示意图;

图2为本发明的多模态遥感图像语义分割模型结构图;

图3为本发明的编码模块的结构图;

图4为本发明的模态融合块的结构图;

图5为本发明的全局特征提取模块的结构图;

图6为本发明的解码模块的结构图;

图7中的(a)列为输入的DSM图像示意图,

(b)列为输入的IRRG图像示意图,

(c)列为输入的标签图,

(d)列为V-Fusenet网络的分割结果图,

(e)列为MSFAFNet网络的分割结果图,

(f)列为本发明的分割结果图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步详细描述。

本实施例提供的基于编解码结构的多模态遥感图像语义分割方法,如图1所示,包括以下步骤:

步骤1,获取Potsdam遥感图像数据集,包含可见光图像、DSM图像和对应标签图,对数据集进行预处理后按照设定的比例划分为训练集、验证集和测试集。

获取数据集、数据集预处理和划分数据集的具体实现如下:

获取数据集具体为:获取ISPRS中的Potsdam遥感数据集,包含IRRG图、DSM图和标签图,尺寸大小为6000×6000;

数据集预处理具体为:将Potsdam数据集中的IRRG图、DSM图和标签图按顺序同时裁剪为224×224大小的子图像,避免区域重叠;

划分数据集具体为:将224×224大小的数据集随机分为三个部分,其中训练集占80%,验证集占10%,测试集占10%。

步骤2,搭建基于编解码结构的多模态遥感图像语义分割网络,包括主干网络、Add模块、模态融合块、全局特征提取模块和由四个解码器组成的解码模块,其中主干网络和Add模块构成遥感图像语义分割网络的编码模块,如图2所示。多模态遥感图像语义分割网络的搭建步骤如下:

步骤21,将IRRG图像和DSM图像分别输入编码模块,得到多尺度、多层次的多模态特征图。编码模块主要由两个主干网络(其中,Block1至Block5为一个主干网络)和Add模块组成,两个主干网络主要由Vgg16的前五个阶段组成,Add模块表示通过元素级求和的方式进行融合,通过卷积、最大池化和Add操作,实现两种图像从低层细节特征到高层语义特征的分层特征提取和特征融合,如图3所示,具体为:先对IRRG图像和DSM图像进行Vgg16第一阶段中的卷积操作,再将DSM图像卷积后的特征图通过对应元素相加的方式与IRRG图像卷积后的特征图融合,再进行最大池化操作,实现图像第一阶段特征提取和特征融合,并输出原始输入图像1/2分辨率的DSM特征图和融合后的IRRG特征图,同理实现多模态图像第二阶段到第四阶段特征提取和特征融合并输出原始输入图像1/4、1/8和1/16分辨率的DSM特征图和融合后的IRRG特征图,最后对1/16分辨率的特征图进行Vgg16第五阶段的卷积操作,输出编码模块的最终DSM特征图和融合后的IRRG特征图,分辨率仍为原始输入图像的1/16。

步骤22,将经过步骤21中编码模块输出的多模态特征图经过模态融合块,得到融合多模态信息的特征图。模态融合块通过卷积操作从空间和通道的角度重新校准两个模态(指DSM图像和IRRG图像,一种图片的两种获取方式)的特征映射,合理地将DSM信息应用到IRRG特征中,实现多模态特征融合,如图4所示,具体为:先将两种模态的特征图进行级联操作,再对级联后的特征图分别进行降维、空间上的全局平均池化和全局最大池化操作,再对降维后的特征图进行空洞卷积操作,输出三个具有不同感受野的特征图,将一维的空间方向上的六个特征图进行级联操作,实现在空间方向上捕获依赖关系,接着对级联后的空间特征图进行升维操作获取全局依赖关系,最后将具有全局依赖关系的权重特征图与IRRG特征图相乘,从全局的角度针对特定的对象类别或者空间位置选择特定模态的特征信息,输出模态融合块的最终融合特征图。

步骤23,将经过步骤22中模态融合块输出的融合特征图经过全局特征提取模块,更好的提取融合特征图的深层全局特征,得到具有更多深层信息的全局特征图。全局特征提取模块通过卷积操作将全局上下文信息添加到所有位置来捕获远程依赖,实现全局特征提取,如图5所示,具体为:先对融合特征图进行两次卷积操作实现网络的深层特征提取,再采用Sigmoid函数获取全局像素权重,最后对融合特征图进行加权操作输出全局特征图。

步骤24,将经过步骤23中全局特征提取模块输出的全局特征图和经过步骤21中Add模块输出的融合后的IRRG特征图经过解码模块,得到精准的遥感分割图。解码模块与编码模块构成编解码结构,通过四个解码器逐步完成上采样特征融合和恢复,实现网络对遥感图像的精准语义分割,如图6所示,具体为:先将全局特征图、第五阶段融合后的IRRG特征图和第四阶段融合后的IRRG特征图作为第一个解码器的三个输入,分别称为最新特征、高级特征和低级特征,然后对最新特征进行通道方向上的全局平均池化和具有Sigmoid激活函数的卷积操作获得一个全局上下文向量,对高级特征进行三次卷积操作获取高级特征并与全局上下文向量进行加权组合,再将最新特征与加权后的高级特征相加,接着对相加后的特征图进行卷积获取特征信息,再经过全局平均池化和具有Sigmoid激活函数的卷积操作获取第二个全局上下文向量,对低级特征进行三次卷积操作获取低级特征并与第二个全局上下文向量进行加权组合,再将第一次相加后的特征图进行卷积输出的特征图经过上采样操作与加权后的低级特征相加,最后对第二次相加后的特征图进行卷积操作获得第一个解码器的输出,同理将第一个解码器的输出特征图、第四阶段融合后的IRRG特征图和第三阶段融合后的IRRG特征图作为最新特征、高级特征和低级特征输入到第二个解码器进行上采样特征融合和恢复运算,以此类推,第四个解码器的输入为第三个解码器的输出、第二阶段融合后的IRRG特征图和第一阶段融合后的IRRG特征图,最后输出遥感图像的精准分割图。

步骤3,将步骤1中经过预处理的训练集和验证集的遥感图像输入至步骤2中的遥感图像语义分割网络中训练,计算交叉熵损失函数并进行反向传播,更新网络参数,获取最佳参数模型。具体实现步骤如下:

步骤31,对遥感图像语义分割网络进行参数随机初始化,将步骤1中经过预处理的训练集和验证集数据输入至步骤2中的基于编解码结构的多模态遥感图像语义分割网络,生成遥感图像的语义分割概率图,计算交叉熵损失。

对遥感图像语义分割网络训练时使用的损失函数为交叉熵损失函数,交叉熵损失函数的计算公式为:

其中,y为真实的标签图,y

步骤32,交叉熵损失反向传播,更新网络参数,以损失函数最小作为优化目标,获取最佳参数模型并保存。

步骤4,将步骤1中经过预处理的测试集输入到步骤3中训练好的最佳参数模型中,输出遥感图像的精确分割图。

下面结合实施例提供的各模块的结构图进一步说明:

实施例提供的编码模块的结构如图3所示,编码模块采用了双分支的结构,主要由两个主干网络和Add模块组成,两个主干网络主要由Vgg16的前五个阶段组成,这种双分支分别对DSM图像和IRRG图像进行多尺度、多层次的特征提取,并且在对DSM提取的前四个阶段均与对IRRG提取的前四个阶段中相对应的特征层进行融合。

主干网络的第一、二个阶段由两层卷积层和一层最大池化层组成,第三、四个阶段由三个卷积层和一个最大池化层组成,第五个阶段由三个卷积层组成;卷积层进行卷积核大小为3×3,步长为1的卷积操作;最大池化层进行步长2的最大池化操作;Add模块在主干网络前四个阶段中的卷积之后通过对应元素之和的方式进行融合。

本实施例的编码模块的第一阶段,DSM图像和IRRG图像作为两个输入,首先将DSM图像通过3×3的卷积变为3通道,然后经过两个3×3的卷积进行DSM特征提取,同时IRRG图像经过两个3×3的卷积进行IRRG特征提取,接着将DSM的特征图元素对应加到IRRG特征图元素中,最后对卷积后的DSM图像和元素相加后的IRRG特征图进行最大池化,第一阶段输出的DSM特征图和IRRG特征图为原始输入图像分辨率的1/2。

第二阶段,将第一阶段输出的DSM特征图和IRRG特征图作为第二阶段的两个输入,特征提取过程与第一阶段相同,第二阶段输出的DSM特征图和IRRG特征图为原始输入图像分辨率的1/4。

第三阶段,第二阶段输出的DSM特征图和IRRG特征图作为第三阶段的两个输入,将DSM特征图和IRRG特征图经过三个3×3的卷积,分别进行DSM和IRRG特征提取,接着将DSM的特征图元素对应加到IRRG特征图元素中,最后对卷积后的DSM图像和元素相加后的IRRG特征图进行最大池化,第三阶段输出的DSM特征图和IRRG特征图为原始输入图像分辨率的1/8。

第四阶段,第三阶段输出的DSM特征图和IRRG特征图作为第四阶段的两个输入,特征提取过程与第三阶段相同,第四阶段输出的DSM特征图和IRRG特征图为原始输入图像分辨率的1/16。

第五阶段,第四阶段输出的DSM特征图和IRRG特征图作为第五阶段的两个输入,将DSM特征图和IRRG特征图经过三个3×3的卷积,第五阶段输出的DSM特征图和IRRG特征图仍为原始输入图像分辨率的1/16,即为编码模块输出的最终DSM特征图和最终IRRG特征图。

本实施例提供的模态融合块的结构如图4所示,模态融合块主要由级联层、卷积层和池化层组成。

本实施例提供的模态融合块将编码模块输出的DSM特征图和IRRG特征图作为输入,首先将两种模态的特征图经过级联操作,再对级联后的特征图分别进行空间全局平均池化、空间全局最大池化和降维操作,获得三个具有空间依赖关系的一维特征图,再对降维后的特征图经过三个空洞卷积操作,输出三个具有不同感受野且具有空间依赖关系的一维特征图,然后将具有空间依赖关系的六个一维特征图级联,接着对级联后的特征图进行升维操作并经过Sigmoid激活函数输出全局依赖权重,与输入的IRRG特征图相乘进行特征重校准,输出最终的融合特征图。

本实施例提供的全局特征提取模块的结构如图5所示,全局特征提取模块将模态融合块输出的融合特征图作为全局特征提取模块的输入,首先经过包含BN层和ReLU激活函数的3×3卷积进行特征提取,然后经过包含BN层和Sigmoid激活函数的3×3卷积再次进行特征提取并获取全局像素权重,与输入的融合特征图相乘输出具有更多深层信息的全局特征图。

本实施例提供的解码模块的结构如图6所示,解码模块和图3的编码模块构成编解码结构,由四个解码器组成;

本实施例提供的解码模块的解码器,主要由卷积层、池化层、上采样层、加权操作和求和操作组成。

本实施例提供的解码模块的第一个解码器,将全局特征提取模块输出的全局特征图和编码模块中第五阶段和第四阶段输出的IRRG特征图作为输入,分别称为最新特征、高级特征和低级特征,主要分为两个部分,第一部分,首先对最新特征进行全局平均池化操作获得第一个具有通道关系的特征图,再经过具有Sigmoid激活函数的1×1卷积获得第一个全局上下文向量,然后将高级特征经过三次3×3的卷积进行高级特征提取,并与第一个全局上下文向量进行加权组合,最后加权之后的特征图与输入的最新特征进行对应元素相加,获得第一部分输出的第一次加权特征图;第二部分,首先将第一部分输出的第一次加权特征图经过3×3卷积进行特征校准和特征提取,再进行全局平均池化操作获得第二个具有通道关系的特征图,然后经过具有Sigmoid激活函数的1×1卷积获得第二个全局上下文向量,接着将低级特征经过三次3×3的卷积进行低级特征提取,并与第二个全局上下文向量进行加权组合,最后加权之后的特征图与第一次加权特征图经过3×3卷积后的特征图经过上采样得到的特征图进行对应元素相加,获得第二部分输出的第二次加权特征图,最后对第二次加权特征图经过3×3的卷积操作进行特征校准和特征提取,即为第一个解码器的输出特征图;

第二个解码器,将第一个解码器的输出特征图和编码模块中第四阶段和第三阶段输出的IRRG特征图作为输入,分别称为最新特征、高级特征和低级特征,主要分为两个部分,由于第一个解码器中的低级特征输入变为第二个解码器的高级特征输入,所以第二个解码器的第一部分中对高级特征进行三次3×3的卷积操作可以由第一编码器的第二部分中对低级特征进行三次3×3的卷积操作代替,减少重复操作并降低参数量,其余运算与第一个解码器相同;

第三个解码器,将第二个解码器的输出特征图和编码模块中第三阶段和第二阶段输出的IRRG特征图作为输入,分别称为最新特征、高级特征和低级特征,运算与第二个解码器相同;

第四个解码器,将第三个解码器的输出特征图和编码模块中第二阶段和第一阶段输出的IRRG特征图作为输入,分别称为最新特征、高级特征和低级特征,主要分为两个部分,第二部分中最后的3×3的卷积操作输出最后的遥感图像语义分割图,其余运算与第三个解码器相同。

本实施例编码部分的主干网络采用在ImageNet上训练的VGG16。使用随机梯度下降法对各模型进行训练,初始学习率设为0.01,动量为0.9,权重衰减为0.0005,批量大小为16。实施例提供的基于编解码结构的多模态遥感图像语义分割方法的结果比较见表1所示:

表1多模态遥感图像语义分割方法的结果对比表

为了证明本实施例提供的基于编解码结构的多模态遥感图像语义分割方法的有效性,使用Potsdam遥感数据对模型进行训练、验证和测试,从表1和图7中的(a)列-(f)列可知,本实施例的各评价指标均高于现有分割网络,且分割效果与遥感标签最为接近。

相关技术
  • 一种基于多模态注意与自适应融合的遥感图像语义分割方法
  • 一种基于多模态数据融合的遥感图像语义分割方法
技术分类

06120115930943