掌桥专利:专业的专利平台
掌桥专利
首页

一种基于串联注意力模块和并联注意力模块的建筑物分割系统及方法

文献发布时间:2023-06-19 18:27:32


一种基于串联注意力模块和并联注意力模块的建筑物分割系统及方法

技术领域

本发明涉及图像处理技术领域,具体为一种基于串联注意力模块和并联 注意力模块的建筑物分割系统及方法。

背景技术

进入二十一世纪以来,随着无人机技术的日渐成熟,航拍图像已经成为 研究的重点。航拍图像可以为人们难以进入或非侵入式进入的区域提供有价 值的信息。而在航拍图像分析中,建筑物分割具有重要的地位。建筑物作为 人类生存和活动的主要聚集地,在社会发展和人类进步的过程中占据着重要 的地位。而且因近年来我国正处于城市化的高速发展过程中,建筑物数量与 日俱增。建筑物分割在各方面都有较大的应用。例如,建筑废料体积估计, 需要通过无人机航拍的图像,精准的分割出建筑物,根据分割结果预估该建 筑物的废料体积;旧城改造,需要把整块区域的建筑物分割出来形成整体布 局;城市规划,不仅需要建筑物分割准确,还需要能够在三维上直观的总览 全局。因此,需要设计一种能够自动根据输入二维图像精准分割建筑物的算 法。

图像分割是图像处理中的一项重要技术,并且在工业、医学、军事等诸 多领域都得到了广泛的应用。图像分割就是把图像中具有特殊意义或者属于 相同类别的不同区域分割开来,每一个区域都有自己的意义。因此我们提出 了基于串联注意力模块和并联注意力模块的建筑物分割系统及方法。

发明内容

针对现有技术的不足,本发明提供了一种基于串联注意力模块和并联注 意力模块的建筑物分割系统及方法,解决了上述背景技术中提出的问题。

为实现以上目的,本发明通过以下技术方案予以实现:一种基于串联注 意力模块和并联注意力模块的建筑物分割系统,包括图像获取模块、样本构 建模块与图像分割模型;所述图像分割模型包括编码器、跳过连接单元与解 码器;所述跳过连接单元包括串联注意力模块;所述串联注意力模块包括通 道注意模块与空间注意模块;所述解码器包括并联注意力模块,所述并联注 意力模块包括空间注意力模块与通道注意力模块;

所述串联注意力模块接收卷积层输出的特征,先经过通道注意块根据各 个通道的重要性来重新分配权重,首先输入特征通过最大池化层和平均池化 层生成两个空间尺寸为1×1的向量,因为只关注通道中的要素,所以这两种 池化层均将输入特征压缩到通道统计信息中,两个向量都被输送到卷积块以 进一步生成通道注意力图,卷积块由两个卷积层和一个ReLU函数组成,为了 减少参数降低运算消耗,第一个卷积层的输出通道降为输入通道的1/16,第 二个卷积层的输出通道数恢复原大小,为了汇总特征执行求和操作合并两个 通道注意力图,再经过Sigmoid激活函数来输出通道的得分图;通过空间注 意块保留完整的特征图的同时压缩通道从而实现关注空间信息的效果,在通 道维度上执行最大池化和平均池化,生成两个通道数为1的特征图,拼接两 个特征图并应用卷积层在减小通道数的同时生成空间注意图,通过Sigmoid 激活函数将每个像素的分类概率归一化为[0,1],根据特征的概率分数图,重 新缩放输入特征以选择性地增强感兴趣的特征,达到解决建筑物边界模糊的 效果;

所述并联注意力模块接收串联注意力模块和输出的特征,引入低级特征 和高级特征,利用高级特征指导低级特征选择,并从空间和通道双维度选择 了更多具有辨别力的特征,所述通道注意力模块旨在改变每个通道中特征的 权重来增强特征的一致性,在通道维度上合并高级特征与低级特征形成新的 特征图,这有利于对特征进行有效利用,为了达到只关注通道中特征的效果, 采用全局平均池化将输入特征压缩,为了恢复特征图通道数,利用第一个1 ×1的卷积把合并后的通道数恢复为原大小,接着ReLU函数进行激活,利用 第二个1×1的卷积生成特征图,再经过sigmoid函数生成特征得分图,再将 分数图重新缩放回低级特征,利用高级特征的得分图指导低阶特征选择通道 上权重更大的有效特征,最终将选择出的低级特征和高级特征进行求和操作 输出,接着经过空间注意机制,高级特征首先通过1×1的卷积层,目的是对 通道数降维将注意力集中在空间特征上,并通过使用sigmoid函数生成分数 图将其归一化为[0,1],对分数图逐元素的计算熵得分图,并与低级特征相乘, 对低级特征分配熵得分图的权重,将高级特征与加权的低级特征进行求和以进一步处理。

可选的,所述通道注意块的设计原理是根据各个通道的重要性来重新分 配权重,输入特征通过最大池化层和平均池化层生成两个空间尺寸为1×1的 向量,因为只关注通道中的要素,所以这两种池化层均将输入特征压缩到通 道统计信息中,两个向量都被输送到卷积块以进一步生成通道注意力图,卷 积块由两个卷积层和一个ReLU函数组成,为了减少参数降低运算消耗,第一 个卷积层的输出通道降为输入通道的1/16,第二个卷积层的输出通道数恢复 原大小,为了汇总特征执行求和操作合并两个通道注意力图,再经过Sigmoid 激活函数来输出通道的得分图,在输入特征和通道得分图之间执行逐元素乘 法,公式可以表示;

y

式中,e

可选的,所述空间注意块的原理是在保留完整的特征图的同时压缩通道 从而实现关注空间信息的效果,详细结构如图2的下半部所示,首先在通道 维度上执行最大池化和平均池化,生成两个通道数为1的特征图,然后拼接 两个特征图并应用卷积层在减小通道数的同时生成空间注意图,通过Sigmoid 激活函数将每个像素的分类概率归一化为[0,1],根据特征的概率分数图,重 新缩放输入特征以选择性地增强感兴趣的特征,达到解决建筑物边界模糊的 效果。

可选的,所述通道注意力模块旨在改变每个通道中特征的权重来增强特 征的一致性,首先在通道维度上合并高级特征与低级特征形成新的特征图, 这有利于对特征进行有效利用,为了达到只关注通道中特征的效果,采用全 局平均池化将输入特征压缩到通道统计中,的第个通道可以通过以 下公式计算:

其中x

可选的,所述空间注意机制的高级特征首先通过1×1的卷积层,目的是 对通道数降维将注意力集中在空间特征上,并通过使用sigmoid函数生成分 数图将其归一化为[0,1],然后,对分数图逐元素的计算熵得分图,并与低级 特征相乘,对低级特征分配熵得分图的权重,之后,将高级特征与加权的低 级特征进行求和以进一步处理,值得注意的是,熵得分图在建筑物提取任务 中与建筑物边界有很强的关系,因此空间注意力机制可以为建筑物边界分割 带来好处,特别是结合整体二进制交叉熵损失来训练分割网络。

可选的,所述并联注意力模块接收串联注意力模块输出的特征以及前一 并联注意力模块输出的特征,以串联注意力模块输出的特征为低级特征,以 前一并联注意力模块的特征为高级特征。

可选的,N个所述并联注意力模块中,按照数据传递方向,每个并联注意 力模型前还连接有一个反卷积层。

可选的,种基于串联注意力模块和并联注意力模块的建筑物分割方法, 其特征在于:包括以下步骤:

步骤S1、获取带标签的遥感图像,经过切分成合适的尺寸来适配机器的 性能,同时将图像分为训练集和测试集;

步骤S2、构建损失函数,并对原始损失函数做出改进,利用所述训练集 优化图像分割模型;

步骤S3、利用优化后的图像分割模型处理待分割的遥感图像,输出分割 后得到的建筑物图。

可选的,所述步骤S2利用训练集优化图像分割模型,基于所述训练集, 采用随机梯度下降法优化图像分割模型。

可选的,所述构建损失函数,包括:

L=(1-W)×H-W×logIOU

式中,L为所构建的损失函数,W为权重系数,H为二进制交叉损失函数, IOU为平均IOU,指两个区域的重叠区域在两个区域中所占比例;

其中,二进制交叉损失函数H的公式如下:

其中,n为遥感图像的数量,y

平均IOU的计算公式如下:

其中,mean IOU为平均IOU,TP表示正确的正样本的数量,FP表示正确 的负样本的数量,FN表示错误的负样本的数量。

本发明提供了一种基于串联注意力模块和并联注意力模块的建筑物分割 系统及方法,具备以下有益效果:

1、该基于串联注意力模块和并联注意力模块的建筑物分割系统及方法, 通过图像分割模型包括编码器、跳过连接单元、解码器,利用深度卷积网络 进行分割,实现了输入待分割图像即可获得分割结果,避免了额外的计算, 使得整个流程更加的趋于自动化,通过编码部分加入了迁移学习的知识,用 预训练的ResNet网络替换掉编码器的从头训练,降低了整个网络对数据集的 需求,避免了因数据集不足时而引起的分割精度降低。

2、该基于串联注意力模块和并联注意力模块的建筑物分割系统及方法, 通过在跳过连接单元中提出了串联注意力模块。其中的空间注意块根据各个 通道的重要性来重新分配权重;而通道注意块中在保留完整的特征图的同时 压缩通道从而实现关注空间信息的效果,使分割的边界更加清晰,通过在解 码器中添加了根据建筑物特点设计的并联注意力模块。利用高级特征的语义 优势来指导低级特征进行选择,让网络获得更多感兴趣的特征,增强了网络 对建筑物的识别能力,提高了分割的精度和准确率。

附图说明

图1为本发明的基于串联注意力模块和并联注意力模块的建筑物分割方 法流程图;

图2为本发明图像分割模型的结构示意图;

图3为本发明串联注意力模块的结构示意图;

图4为本发明并联注意力模块的结构示意图;

图5为本发明基于串联注意力模块和并联注意力模块的建筑物分割系统 模块图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。

如图1至图5所示,本实施例中的基于串联注意力模块和并联注意力模 块的建筑物分割系统,包括图像获取模块、样本构建模块与图像分割模型; 所述图像分割模型包括编码器、跳过连接单元与解码器;所述跳过连接单元 包括串联注意力模块;所述串联注意力模块包括通道注意模块与空间注意模 块;所述解码器包括并联注意力模块,所述并联注意力模块包括空间注意力 模块与通道注意力模块。

如图1至图5所示,本实施例中的基于串联注意力模块和注意力机制的 建筑物分割方法,包括以下步骤:

步骤S1、获取带标签的遥感图像生成训练集;

为了得到具有针对性的图像分割模型,通常需要获取相关图像对模型进 行训练,直至模型达到预想的输出效果,在模型训练中需要准备足够量的样 本图像,通常样本图片可以是直接使用现有的数据集,也可以是自行获取并 标注图片后生成样本图片,为了保证训练数据的有效性,本实施例提供一种 训练集和测试集生成方法如下。

a.数据样本准备:

获取现有的Inria航空影像标签数据集,Inria航拍图像标记数据集的发行 是为了解决航拍图像中建筑物的分割问题,它由360张RGB正交校正的航拍 图像组成,其空间分辨率为30cm,这些影像遍布不同的城市,包括奥斯丁, 芝加哥,基萨普,西/东蒂罗尔州,维也纳,贝灵汉,布卢明顿和旧金山,每 张图像的尺寸为5000×5000px,每个图像的实际表面覆盖面积是1500× 1500m,数据集图像分为两类:建筑物和非建筑物,数据集中的目标区域是屋 顶的占地面积,之所以选择该数据集,是因为它涵盖了异类的城市形态和不 同的城市密度,从人口稠密的地区(奥斯汀,芝加哥)到绿色面积较大的高 山城镇(基蒂萨普县,西蒂罗尔)再到具有独特建筑风格的维也纳,建筑物 形态的这种差异确保将模型最佳地推广到世界各地的其他不同城市地区,数 据集仅提供了180张具有基本事实的图像,为了保持与其他方法的处理方式 一致,从180张图像中选择每个区域的前五张图像创建一个验证集,其余的 图像用于训练。

b.训练集、测试集准备:

上述的数据集中所有的图像大小为5000*5000,分辨率为0.3m,而深度 学习的输入由显卡的显存限制,现有的GPU无法容纳5000*5000尺寸的图像 训练,因此将5000*5000拆分为1024*1024尺寸的图像,使用来自五个城市 (即a中的五个区域)的前5张图像作为一个测试集,而其余的则作为训练 集用于训练。

c.数据增强:

一般而言,比较成功的神经网络需要大量的参数,许许多多的神经网路 的参数都是数以百万计,而使得这些参数可以正确工作则需要大量的数据进 行训练,而实际情况中数据并没有想象中的那么多,所以为了在较少数据的 情况下获得更多的数据,同时为了减少过度拟合,本实施例使用了数据增强。

数据增强主要包括翻转、旋转、缩放、裁剪、平移与增加噪声,通过调 用Albumentations图像增强工具,经过多次使用,确定了在数据进行训练之前 进行了填充、随机裁剪、垂直翻转、水平翻转和归一化操作,在训练时又应 用了正则化技术,不仅增强了训练的数据量,提高了模型的泛化能力,而且 增加了噪声数据,提升模型的鲁棒性。

需要说明的是,数据增强中的各项操作均为较为成熟的技术,这里就不 对个项操作的具体步骤进行限制说明。

步骤S2、构建损失函数,利用所述训练集优化图像分割模型;

如图2所示,本实施例使用的图像分割模型主要基于U-Net框架,因此 本实施例的图像分割模型包括依次连接的编码器、跳过连接单元、解码器。

通常U-Net框架中的编码器主要由多个卷积层构成,用于特征提取,跳 过连接是把编码器的特征传递到解码器上,通过这些特征来弥补语义之间的 鸿沟,解码器是用多个反卷积或者上采样来还原到原尺寸,其中还会使用编 码器传过来的低级特征,用高级特征指导低级特征的融合,还原后的图像依 然保持原尺寸大小;

编码器的特征提取能力决定着整个网络的分割效果,所以本节在编码器 中引入预训练的ResNet提升分割性能,U-Net模型的编码器是由简单的3×3 卷积层构成,每层的参数均是随机初始化得到,在训练过程中存在较大的随 机性,非常影响后续的分割效果,所以提出用ResNet替换掉随机初始化的卷 积层作为编码器,与其他的特征提取网络相比,ResNet具有更好的特征提取 功能,这是因为ResNet利用了残差学习的方法,通过一个简单的加叠,既不 会给网络增加额外的参数与计算量,还在特征弥补上起到了一定的作用;

通过复杂度和精确度来展示了不同模型的多个阶段,包括从AlexNet到 ResNet,可以看出ResNet在所有模型中具有较高的准确率,而且参数量也相 对小很多,而在ResNet的变体中,ResNet-34在准确性和性能之间提供了很 好的折衷方案,既不会造成网络层数过多,网络臃肿不方便训练,在特征提 取的性能上也很有优势,所以本章选择它作为特征提取模块网络;

本实施例中的ResNet-34根据特征图的大小分为五个阶段,在第一个卷积 层阶段,可以很好地保留空间信息,从而提供准确的位置预测,在最后一个 卷积层阶段,语义信息更加完整,从而提供了更准确的语义预测;

本实施例不仅使用了ResNet-34作为编码器的骨干,还加载了ResNet-34 在ImageNet上训练过的预训练权重,这样就有效避免了模型从头开始训练, 不管是在模型的精度上,还是对数据的需求量上都有很大的帮助,此外,为 了获取更多的全局信息,我们还在ResNet-34的最后加入了一个全局平均池化 层,替换掉原有的全连接层,因为全连接层的参数众多,而全局平均池化层 将N个特征图降维成1*N大小的特征图,再用class个1*1卷积核将1*N的 特征图卷成1*class的向量;

因此本实施例中编码器的具体结构为:编码器采用ResNet网络提取遥感 图像的特征,所述ResNet网络包括N个卷积层和一个Global Pool层,N个 卷积层命名为Res-0至Res-(N-1),在卷积层Res-0至Res-(N-1)中,前一个 卷积层的输出作为后一个卷积层的输入,Res-(N-1)的输出作为Global Pool 层(全局平均池化层)的输入;

为了解决建筑物边界的模糊和不规则轮廓,特别是当建筑物与背景的外 观相似时,很容易混淆这两种类别,本实施例设计了串联注意力模块(TAM) 以增强识别能力并扩展类之间的区别,在U-Net基础版中,跳过连接时并未 对特征做任何处理,而本实施例为了使分割结果更准确,在跳过连接中加入 了串联注意力模块;

本实施例的跳过连接单元包括N个串联注意力模块,N个串联注意力模 块命名为TAM-0至TAM-(N-1),N个串联注意力模块与N个卷积层依据命名 编号一对一连接,命名编号相同的卷积层的输出作为串联注意力模块的输入, 并且在串联注意力模块TAM-0至TAM-(N-1)中,前一个串联注意力模块的 输出同时作为后一个串联注意力模块的输入;

如图3所示,串联注意力模块目的是让特征关注感兴趣的东西和位置;

具体的,本实施例中的串联注意力模块包括空间注意块和通道注意块;

所述通道注意块的设计原理是根据各个通道的重要性来重新分配权重, 首先输入特征通过最大池化层和平均池化层生成两个空间尺寸为1×1的向量, 因为只关注通道中的要素,所以这两种池化层均将输入特征压缩到通道统计 信息中,随后,两个向量都被输送到卷积块以进一步生成通道注意力图,卷 积块由两个卷积层和一个ReLU函数组成,为了减少参数降低运算消耗,第 一个卷积层的输出通道降为输入通道的1/16,第二个卷积层的输出通道数恢 复原大小,为了汇总特征执行求和操作合并两个通道注意力图,再经过Sigmoid激活函数来输出通道的得分图,在输入特征和通道得分图之间执行逐 元素乘法。

所述空间注意块的原理是在保留完整的特征图的同时压缩通道从而实现 关注空间信息的效果,详细结构如图2的下半部所示,首先在通道维度上执 行最大池化和平均池化,生成两个通道数为1的特征图,然后拼接两个特征 图并应用卷积层在减小通道数的同时生成空间注意图,通过Sigmoid激活函数 将每个像素的分类概率归一化为[0,1],根据特征的概率分数图,重新缩放输 入特征以选择性地增强感兴趣的特征,达到解决建筑物边界模糊的效果。

由于串联注意力模块TAM-0无低级特征的输入,因此串联注意力模块 TAM-0中的通道注意块未使用,以空间注意块的输出作为串联注意力模块 TAM-0,因此串联注意力模块TAM-0也可以称为空间注意块DB-0。

U-Net的解码器一般是使用简单地上采样操作或者是反卷积层,把下采样 的特征图还原回原有尺寸,但是仅仅简单地上采样是不足以在高分辨率的建 筑物图像上获得精确分割,所以我们在解码器中加入了并联注意力模块 (PAM),以获得感兴趣的特征。

本实施例的解码器包括N个并联注意力模块,N个并联注意力模块命名 为PAM-0至PAM-(N-1),N个并联注意力模块与N个串联注意力模块依据命 名编号一对一连接,命名编号相同的串联注意力模块的输出作为并联注意力 模块的输入,并且在并联注意力模块PAM-(N-1)至PAM-0中,前一个并联 注意力模块的输出同时作为后一个并联注意力模块的输入,其中所述Global Pool层的输出作为并联注意力模块PAM-(N-1)的输入,并联注意力模块 PAM-0的输出即为分割后得到的建筑物图。

如图4所示,并联注意力模块接收串联注意力模块输出的特征以及前一 并联注意力模块输出的特征,以串联注意力模块输出的特征为低级特征,以 前一并联注意力模块输出的特征为高级特征,并从空间和通道双维度选择了 更多具有辨别力的特征。

具体的,本实施例中的并联注意力模块包括空间注意模块和通道注意模 块。

所述通道注意力模块旨在改变每个通道中特征的权重来增强特征的一致 性,如图3的上半部所示,首先在通道维度上合并高级特征与低级特征形成 新的特征图,这有利于对特征进行有效利用,为了达到只关注通道中特征的 效果,采用全局平均池化将输入特征x压缩到通道统计s中。

为了恢复特征图通道数,利用第一个1×1的卷积把合并后的通道数恢复 为原大小,接着ReLU函数进行激活,利用第二个1×1的卷积生成特征图, 再经过sigmoid函数生成特征得分图,再将分数图重新缩放回低级特征,利用 高级特征的得分图指导低阶特征选择通道上权重更大的有效特征,最终将选 择出的低级特征和高级特征进行求和操作输出;

所述空间注意机制的高级特征首先通过1×1的卷积层,目的是对通道数 降维将注意力集中在空间特征上,并通过使用sigmoid函数生成分数图将其 归一化为[0,1],然后,对分数图逐元素的计算熵得分图,并与低级特征相乘, 对低级特征分配熵得分图的权重,之后,将高级特征与加权的低级特征进行 求和以进一步处理,值得注意的是,熵得分图在建筑物提取任务中与建筑物 边界有很强的关系,因此空间注意力机制可以为建筑物边界分割带来好处, 特别是结合整体二进制交叉熵损失来训练分割网络;

当然为了保持改进后的解码器能够保留原有解码器还原特征图的性质, 在解码器的N个并联注意力模块中,按照数据传递方向(即如图2中箭头所 示方向),每个并联注意力模块前还连接有一个反卷积层;

在模型训练过程中,利用训练集对图像分割模型进行训练时,本实施例 采用随机梯度下降法优化图像分割模型,其中随机梯度下降法为现有的训练 方法,在此不再进行赘述,并且本实施例中仅优选使用随机梯度下降法,在 实际应用过程中,还利用采用其他训练方法进行替换,例如逆误差传播算法、 梯度下降法等;

本实施例选定两种评价指标对图像分割模型的输出结果进行评价,即总 体(度(Overall Accura)y)与平均IOU(mean IOU),总体精度表示被分类到正 确地真实分类中的像素比例,而平均IOU是指两个区域的重叠区域在两个区 域中所占比例,它们的计算公式分别如下:

其中,TP表示正确的正样本(真阳性)的数量,TN表示正确的负样本(真 阴性)的数量,FP表示错误的正样本(假阳性)的数量,FN表示错误的负 样本(假阴性)的数量。

损失函数是用来表现预测结果与实际结果的差距程度,作为优化的目标 会直接关系模型训练的好坏,所以本节在二进制交叉熵损失函数基础上进行 改进,在实验中,数据的标签只有两种:建筑物和非建筑物,实验可以将建 筑物的语义分割视为像素的二进制分类问题,因此,选择二进制交叉熵损失 作为损失函数的主体,这种损失集中在确认给定标签是否适用上,如果标签 的对应类别超过某个概率阈值,则以这种方式应用标签,这些阈值以及将这 些阈值作为模型参数包含在内的好处已进行了大量研究[43],二进制交叉熵损 失的公式如下:

其中,n为遥感图像的数量,y

但是,认为梯度的方向仅由交叉熵确定是不准确的,交叉熵只能限制预 测值和真实值之间的相似性,无法对指标的整体效果有所提升,于是便添加 了评估指标,以使损失函数的培训方向更加明确,因此,可以构造出如下所 示的损失函数:

L=(1-W)×H-W×logIOU

式中,L为最终使用的损失函数,W为常数,一般设置为0.3,H为二进制 交叉损失函数,IoU为平均IoU,指两个区域的重叠区域在两个区域中所占比 例;其中H是上述的二进制交叉损失函数;

对图像分割模型训练后,保存达到收敛的权重文件,作为后续测试或者 分类使用的输入权重,本实施例中,收敛条件是看损失函数的值和最终的评 价指标,如果损失函数和评价指标基本不会有太大提升,就表明已经拟合了, 继续训练就会过拟合。

步骤S3、利用优化后的图像分割模型处理待分割的遥感图像,输出分割 后得到的建筑物图;

训练优化后的图像分割模型具有较优的分割效果,针对待分割的遥感图 像,输出的分割后的建筑物图可以是以不同颜色区分图像中内容,例如白色 表示建筑物,黑色表示非建筑物,当然也可以采用划线等形式表示分割后的 建筑物和非建筑物;

为了更好地证明本申请的分割结果,以下通过一具体实例进一步说明:

a.参数设置

实验运行环境为Ubuntu系统16.04,采用开源框架Pytorch,搭配12GB 的NVIDIAGeForce RTX 3060 GPU;

训练时,最大迭代次数为100次,每次训练4个批次,每个批次训练2480 张图片,编码器的初始学习率为0.00001,其他层的学习率为0.001,b、评价 指标为总体精度(OverallAccuracy)与平均IOU(mean IOU),采用损失函数L作 为实验中的损失函数。

c.实验结果

使用Inria数据集中的五个城市(A城市,B城市,C城市,D城市和E 城市)的前5张图像作为一个测试集,其余图片作为训练集,同时对比了多 个目前主流的算法,结果如表1所示:

表1:测试集中各城市的评价结果,“-”表示该指标在其论文中未给出

将FMAM-Net与Inria航拍影像标签数据集上的最新方法进行比较,包括 SegNet(Multi-Task Loss)[11],U-Net&Attention[12]和U-Net ResNet-34,且 U-Net&Attention也运用了注意力机制等方法,很有比较性;

根据表1中的数据可以看出,从垂直比较上来看,提出的方法在五个城 市中均比其他方法获得了更高的IoU,无论是在住宅区还是山区,FMAM-Net 都具有更好的泛化能力,从五个城市的平均指标来看,提出的方法比U-Net &Attention高出6.64%,而对比基准U-Net ResNet-34,指标提高了3.47%, 此外,在Acc.得分上,提出的方法也比SegNet(Multi-Task Loss)高0.95%, 从定量分析的角度可以看出FMAM-Net确实优于对比的方法;

应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显 示,但是这些步骤并不是必然按照箭头指示的顺序依次执行,除非本文中有 明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它 的顺序执行,而且,图1中的至少一部分步骤可以包括多个子步骤或者多个 阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不 同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是 可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根 据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明 的保护范围之内。

相关技术
  • 一种基于金字塔切分注意力模块的遥感图像语义分割方法
  • 一种基于改进注意力模块的医疗影像分割方法及装置
技术分类

06120115575704