掌桥专利:专业的专利平台
掌桥专利
首页

一种基于注意力机制的地表覆盖分类方法

文献发布时间:2024-04-18 20:01:23


一种基于注意力机制的地表覆盖分类方法

技术领域

本发明提供了一种用于高分辨率光学遥感影像的地表覆盖分类模型,属于陆地测绘、环境遥感、资源调查等领域,属于模型算法开发领域。

背景技术

随着计算机处理和存储能力的快速提高以及人工智能的发展,传统的人工设计特征方法逐渐提升为自动学习的特征提取方法,并在图像分类、图像分割和变化检测等计算机视觉领域产生了深远的影响。许多具有代表性的语义分割模型及其变体,从光学遥感影像提取所表示内容的多层次高级语义特征后将其分割成具有一定语义含义或特定类别的分割块,并在高分辨率地表覆盖制图研究中取得了优异的分类性能。

为解决卷积算子固有结构造成的感受野限制,扩张卷积和空间金字塔池化运算相继被提出。最常见的策略是通过融合不同网格范围的扩展卷积或金字塔池化来捕获多尺度的空间上下文。然而,扩张卷积是一种稀疏运算,无法提取当前特征点周围所有位置的密集特征信息,可能会导致网格伪影现象。此外,金字塔池化则可能会造成像素空间定位信息的缺失问题。

另一方面,地表覆盖分类任务的最终目标是获得具有输入遥感影像原始尺寸的像素级分类图。普遍的解决方法采用高级特征映射进行简单的上采样操作,以重建原始分辨率。这种幼稚的策略可能会导致粗糙的分类结果,例如模糊的类别边缘和缺少小尺度对象。其他方法则更注重通过集成低层特征映射优化细粒度细节和边缘信息。它们往往依赖编码器-解码器体系结构,侧重于通过不同规模的跳转连接来连接低级和高级特征,并已成为一种有效的解决方案。然而,复杂的解码结构可能会导致特征信息的冗余使用,并且需要大量的计算资源。

因此,在深入调查和理解地表覆盖类型特征的基础上,合理引入顾及全局上下文提取和细粒度目标精确识别的深度学习驱动的地表覆盖分类模型具有重要应用价值。

发明内容

本发明提出了一种基于深度学习和注意力机制的地表覆盖分类方法。该像素级分类算法能够对高分辨率光学遥感影像中蕴含的远程上下文和细粒度目标进行高精度提取和识别。该方法首先通过统计原始光学影像的RGB波段上的统计分布特点,进行归一化处理,其次根据输入影像尺寸设计主干网络,提取多级语义特征块,然后在最终输出的高级语义特征上构建位置和通道注意模块,获取多维全局上下文,最后在解码阶段利用全局注意力机制聚合多尺度空间细节。

为达到上述目标,本发明具体步骤如下所示:

一种基于注意力机制的地表覆盖分类方法,包括如下步骤:

10:用于地表覆盖分类模型训练的数据集由原始遥感影像和地面真值构成,并通过滑动窗口将其裁剪为许多小块作为模型输入:

其中,x、y分别为遥感影像和对应的地面真值,h和w分别为输入的高和宽,c为地表覆盖类别数目,n为训练样本数目;

2):以n

x

其中,x

3):采用数据增强扩展训练集,并使用随机水平翻转、随机垂直翻转和缩放尺度为0.5-2倍的随机缩放;

4):根据上述输入数据的尺寸大小,构建卷积核大小为7×7的卷积运算进行初次下采样操作:

f(x

其中,x

5):在上述输出特征的基础上构建预训练的残差网络来提取有效语义特征;所述的残差网络即为主干网络,该主干网络由多个结构相同的残差块作为特征提取路径进行网络推理,每个残差块可表示为:

H=R(F(x))+F(x) (4)

其中,F(x)为残差块的输入特征,R(.)和H分别为叠加非线性卷积运算和映射输出特征;

6):通过主干网络可以得到局部特征矩阵F

7):与位置通道注意力模块不同,通道注意力模块直接通过F

其中,

其中,λ

8):对于多个尺度的低级特征F

9):对于上述多级解码过程生成的富含语义信息的输出特征F

P=upsample(conv(F

其中,conv是核大小为3×3的二维卷积运算,unsample上采样则采用的是双线性方法。

步骤6)具体包括:

首先,将特征F

其中,

将矩阵F

其中,λ

步骤8)具体包括:

首先,高级特征图F

其中,F

然后,高级特征的全局上下文F

其中,convt是一个核大小为4×4的二维转置卷积运算,而conv则是核大小为1×1的二维卷积运算。

采用上述技术方案的本发明,该像素级分类算法能够对高分辨率光学遥感影像中蕴含的远程上下文和细粒度目标进行高精度提取和识别。

附图说明

图1为地表覆盖分类数据集示例;

图2为残差网络块的原理图;

图3为位置注意力模块的原理图;

图4为通道注意力模块的原理图;

图5为全局特征注意力模块的原理图。

具体实施方案

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施仅是本发明一部分实施,而不是全部的实施例。基于本发明中的实施,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施,都属于本发明保护的范围。

本发明提出了一种基于深度学习和注意力机制的地表覆盖分类方法。该像素级分类算法能够对高分辨率光学遥感影像中蕴含的远程上下文和细粒度目标进行高精度提取和识别。该方法首先通过统计原始光学影像的RGB波段上的统计分布特点,进行归一化处理,其次根据输入影像尺寸设计主干网络,提取多级语义特征块,然后在最终输出的高级语义特征上构建位置和通道注意模块,获取多维全局上下文,最后在解码阶段利用全局注意力机制聚合多尺度空间细节。

为达到上述目标,本发明具体步骤如下所示:

1):用于地表覆盖分类模型训练的数据集由原始遥感影像和地面真值构成(图1),并通过滑动窗口将其裁剪为许多小块作为模型输入:

其中,x、y分别为遥感影像和对应的地面真值,h和w分别为输入的高和宽,c为地表覆盖类别数目,n为训练样本数目。

2):以n

x

其中,x

3):采用数据增强扩展训练集是提高鲁棒性的有效方法,这里主要使用了随机水平翻转、随机垂直翻转和缩放尺度为0.5-2倍的随机缩放。

4):根据上述输入数据的尺寸大小,构建卷积核大小为7×7的卷积运算进行初次下采样操作:

f(x

其中,x

5):在上述输出特征的基础上构建预训练的残差网络来提取有效语义特征。所述的残差网络即为主干网络,该主干网络由多个结构相同的残差块作为特征提取路径进行网络推理,每个残差块(图2)可表示为:

H=R(F(x))+F(x) (15)其中,F(x)为残差块的输入特征,R(.)和H分别为叠加非线性卷积运算和映射输出特征。

6):通过主干网络可以得到局部特征矩阵F

其中,

进一步,将矩阵F

其中,λ

7):与位置通道注意力模块不同,通道注意力模块(图4)直接通过F

其中,

其中,λ

8):对于多个尺度的低级特征F

其中,F

然后,高级特征的全局上下文F

其中,convt是一个核大小为4×4的二维转置卷积运算,而conv则是核大小为1×1的二维卷积运算。

9):对于上述多级解码过程生成的富含语义信息的输出特征F

P=upsample(conv(F

其中,conv是核大小为3×3的二维卷积运算,unsample上采样则采用的是双线性方法。

相关技术
  • 一种画面显示方法及画面显示装置
  • 显示装置及显示装置的显示画面控制方法
  • 显示装置及使用该显示装置进行画面显示的方法
  • 一种显示画面的调节方法、显示面板及显示装置
  • 电子设备显示屏驱动芯片驱动方法、装置及电子设备
  • 连麦直播下的画面显示方法、装置及电子设备
  • 连麦直播下的游戏数据显示方法、装置及电子设备
技术分类

06120116552344