导航：首页> 基本上无切削的金属机械加工；金属冲压>一种基于空频特征一致性的SAR图像到光学图像映射的方法

一种基于空频特征一致性的SAR图像到光学图像映射的方法

文献发布时间：2023-06-19 11:11:32

技术领域

本发明属遥感图像处理技术领域，涉及一种基于空频特征一致性的SAR图像到光学图像映射的方法。具体而言，在映射的过程中利用图像的空间域和频域特征，从多个角度规范映射的方向，促进映射效果的提升，所得结果有利于辅助专业人员进行SAR图像的解译并拓宽其应用领域。

背景技术

随着航空航天遥感技术的快速发展，对地观测系统被广泛应用于工业、农业、林业等领域，近红外波段的光学遥感图像和微波波段的合成孔径雷达(SAR)遥感图像成为对地观测的有效手段。光学遥感图像接近人眼感知，处理技术相对成熟，但是容易受到自然、地理环境和大气气象条件的影响，获取难度较大；SAR图像依靠的微波波段电磁波能够穿过雾霾、云层等遮盖物，具有全天时全天候的特点，但是其不易被解读，造成大量影像资源的浪费。SAR图像的不易解读性由多种因素所致：一方面，SAR图像中存在很多相干斑噪声，这由分辨率单元中单个散射体信号的相干相加导致，这样的高频噪声影响了人眼所认知的图像特征的表达，让SAR图像不易于识别；另一方面，SAR图像包含固有的几何失真，这由距离依赖性和雷达信号波长(毫米到厘米级)相关特征引起，而人眼对可见光的透视投影和纹理等图像信息更熟悉。尽管目前有一些提高SAR图像可解释性的方法，例如，提高图像的空间分辨率，但是它的成像机理不会改变，未经过训练的人依然无法从SAR图像中获取足够多的信息。

利用生成对抗网络(GAN)实现不同类型的图像映射一直是图像处理的研究热点之一，作为一个概率生成模型，GAN将统计学习理论与深度神经网络紧密地结合在一起，通过学习大量的数据来分析数据内部的分布，在风格转换、季节转换、图像增强等任务中展现了出色的效果。近年来，越来越多的研究把GAN用于SAR图像的解译。研究结果表明，若能将SAR图像转换为光学表示，就能充分利用人眼对光学遥感图像的熟悉程度和人工智能等新兴技术，解读原始SAR图像所包含的信息，实现SAR图像资源的充分利用。映射过程旨在从SAR图像的突出几何特征中提取丰富的内容信息，并与光学图像的风格信息相结合。尽管两种图像的频段不同、成像机理不同、反映的成像对象的目标特性不同，但是映射网络基于同场景光学图像和SAR图像的学习训练而成，融合了SAR图像到光学图像的映射关系，所以只要对网络进行优化设计，并进行足够的学习训练，就可以在缺乏光学模态的情况下，通过输入SAR图像，获得对应的高逼真度光学图像。

然而，目前的图像映射更多关注模型的鲁棒性和泛化能力，而缺乏针对性。SAR图像存在较严重的相干斑噪声和几何失真，这些特殊的物理属性应该在特征提取过程中被特殊考虑。同时，生成对抗网络的编码过程存在不可避免的上采样操作，由频谱的计算原理可知，上采样操作在频域上表现为频谱的搬移，这将在生成图像的频谱图上产生棋盘效应，严重影响图像的生成质量。

发明内容

发明目的：本发明所要解决的技术问题是针对SAR图像特殊的物理属性和GAN固有的编码特性引起的弊端，研究基于空间域和频域特征一致性的SAR图像到光学图像映射效果改进。本发明方法与现有技术相比，能够实现生成图像的结构特征与SAR图像保持一致，纹理特征接近目标光学图像的效果，并且具有较强的鲁棒性和跨场景泛化能力。

具体的，本发明的基于空频特征一致性的SAR图像到光学图像映射的方法，包括以下方面：

(1)针对遥感图像的观测结果与人类所期待的地理信息之间无法用简单的数学模型去描述和转化，验证利用GAN将图像由SAR模态映射到光学模态的可行性；

(2)针对SAR图像与光学图像之间显著的物理属性差异，搭建一个SAR-光学图像映射的模块，用多个“卷积-归一化-线性整流”单元跳跃连接而成的编码-解码子模块，实现特征的提取和映射；

(3)针对GAN固有的上采样操作给图像频谱带来的棋盘效应，提出基于离散余弦变换的损失函数，从频域的角度对图像的映射过程加以规范；

本发明中，所述的GAN由一个生成器和一个判决器组成，生成器从潜在空间中随机采样作为输入，输出与真实样本相近似的结果，而判决器致力于将生成结果从真实的样本中辨别出来，判决每一轮的生成结果是否逼真。两者相互对抗，不断博弈，最终达到良好的图像生成效果。

本发明中，所述的SAR-光学图像映射模块由三个子模块构成，分别是：SAR图像特征编码子模块、SAR-光学图像特征映射子模块、光学图像特征解码子模块。包括以下步骤：

(1)SAR图像特征编码子模块通过卷积层的降采样，从输入的原始SAR图像中获取其编码表示，并对SAR图像中的高级语义信息进行特征提取；

(2)SAR-光学图像特征映射子模块将输入的SAR图像编码张量映射到光学模态，并传递给下一个子模块；

(3)光学图像特征解码子模块利用与编码子模块相反的转置卷积结构，对输入的编码张量进行上采样，将其转化为和原始SAR图像的大小相同的光学图像。

本发明中，所述的棋盘效应由生成对抗网络的编码子模块固有的上采样操作所致，当给定一个低分辨率的特征张量时，上采样器以m为因子，从水平和垂直两个方向提高其分辨率，在大多数情况下，m被设置为2。具体方法是，上采样器在低分辨率的特征张量中，给每一行或每一列后插入一个由零值构成的行或列，然后通过卷积运算，将得到的合适的值分配到之前插入零的位置。这样的上采样过程会带来棋盘效应，给图像的生成质量造成负面的影响。为了在输出中消除这样的重复频段，需要进行高频滤波操作，但是滤除过多的高频内容，将会导致图像过于模糊，增大识别的难度，因此，本发明从空间域和频域两个维度，对图像的生成过程加以约束。

更具体的，本发明的操作步骤如下：

(1)对图像预处理，其中包括，

(1a)灰度化。本发明使用的SEN1-2数据集中的光学遥感图像原本为3通道的彩色图像，本发明的SAR图像到光学图像的映射任务设定在单通道的背景下进行，所以将原始光学遥感图像进行了灰度化处理，具体原因如下：首先，星载合成孔径雷达的SEN-1图像本身是单通道的黑白图像；第二，单通道SAR图像到多通道光学图像的映射被认为是一个不适定问题，如同计算机视觉领域的图像上色任务，而图像表面特征的可变性(例如表面标准偏差、相关长度、介电常数等)会增加此项任务的难度；第三，单通道图像与多通道图像的信息量是不对等的，如果将单通道SAR图像映射到多通道光学图像，会导致图像信息无法合理匹配。因此，本发明使用加权平均法，将SEN-2光学遥感图像的红、绿、蓝三分量以不同的权值进行加权平均。由于人眼对绿色的敏感程度最高，对蓝色的敏感程度最低，所以采用的心理学灰度公式如下：

Gray＝0.114B+0.587G+0.229R (1)

其中，R、G、B分别代表原图像中的红、绿、蓝分量，Gray是得到的灰度图像。

(1b)场景分类。SEN1-2数据集包含了全球各地282，384对多季节多场景相互匹配的SAR-光学图像对，本发明确定了5类感兴趣的区域，分别是：农田、森林、峡谷、河流和居民区，并对原始数据集进行场景分类。

(1c)划分训练集和测试集。训练集中的图像成对输入到模型中进行训练，促使网络的生成图像与真实图像不断逼近，而测试集中只有SAR图像被输入，确保真实光学图像不会被模型学习到，从而验证算法模型的真实效果。训练集和测试集的图像数量比值控制在4∶1。

(2)构造基于GAN的SAR-光学图像映射模块，其中包括，

(2a)基于跳跃连接的生成器。标准的图像映射网络由两个结构相似的编码子模块和解码子模块组成，但在这一结构中，信息流会毫无保留地经过每一层，带来较大的参数冗余和内存占用。在SAR图像到光学图像映射问题中，输入和输出的底层信息是对应的。因此，本发明采用了基于跳跃连接的生成网络设计，即U-Net结构。具体而言，编码子模块和解码子模块的每一个单元都被建立相互的连接，用以共享不同分辨率的像素级信息。这种方式既能避免参数冗余，又能在每一个单元的进程中监测通道内SAR图像编码张量和光学图像编码张量的对应关系，督促映射过程向更可靠的方向发展。

(2b)基于马尔科夫随机场的判决器。为了更好地建模高频特征，本发明在判决器的设计中引入PatchGAN结构，它将图像建模为一个马尔可夫随机场，在判决的过程中将图像分割成一个个相互独立的大小均为N×N的图像块，通过判决每个图像块的真实程度并取均值，作为整张图像的判决结果输出。这种方式将注意力集中到图像块的高频结构上，更加关注图像的局部细节特征。

(3)设计基于空频特征一致性的损失函数，其中包括，

(3a)图像建模的结构化损失。图像到图像的映射通常被建模为一个像素级的分类或回归问题，为了利用损失函数的收敛趋势来约束图像生成的过程，生成对抗网络设定了一个“结构化损失”，它可以视为映射过程在空间域的约束，并以对抗性损失作为其形式，即：

其中，G表示生成器，D表示判决器，z是随机噪声向量，x是输入的SAR图像，G(x，z)是生成的光学图像，y是真实的光学遥感图像。

(3b)离散余弦变换损失。考虑到SAR图像中存在大量的高频相干斑噪声，而且上采样编码过程会产生不可避免的频域伪影，本发明在结合空间域的基础上，增加了频域的约束。常用的变换方法为离散傅里叶变换(DFT)，但是它存在虚部，容易给后续的计算带来麻烦，因此，本发明提出基于离散余弦变换(DCT)的损失函数。DFT和DCT在二维图像域的表达式分别如式(3)和式(4)所示：

其中，f(·)表示输入的图像矩阵，N表示图像矩阵的宽度，x，y＝0，...，N-1是输入的空间域序列，而u，v＝0，...，N-1是产生的频域变量。DFT(·)和DCT(·)分别代表经过离散傅里叶变换和离散余弦变换之后得到的结果。

由于DCT具有可拆分性和对称性，其二维变换可以由两个一维变换组合产生。当输入图像的大小为N×N时，组合的过程如下所示：

其中，X为输入的图像矩阵，D

因此，通过离散余弦变换，频域表达式中的虚部被有效避免。最终确定的离散余弦变换损失函数表示如下：

其中，||·||

(3c)生成器与判决器博弈，即：

其中，λ

(4)在数据集上进行训练和测试，其中包括，

(4a)算法可行性验证。在训练阶段，将严格配对的SAR-光学图像训练样本馈送到网络中，逐像素对比并计算映射所得图像与真实光学图像的目标损失，生成器和判决器分别以最小化目标损失和最大化目标损失为原则进行反向传播；在测试阶段，只输入SAR图像，映射所得图像和真实光学图像的差异能直观反映算法的有效性和可行性。

(4b)损失函数对比。本发明开展消融实验，通过对比只有对抗损失和添加了DCT损失的实验结果，验证DCT损失在SAR图像到光学图像映射过程中的作用，更直观地展现算法对空间域和频域特征的规范。

(4c)生成器结构对比。本发明对比了U-Net结构和传统的编码-解码结构在SAR图像到光学图像映射任务中的实验结果，验证底层信息与高层信息的相互连接对生成质量的提升。其中，编码-解码结构通过切断U-Net结构中的跳跃连接来搭建。

(4d)判决器感受野对比。本发明对比了感受野的不同取值对SAR图像到光学图像映射效果的影响。感受野由网络的层数决定，较小的感受野意味着较少的层数，以保证网络输出的特征图上的像素点对应原图中较小的区域，较大的感受野对应较多的层数，意味着原图在经过多层网络的处理后会输出一个非常小的图像矩阵。

附图说明

图1为本发明方法的总体实现框图；

图2为本发明设计的基于跳跃连接的生成器结构示意图，其中，每一个编码和解码模块内用括号标注了三个数，分别表示卷积核的数量、卷积核的大小和步长，每一个编码块上方或下方的数字代表该状态下得到的图像矩阵高度×宽度×通道数；

图3为本发明设计的基于马尔科夫随机场的判决器结构示意图，对应的感受野为70；

图4为本发明使用的数据集制作过程；

图5为本发明提出的基于空频特征一致性的SAR图像到光学图像映射结果，其中，每一行的图像从左到右依次是SAR图像、生成图像、光学图像、SAR图像、生成图像、光学图像，每一行表征一种地表类型，分别为农田、森林、峡谷、河流和居民区；

图6为本发明提出的离散余弦变换损失对映射效果的空间域影响图，其中，每一行的图像从左到右依次是SAR图像、只使用对抗损失的生成图像、结合了对抗损失和DCT损失的生成图像，每一行表征一种地表类型，分别为农田、森林、峡谷、河流和居民区；

图7为本发明提出的离散余弦变换损失对映射效果的频域影响图，其中，每一行的图像从左到右依次是空间域、频域、空间域、频域、空间域、频域，每一列的图像从上到下依次是光学图像、只使用对抗损失的生成图像、结合了对抗损失和DCT损失的生成图像；

图8为本发明使用的跳跃连接对映射效果的影响图，其中，每一行的图像从左到右依次是SAR图像、编码-解码结构的生成图像、跳跃连接(U-Net)的生成图像和光学图像；

图9为本发明使用的判决器感受野对映射效果的影响图，其中，每一行的图像从左到右依次是SAR图像、感受野为1的生成图像、感受野为16的生成图像、感受野为70的生成图像、感受野为256的生成图像和光学图像。

具体实施方式

下面结合附图对本发明做更进一步的解释。

本发明在PyTorch框架下实现，运算平台是一个具有24GB图像处理单元(GPU)内存的RTX TITAN显卡；输入是大小为256×256的单通道SAR遥感图像，输出是大小同为256×256的单通道光学图像；网络的优化采用了自适应矩阵估计(Adam)优化器，优化器的参数β

本发明设计的SAR-光学图像映射模块由三个子模块构成，分别是：SAR图像特征编码子模块、SAR-光学图像特征映射子模块、光学图像特征解码子模块，如图2所示，具体而言，

(1)SAR图像特征编码子模块由8个“卷积(Convolution，C)-批归一化(BatchNormalization，BN)-带泄露的线性修正(Leaky Rectified Linear Unit，LR)”单元构成，具体而言，每一个卷积核的大小均为4×4，步长为2，卷积层以2为单位逐级降采样。输入的SAR图像大小为256×256，当经过8次降采样操作后，输出的SAR图像编码张量大小为1×1。

(2)SAR-光学图像特征映射子模块由于该结构将编码张量降低到了1×1，所以直接通过全连接，输入到解码模块。

(3)光学图像特征解码子模块由3个“转置卷积(DeConvolution，DC)-批归一化(BN)-线性修正(Rectified Linear Unit，R)-Dropout(D)”单元和4个“转置卷积(DC)-批归一化(BN)-线性修正(R)”单元构成，此外，在最后一层还额外添加了一个卷积单元来保证一维输出。具体而言，每一个单元的卷积核的大小为4×4，步长为2，卷积层以2为单位逐级上采样。输入的光学图像编码张量为1×1，经过8次上采样操作后，输出和原始SAR图像大小相同的光学图像，且输出的光学图像矩阵为单通道。

本发明的编码子模块的激活函数全部使用了带泄露的线性修正，坡度设置为0.2，而解码子模块的激活函数为传统的线性修正。在解码器的最后一层，卷积层映射到输出层的通道数与所得图像的通道数相一致，并且加入了双曲正切激活函数(Tanh)以加快收敛速度。U-Net网络结构的引入让编码器和解码器中同样大小的特征图按通道有效地拼接在一起，既保证了全局信息的共享，又避免了细节信息的丢失。同时，模型使用了反射填充来减少边界伪像。

本发明将PatchGAN视为一种纹理风格的损失形式，参数N决定了判决器的感受野大小，不同大小的感受野对应不同的判决网络结构，本发明将感受野设置为70，由1个“卷积(C)-带泄露的线性修正(LR)”单元和3个“卷积(C)-批归一化(BN)-带泄露的线性修正(LR)”单元构成，坡度参数设置为0.2，在最后一层又额外执行了一个“卷积(C)-Sigmoid激活(S)”操作，以保证输出的通道数和参考图像的通道数相同，如图3所示。不同感受野对应的网络参数说明如下，

(1)N＝1(PixelGAN)，由1个“卷积-Leaky ReLu”单元和1个“卷积-归一化-LeakyReLu”单元构成，卷积核大小均为1×1。

(2)N＝16(PatchGAN)，由1个“卷积-Leaky ReLu”单元和1个“卷积-归一化-LeakyReLu”单元构成，卷积核大小为4×4，第一个单元步长为2，第二个单元步长为1。

(3)N＝70(PatchGAN)，由1个“卷积-Leaky ReLu”单元和3个“卷积-归一化-LeakyReLu”单元构成，卷积核的大小为4×4，前3个单元的步长为2，最后1个单元的步长为1。

(4)N＝256(ImageGAN)，由1个“卷积-Leaky ReLu”单元和5个“卷积-归一化-LeakyReLu”单元构成，卷积核大小为4×4，前5个单元的步长为2，最后1个单元的步长为1。

本发明使用的数据集是由Schmitt等人在2018年提供的SAR-光学图像对开源数据集：哨兵1-2号(Sentinel 1-2，SEN1-2)数据集。它在距离向和方位向的分辨率分别为20m和22m，像素间距为10m。图像主要来源于：1)基于地面距离探测的欧洲航天局(ESA)哨兵1号(SEN-1)C波段合成孔径雷达，在IW模式下采集，并限制在VV极性；2)ESA哨兵2号(SEN-2)多光谱影像，集中在4、3、2波段(即红色、绿色、蓝色通道)。

映射结果和算法对比如附图所示。

经实例验证，本发明不仅能根据先验知识生成新的内容，还消除了生成图像的频谱堆叠。具体而言，跳跃连接比传统的编码-解码结构取得了更好的图像映射效果，感受野在小于原始图像尺寸的情况下能提升生成图像的质量，结合了对抗损失函数和DCT损失函数的网络模型在视觉感知的评估下比传统的网络模型取得了更好的图像映射效果。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：张洁心;周建江;王思婕;余天柱;
专利申请人：南京航空航天大学;