掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于图像复原领域,尤其涉及一种基于Transformer的多尺度特征表示的图像去雾方法。

背景技术

雾霾是一种常见的天气现象。有雾图像通常容易出现低对比度、颜色失真和其他图像质量下降问题。此类图像看起来非常模糊,以至于场景中的物体无法辨认。此外,图像质量的降低,严重损害计算机视觉任务的性能,如目标检测、目标分类等。图像去雾作为底层视觉任务,在计算机视觉领域中引起了极大的关注。

单幅图像去雾旨在从有雾的输入图像中恢复清晰的输出图像,这将是高级视觉任务的重要预处理步骤。直至目前,许多去雾方法都被提出来。

大气散射模型为雾霾图像的成像提供了理论基础。公式主要考虑了光的散射和衰减以及雾霾的形成原理。公式如下:

其中x是图像像素的空间坐标,I(x)是有雾图像,J(x)是恢复后的图像,A是全局大气光,t(x)是透射率,β为散射系数,d(x)为距离。

基于以上两个公式,许多基于先验的方法做了一系列工作并取得了优异的效果。早期的图像去雾方法首先预测对应的透射率和全球大气光,然后通过大气散射模型恢复清晰的图像。然而,准确估计传输率和全球大气光尤其困难。特别是在非均匀有雾图像中,雾霾的分布通常是不均匀的,雾霾的密度与图像深度没有很强的相关性。因此,基于大气散射模型的方法会导致较大的估计误差。总的来说,物理模型方法在应用场景上有很大的局限性。

随着深度学习的快速发展,深度学习能够在一定程度上可以避免基于先验方法的弱点,并且深度学习以其强大的学习能力和高性能被广泛应用于计算机视觉领域。与传统方法不同,基于深度学习的方法可以直接输入有雾图像,然后得到清晰的无雾图像。基于深度学习的方法主要是建立有雾图像和无雾图像之间的映射关系。然而,由于卷积的局部性,这些网络在构建全局依赖方面存在一定的困难。在图像去雾任务中,全局上下文信息的获取也尤其重要。

最近,在自然语言处理任务中,提出了Transformer结构。Transformer已被应用于各种视觉任务。基于Transformer提出了许多模型。Vision Transformer模型因其self-attention机制从而能够保证全局依赖信息的获取。因此为了获取全局上下文信息,我们采用Vision Transformer进行图像去雾。但是,直接将传统的Vision Transformer应用于图像去雾领域并未取得良好的性能。经过分析,我们认为导致这一结果的主要原因如下:首先,Vision Transformer模型可以通过self-attention机制建立远程依赖关系,保证全局上下文信息的获取。但是,它忽略了局部上下文信息的提取,导致图像重建的细节模糊、粗糙。其次,传统的Transformer模型在编码过程中会使用下采样,以减少计算量。过多的下采样将不可避免地导致图像细节的丢失。

发明内容

本发明的目的在于提供一种基于Transformer的多尺度特征表示的图像去雾方法,该方法不仅能保证全局上下文信息的获取,同时兼顾局部上下文信息的提取,使图像重建的细节清晰完整。

实现本发明目的的技术方案为:第一方面,本发明提供一种基于Transformer的多尺度特征表示的图像去雾方法,包括:

构建图像去雾网络模型:

获取训练样本图像,所述训练样本图像即训练有雾图像以及与所述训练有雾图像相对应的真实图像;

利用所述训练样本图像对所述图像去雾模型进行优化训练;

利用优化后的图像去雾模型对有雾图像进行处理,获取无雾图像。

进一步的,所述图像去雾模型包括浅层特征提取模块、编码模块、特征转换模块、解码模块和图像复原模块;

所述浅层特征提取模块用于对输入图像进行处理,提取所述输入图像浅层特征;

所述编码模块用于图像浅层特征的处理,提取所述输入图像的低维度表征;

所述特征转换模块用于对输入图像的低维度表征进行处理,提取图像特征信息;

所述解码模块用于对图像特征信息进行处理,融合编码过程中的特征,获取与输入同尺寸的特征图;

所述特征图复原模块用于对特征图进行处理,提取所述残差图像。

进一步的,所述浅层特征提取模块用于对输入图像进行处理,包括:

所述浅层特征提取模块用于对输入图像利用3×3的卷积,获得所述输入图像相应的浅层特征。

进一步的,所述编码模块用于对浅层特征进行处理,包括:

所述编码模块用于对输入图像浅层特征通过编码器,编码过程包含四个阶段,每个阶段通过一个Transformer Block和一个下采样层,提取低级特征和高级特征,获得所述输入图像的低维度表征。

进一步的,所述特征转换模块用于对低维度表征进行特征转换,包括:

所述特征转换模块用于对低维度表征进行平滑空洞卷积,获得所述输入图像更深层的图像特征信息。

进一步的,所述解码模块用于对图像特征信息进行处理,包括:

所述解码模块用于对图像特征信息进行恢复,主要包含四个阶段,每个阶段通过一个Transformer Block和一个上采样层,获得所述输入图像同尺寸特征图。

进一步的,所述图像复原模块用于对特征图进行处理,复原图像,包括:

所述图像复原模块用于对特征图进行卷积,得到残差图像,并将其与原始图像融合,获得所述输入图像相应的无雾图像。

进一步的,所述利用所述训练样本图像对所述图像去雾模型进行优化训练,包括:将所述训练有雾图像作为输入图像,利用所述图像去雾模型对所述训练有雾图像进行处理,输出训练无雾图像;将所述训练无雾图像与所述真实图像进行对比,确定所述训练无雾图像与所述真实图像间的差异值;根据所述差异值对图像去雾模型中的模型参数进行调整。

第二方面,本发明提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法的步骤。

第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法的步骤。

与现有技术相比,本发明的显著优点为:

(1)建立的模型,可以进行端到端的训练;

(2)将Vision Transformer应用于图像去雾,并采用多尺度的思想提出了一个新颖的模块,将Transformer提取全局信息的优势与Cnn(多尺度网络)提取局部信息的优势有机结合起来,提升图像去雾的性能。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明基于Transformer的多尺度特征表示的图像去雾方法的总体操作流程图。

图2是本发明Transformer Block的设计图。

图3是本发明多尺度特征网络的设计图。

图4是本发明的效果图。

具体实施方式

本发明提供一种基于Transformer的多尺度特征表示的图像去雾方法,可以以端到端方式进行训练且主要由五个模块组成:浅层特征提取模块、编码模块、特征转换模块、解码模块、图像复原模块:

首先,利用浅层特征提取模块提取浅层特征,然后进行后续的学习。

其次编码模块的作用是将图像对应特征图的尺寸缩小,使其成为更低维度的表征,同时也尽可能多的提取低级特征和高级特征,从而利用提取到的空间信息和全局信息来进行处理,其中基于Transformer本身构建全局依赖的优势,我们采用多尺度的设计理念来提出了一个新颖的模块作为Transformer Block的前馈网络,以此提升获取局部信息的能力。基于全局依赖与局部信息,我们不仅保证恢复图像的整体性,也保证了相应的细节。

然后,引入特征转换模块,通过3个不同空洞率的平滑空洞卷积在保证特征图大小不变的情况下,扩大感受视野,避免图像信息的丢失,进一步获取特征信息。

之后,通过解码模块对特征信息进行复原。

最后,通过图像复原模块利用卷积来复原残差图像,与输入的图像一起重构无雾图像。

下面结合附图和实施例对本发明进行详细说明。

实施例

首先,采取一般Transformer的训练方法,我们会将图片随机裁剪为若干个图像块,并进行旋转,翻转等方式进行图像增强。

结合图1~图3,一种基于Transformer的多尺度特征表示的图像去雾方法,具体包括以下步骤:

步骤一,利用3×3卷积提取浅层特征;

步骤二,将提取的图像浅层特征放入编码模块,对特征信息进行编码。

具体来说,给定一个图像I∈R

Q=XW

Attention(Q,K,V)=SoftMax(QK

其中X是图像块,Q,K,V分别为query矩阵,key矩阵以及value矩阵,W

其中x为特征图,F

根据该图,我们可以清楚地观察到该模块包含三个分支。具体来说,特征图在每个分支上首先通过一个1×1的卷积层,这可以增强模块的表达能力。然后通过两条平行路径的元素乘积计算分支信息,其中一条使用RELU非线性激活,另外一条为i×i的卷积层。每个分支的输出代表不同尺度的信息。最后对三个分支进行融合。

经过四个阶段之后,我们将获得低维度表征

步骤三,如图1所示,将编码后的图像特征图放入特征转换模块,对特征信息进行进一步获取。

具体来说,特征图通过三个具有不同扩张率的平滑空洞卷积,平滑空洞卷积在空洞卷积之前采用分离与共享卷积。对于分离和共享卷积,假设输入和输出的通道数都是C,可分离卷积与标准卷积大致相同,不同的是可分离卷积各自处理每个通道。共享卷积是指所有特征图的通道共享一个卷积核。通过建立空洞像素之间的关联,最后达到平滑。平滑扩张卷积可以增加感官视野和收集语义信息,在不减小特征图尺寸的前提下保留图像细节,避免图像信息的丢失。

步骤四,如图1所示,将图像特征图放入解码模块,利用编码器逐步恢复空间维度,再不减少信息丢失的情况下完成同尺寸输出。

具体来说解码过程也有四个阶段。每个阶段类似于编码模块,包含一个上采样层和一个的Transformer Block。该阶段将特征图的大小增加了一倍,并减少了一半的特征通道。在解码过程中,编码器的特征通过跳跃连接与编码器的相应特征连接起来。我们可以利用Transformer块将编码器的低级图像特征与解码器的高级特征聚合起来。这可以减少信息丢失,有利于保留恢复图像中的精细纹理和结构细节。

步骤五,如图2所示,将恢复的特征图放入图像复原模块。

具体来说,我们利用3×3卷积层通过细化特征生成残差图像R。

最后,我们利用如下公式完成无雾图像的复原。

结合图4,方法生成的图像在颜色和亮度上与真实图像相似,也没有出现模糊,并且从整个恢复的图像来看,无论是雾霾稀薄区域还是密集区域,图像去雾效果也非常令人满意。

技术分类

06120115921666