掌桥专利:专业的专利平台
掌桥专利
首页

一种基于通道Transformer的全卷积解码器的图像去雾方法

文献发布时间:2024-04-18 19:59:31


一种基于通道Transformer的全卷积解码器的图像去雾方法

技术领域

本发明属于计算机视觉和机器学习技术领域,具体涉及一种基于通道Transformer的全卷积解码器的图像去雾方法。

背景技术

尽管卷积神经网络和视觉Transformer已在低层计算机视觉领域中取得了成功应用,但很少有研究人员将两者相结合以构建一个高效的网络模型用以解决图像去雾任务。

基于深度学习的单图像去雾方法通常利用编码器一解码器网络模型,预测雾图像中隐藏的雾条纹特征。先前方法一味追求去雾精度,从而导致网络规模不断增加,却忽略了网络模型的计算效率,这非常不利于网络模型在硬件资源有限设备上的使用。卷积神经网络模型性能受限于以下两方面因素:一方面,卷积运算受限于局部感受野,难以对全局上下文信息进行建模;另一方面,网络参数是固定的,难以应对灵活多变的系统输入。因此,本文拟引入Transformer模型缓解以上提及的这些问题。

对于计算机视觉任务而言,获取全局上下文信息是十分重要的。卷积网络常常通过多层结构和下采样实现感受野的增加。视觉Transformer模型通过自注意力机制获得长期的视觉依赖,具有强大的全局上下文信息的建模能力,但是,随着token长度的增加,视觉Transformer模型的计算复杂度呈二次增长,这限制了视觉Transformer模型在高分辨率图像上各种任务的处理。因此,设计一个网络既能捕获得全局上下文信息,又能提升高分辨率图像的处理效率,是图像去雾任务中亟需解决的问题。

目前,大多数视觉Transformer模型由图像块生成器、多头自注意力和前馈网络三部分构成,运行过程可用以下公式表示:

其中的X∈R

依据实际效果,解码器对于图像去雾性能影响是微不足道的,但其训练时间和预测时间却需很高运算成本。因此,可构建一个非对称编码器一解码器的网络架构,实现解码器轻量化。编码器需要编码高质量的雾条纹特征信息,这决定了后续雾条纹信息解码重构的性能;同时,解码器需使用尽可能简单且高效的方式恢复不同空间分辨率的雾条纹特征信息。因此,本发明提出一个基于通道Transformer全卷积解码器去雾网络。具体而言,在编码阶段采用下采样模块和通道Transformer模块逐层对雾条纹特征进行提取;在解码阶段采用上采样模块和带有掩码注意力模块的跳跃连接将实现同维度特征的融合,并使用卷积模块逐层对特征进行渐进合并;最后,使用反向瓶颈卷积模块进一步丰富深度特征。

发明内容

本发明提出一种基于通道Transformer的全卷积解码器的图像去雾方法。该方法包含:1)利用设计的通道Transformer模块获得全局上下文信息;2)利用设计的全卷积解码器实现特征融合和特征恢复。

一种基于通道Transformer的全卷积解码器的图像去雾方法,其特征在于,包括:

1、设计一个局部自适应感知单元,用以获取局部特征信息,并将残差特征传递给下一层。

2、利用跨通道自注意力扩大感受野,并编码多尺度特征。

3、设计一个多尺度残差前馈网络,实现通道维度上token间全局上下文信息的交互。

4、设计一个掩码注意力模块,用以生成像素级的雾条纹注意力图,实现准确判断图条纹位置,并提取精准的图条纹特征。

5、设计一个反向瓶颈卷积模块,最大限度避免维度压缩导致的信息丢失。

附图说明

图1为提出的方法框架;

图2为通道Transformer模块的结构示意图;

图3为掩码注意力模块的结构示意图;

图4为反向瓶颈卷积模块的结构示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明:

本发明的目的是提供一种基于通道Transformer的全卷积解码器的图像去雾方法,其实现思路为:首先,设计一个全新的通道Transformer模块用以获得全局上下文信息,即运用深度可分离卷积提取多尺度局部特征,并通过堆叠Transformer模块构建Transformer编码器;然后,设计一个基于全卷积架构的解码器,利用掩码注意力和反向瓶颈卷积实现特征融合和特征恢复,显著降低计算复杂度和内存需求。本发明的基于通道Transformer的全卷积解码器的图像去雾方法的一个优选实施方式,具体包括以下步骤:

1、通道Transformer编码

通道Transformer模块结合卷积神经网络和Transformer模型的优势,利用深度卷积和跨通道自注意力扩大感受野并编码多尺度特征,实现通道维度上token间全局上下文信息的交互。

通道Transformer模块由三部分构成:局部自适应增强单元(Local AdaptivePerception Unit,LAPU)、通道多头自注意力(Channel Multi-Head Self-Attention,CMSA)和多尺度残差前馈网络(Multi-Scale Residual Feedforward Network,MRFN),运行过程可由以下公式表示:

1.1、局部自适应感知单元

旋转和平移是图像增强的常见方法,且希望这些增强方法不改变最终结果,称之为平移不变性。然而,由于Transformer模型使用绝对位置进行编码,也即对每个图像块进行唯一位置编码,从而违背了平移不变性原则;此外,Transformer模型忽略了局部信息以及图像块内部的结构信息。因此,本发明设计了如图2所示的局部自适应感知单元,用于提高提取局部信息的能力。

在深度卷积过程中,卷积核尺寸可根据特征提取的要求自适应地进行调整。虽然大卷积核需耗费更多的计算资源,但大卷积核有助于扩大感受野,且在整个网络运行中这样的计算消耗是可接受的。因此,本发明采用卷积核尺寸自适应机制,获取不同深度的特征信息并降低计算的复杂度。受神经网络层次架构的启发,在编码过程的早期阶段使用较小的卷积核,在编码过程的后期使用较大的卷积核。这种设计最为合理,这是因为编码过程的早期阶段通常获得的是低级特征,适用于小卷积核,而后期阶段获得的是高级特征,适用于大卷积核。

1.2、通道多头自注意力

Transformer模型的计算消耗主要来自自注意力的计算。以单头自注意力为例介绍自注意力的计算过程。首先,使用1×1卷积像素级地聚合跨通道的上下文信息。其次,对通道维度上的上下文信息进行编码,生成查询(Q)、密钥(K)和值(V),并使用步长为3的深度卷积减少K和V。上述两步过程可用以下公式表示

其中的C

R=Softmax(QK

其中的δ控制Q和K

1.3、多尺度残差前馈网络

由于卷积具备局部特征提取能力,因此,很多去雾模型都将单尺度深度卷积模块作为前馈网络。由于雾条纹具有低饱和度和高亮度等特性,因此,很有必要在去雾模型中引入多尺度前馈网络。本发明设计了如图2所示的多尺度残差前馈网络。首先,在层归一化的基础上,使用1×1卷积扩展通道维数;然后,将扩展后的特征送入包含3×3和5×5深度卷积的两个分支进行特征提取和交叉融合,用以获得多尺度局部信息;最后,与经典的残差结构类似,在每个分支中都使用跳跃连接提高特征的跨层传播能力,有助于提高图像去雾效果。该网络的运行过程可用以下公式描述:

其中的σ表示ReLU激活,f

2、全卷积解码器

如图1所示全卷积解码器包含四层,其中前三层均首先使用双线性插值将上一层的特征进行上采样并缩小通道维数,然后通过跳跃连接将编码器中相同尺度的特征一并输入掩码注意力模块进行多分支特征融合,最后通过一个3×3卷积获得重建后的输出特征;在解码器的最后一层,使用轻量级的反向瓶颈卷积模块获得不同空间分辨率的雾气特征。

2.1、掩码注意力模块

跳跃连接是自编码器的常用操作,且在解码过程中可重用编码器特征,防止过度平滑。因此,本发明使用掩码注意力模块取代跳跃连接操作,用以融合两阶段的特征,具体结构如图3所示。掩码注意力模块的作用是生成像素级的雾条纹注意力图,用以准确判断图条纹位置,从而提取精准的图条纹特征。由于编码特征中含有与图条纹无关的边缘信息,且如果直接使用跳跃连接会干扰后续的去雾效果,因此,使用注意力有助于重新调整编码器特征,突出与图条纹相关特征,抑制其它特征。掩码注意力模块的具体运行过程可用以下公式描述:

其中的F

2.2、反向瓶颈卷积模块

与ResNet中残差块的结构相反,ConvNeXt中反向瓶颈卷积特征的维度是输入特征维度的四倍,其结构与Transformer中多层投影模块结构类似

相关技术
  • 具有改进的可再封闭胶粘标签的可重复密封容器
  • 具有双重作用密封件的高温压力消解容器系统
  • 具有对袋口气胀密封功能的敞口袋自动下料装置
  • 具有优化的唇缘定向的十字轴式万向接头密封件
  • 具有可拆卸的开口封闭件及密封装置的袋式容器
  • 具有层压板或箔片撕开元件的、用在复合包装件或由厚箔封闭的容器开口上的低平式倾倒口封闭件
技术分类

06120116520589