掌桥专利:专业的专利平台
掌桥专利
首页

基于多尺度扩张注意力的超分辨率重建方法

文献发布时间:2024-04-18 20:02:18


基于多尺度扩张注意力的超分辨率重建方法

技术领域

本发明属于计算机视觉及人工智能技术领域,涉及基于多尺度扩张注意力的超分辨率重建方法。

背景技术

单图像超分辨率重建是一种图像处理技术,通过计算机处理低分辨率图像或图像序列,以恢复出高分辨率图像;近年来,单图像超分辨率在图像处理领域引起了广泛关注;如何实现重建出富含细节的高分辨率图像,并获得较高的质量,已成为研究的热点,对于实时视频监控、医学图像处理、人脸识别、遥感影像等领域的技术发展具有重要意义;在过去的研究中,人们常采用插值和重建等传统方法;然而,随着机器学习和深度学习的兴起,基于学习的方法逐渐崭露头角;其中,基于卷积神经网络的算法能够实现高质量的图像重建,已成为当前主流的超分辨率方法。尽管如此,然而,现有的方法往往参数量较大,导致其计算成本过高,难以在边缘设备中广泛应用。

发明内容

本发明的目的是提供基于多尺度扩张注意力的超分辨率重建方法,解决了现有重建方法大多有网络模型参数量庞大、计算复杂度高、重建效果不理想的问题。

本发明所采用的技术方案是,基于多尺度扩张注意力的超分辨率重建方法,具体按以下步骤实施:

步骤1,构建基于多尺度扩张注意力的超分辨率重建模型;

步骤2,将经步骤1构建的模型进行训练;

步骤3,将经步骤2训练的模型进行测试。

本发明的特点还在于:

其中步骤1中构建基于多尺度扩张注意力的超分辨率重建模型具体按以下步骤实施:

步骤1.1,构建浅层特征提取模块;

步骤1.2,构建深层特征提取与融合模块;

步骤1.3,构建上采样模块;

其中步骤1.1中构建浅层特征提取模块具体按以下步骤实施:

步骤1.1.1,对输入图像在通道维度进行复制4次;

步骤1.1.2,对输入特征进行3×3的蓝图卷积操作,并将其输出通道数调整为51;

其中步骤1.2中构建深层特征提取与融合模块具体按以下步骤实施:

步骤1.2.1,构建8个特征细化模块,具体如下:

步骤1.2.1.1,构建局部残差模块LRM,对输入特征进行连续三次3×3的蓝图卷积操作和GeLU非线性激活操作,将输出与输入做残差连接,然后进行1×1卷积操作:

H

LF

式中σ(·)为GeLU激活函数,

步骤1.2.1.2,构建多尺度扩张注意力模块MDAB;

首先,对输入特征进行层归一化操作;其次,对输入特征采用两条路径分别提取特征;在路径1中,首先进行3×3的蓝图卷积操作,然后对输出特征按通道分离为3份,再分别进入三条子路径;在子路径1中,首先进行5×5的深度扩张卷积操作,然后进行1×1卷积操作;在子路径2中,进行1×1卷积操作;在子路径3中,首先1×1卷积操作,然后进行7×7的深度扩张卷积操作;然后将三条子路径的输出在通道维度融合;在路径2中,进行1×1卷积操作;之后将路径1的输出特征与路径2的输出特征相乘,然后进行1×1卷积操作;最终,使用可学习的参数γ与输出特征相乘并与该模块的输入特征做残差连接操作;

步骤1.2.1.3,构建蓝图前馈网络BFN;

首先,对输入特征进行层归一化操作;其次,对输入特征采用两条路径分别提取特征;在路径1中,进行7×7的蓝图卷积操作;在路径2中,首先进行7×7的蓝图卷积操作,然后进行GeLU非线性激活操作;之后将路径1的输出特征与路径2的输出特征相乘,然后进行1×1卷积操作;最终,将输出特征与该模块的输入特征做残差连接操作;

步骤1.2.2,对8个特征细化模块FRM的每个输出特征在通道维度融合;

F

式中F

步骤1.2.3,对输入特征进行1×1卷积操作;

步骤1.2.4,对输入特征进行GeLU非线性激活操作;

步骤1.2.5,对输入特征进行3×3的蓝图卷积操作;

步骤1.2.6,对步骤1.2.5的输出特征和步骤1.1的输出特征做残差连接操作;

其中步骤1.3中构建上采样模块具体按以下步骤实施:

对输入特征进行3×3卷积操作,输出特征数为缩放因子的平方与3的乘积,然后对特征进行像素重排,生成上采样后的重建图像;

其中步骤2中对经步骤1构建的模型进行训练具体按以下步骤实施:

步骤2.1,采用DIV2K的1-800号图像和Flickr2K的2650张图像作为训练数据集,对训练数据集图像进行随机旋转和水平翻转进行数据扩充;

步骤2.2,使用双三次方法进行下采样,分别生成2倍、3倍和4倍缩放因子下的低分辨率图像;

步骤2.3,将原始图像裁剪为48×48大小的块作为模型输入的RGB图像;

步骤2.4,设置训练超参,进行模型的训练;

其中步骤2.4中设置训练超参,进行模型的训练具体按以下步骤实施:

采用ADAM作为优化器进行训练,初始学习率设置为1×10

式中,N为输入的低分辨率图像LR的个数,θ为MDAN的训练参数集合,|·|为绝对值运算符;此外,在缩放因子为3和4的模型训练中,使用训练完成的缩放因子为2的模型作为初始权重;

其中步骤3中对经步骤2训练的模型进行测试具体按以下步骤实施:

步骤3.1,采用Set5、Set14、BSD100、Urban100和Manga109作为测试数据集;

步骤3.2,加载训练的模型,生成超分辨率重建的图像;

步骤3.3,计算峰值信噪比PSNR与结构相似度SSIM,评估重建图像质量。

本发明的有益效果是:

本发明的基于多尺度扩张注意力的超分辨率重建方法,旨在解决现有方法参数量庞大和计算复杂度过高的问题;采用了蓝图可分离卷积作为基本卷积单元,以更专注地捕捉内核内部的相关性,并显著减少了计算量,实现了模型的轻量化;同时,引入了多尺度扩张注意力块,通过深度扩张卷积以低成本实现大感受野的特性,能够提取图像的整体特征,以恢复更多的细节信息;通过多尺度机制,有效地利用了不同尺度下的图像特征,从而还原了更加丰富的高频信息;为了进一步充分利用空间特征,将蓝图卷积与前馈网络相结合,提出了蓝图前馈网络;通过多层特征的细化与融合,使得模型能够充分地利用各个层次提取的特征,从而在保留低频信息的同时取得了出色的性能;本方法在模型复杂度较低的情况下,展现了优异的性能表现,为轻量级超分辨率重建方法提供了一种新的选择,而且重建图像的纹理细节更加丰富逼真,重建质量大幅提升。

附图说明

图1是本发明的基于多尺度扩张注意力的超分辨率重建方法中实施例步骤1中基于多尺度扩张注意力的超分辨率重建模型的整体框架图;

图2是本发明的基于多尺度扩张注意力的超分辨率重建方法中实施例的步骤1中局部残差模块的框架图;

图3是本发明的基于多尺度扩张注意力的超分辨率重建方法中实施例的步骤1中多尺度扩张注意力模块的框架图;

图4是本发明的基于多尺度扩张注意力的超分辨率重建方法中实施例的步骤1中蓝图前馈网络的框架图;

图5是本发明的基于多尺度扩张注意力的超分辨率重建方法中实施例的步骤2中DIV2K数据集的0073号原始高清图像;

图6是本发明的一基于多尺度扩张注意力的超分辨率重建方法中实施例的步骤2中使用双三次下采样生成的DIV2K数据集的0073号图像降低4倍分辨率的低分辨率图像;

图7是本发明的基于多尺度扩张注意力的超分辨率重建方法中实施例的步骤3得到的Set5数据集中butterfly图像在4倍放大因子下的超分辨率重建结果。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供了基于多尺度扩张注意力的超分辨率重建方法,具体按以下步骤实施:

步骤1,构建基于多尺度扩张注意力的超分辨率重建模型,模型整体框架如图1所示;

步骤2,将经步骤1构建的模型进行训练;

步骤3,将经步骤2训练的模型进行测试。

实施例1

本发明的基于多尺度扩张注意力的超分辨率重建方法,步骤1中构建基于多尺度扩张注意力的超分辨率重建模型具体按以下步骤实施:

步骤1.1,构建浅层特征提取模块,具体按以下步骤实施:

步骤1.1.1,对输入图像在通道维度进行复制4次;

步骤1.1.2,对输入特征进行3×3的蓝图卷积操作,并将其输出通道数调整为51;

步骤1.2,构建深层特征提取与融合模块,具体按以下步骤实施:

步骤1.2.1,构建8个特征细化模块,具体如下:

步骤1.2.1.1,构建局部残差模块LRM,模块结构如图2所示,对输入特征进行连续三次3×ε的蓝图卷积操作和GeLU非线性激活操作,将输出与输入做残差连接,然后进行1×1卷积操作:

H

LF

式中σ(·)为GeLU激活函数,

步骤1.2.1.2,构建多尺度扩张注意力模块MDAB,模块结构如图3所示;

首先,对输入特征进行层归一化操作;其次,对输入特征采用两条路径分别提取特征;在路径1中,首先进行3×3的蓝图卷积操作,然后对输出特征按通道分离为3份,再分别进入三条子路径;在子路径1中,首先进行5×5的深度扩张卷积操作(扩张率为2),然后进行1×1卷积操作;在子路径2中,进行1×1卷积操作;在子路径3中,首先1×1卷积操作,然后进行7×7的深度扩张卷积操作(扩张率为3);然后将三条子路径的输出在通道维度融合;在路径2中,进行1×1卷积操作;之后将路径1的输出特征与路径2的输出特征相乘,然后进行1×1卷积操作;最终,使用可学习的参数γ与输出特征相乘并与该模块的输入特征做残差连接操作;

步骤1.2.1.3,构建蓝图前馈网络BFN,模块结构如图4所示;

首先,对输入特征进行层归一化操作;其次,对输入特征采用两条路径分别提取特征;在路径1中,进行7×7的蓝图卷积操作;在路径2中,首先进行7×7的蓝图卷积操作,然后进行GeLU非线性激活操作;之后将路径1的输出特征与路径2的输出特征相乘,然后进行1×1卷积操作;最终,将输出特征与该模块的输入特征做残差连接操作;

步骤1.2.2,对8个特征细化模块FRM的每个输出特征在通道维度融合;

F

式中F

步骤1.2.3,对输入特征进行1×1卷积操作;

步骤1.2.4,对输入特征进行GeLU非线性激活操作;

步骤1.2.5,对输入特征进行3×3的蓝图卷积操作;

步骤1.2.6,对步骤1.2.5的输出特征和步骤1.1的输出特征做残差连接操作;

步骤1.3,构建上采样模块,具体按以下步骤实施:

对输入特征进行3×3卷积操作,输出特征数为缩放因子的平方与3的乘积,然后对特征进行像素重排,生成上采样后的重建图像。

实施例2

本发明的基于多尺度扩张注意力的超分辨率重建方法步骤2中对经步骤1构建的模型进行训练具体按以下步骤实施:

步骤2.1,采用DIV2K的1-800号图像和Flickr2K的2650张图像作为训练数据集,对训练数据集图像进行随机旋转和水平翻转进行数据扩充;

步骤2.2,输入的原始数据集的DIV2K的0073号图像如图5所示,使用双三次方法进行下采样,分别生成2倍、3倍和4倍缩放因子下的低分辨率图像,图6即为降低4倍分辨率后的图像;

步骤2.3,将原始图像裁剪为48×48大小的块作为模型输入的RGB图像;

步骤2.4,设置训练超参,进行模型的训练,具体按以下步骤实施:

采用ADAM作为优化器进行训练,初始学习率设置为1×10

式中,N为输入的低分辨率图像LR的个数,θ为MDAN的训练参数集合,|·|为绝对值运算符;此外,在缩放因子为3和4的模型训练中,使用训练完成的缩放因子为2的模型作为初始权重。

步骤3中对经步骤2训练的模型进行测试具体按以下步骤实施:

步骤3.1,采用Set5、Set14、BSD100、Urban100和Manga109作为测试数据集;

步骤3.2,加载训练的模型,生成超分辨率重建的图像,Set5数据集中butterfly图像在4倍放大因子下的超分辨率重建结果如图7所示;

步骤3.3,计算峰值信噪比PSNR与结构相似度SSIM,评估重建图像质量。

实施例3

实验结果如表1所示,结果表明,采用本发明提出的方法训练出的网络模型MDAN,取得了较高的PSNR与SSIM值,在高倍缩放因子下表现尤为出色。

表1本发明方法与主流方法结果对比,其中加了下划线的为最好的结果

技术分类

06120116576158