掌桥专利:专业的专利平台
掌桥专利
首页

一种基于卷积稀疏残差学习的混合失真图像复原方法

文献发布时间:2024-04-18 20:00:50


一种基于卷积稀疏残差学习的混合失真图像复原方法

技术领域

本发明属于图像处理领域,具体涉及一种基于卷积稀疏残差学习的混合失真图像复原方法。

背景技术

成像系统往往受到多种退化因素的影响,例如大气扰动、光学系统像差、相机和物体之间的相对运动等等,从而使获取的图像受到不同程度的降质。图像复原是指从一幅或多幅低质量图像中恢复出潜在高质量图像的过程,是数字图像处理领域的一项重要任务,涉及到诸多信号处理方法和数学基础理论,例如估计理论、数字滤波、数值分析、线性代数等。常用的图像复原方法包括滤波法和空间域迭代法,前者通常需要预知图像的失真类型甚至某些重要的失真参数,滤波后的图像会损失部分边缘和细节信息,后者则需要手动选择正则化参数以获得最优模型,缺乏自适应性,且计算复杂度和时间成本较高。随着计算机技术的发展,基于机器学习和神经网络的图像复原方法得到广泛应用,是当前图像复原领域的主流方法。图像复原技术可以广泛应用于医学影像处理、监控系统、人脸识别、卫星遥感等多个领域,同时还可用来改善普通摄影器材拍摄的图像质量,使之达到与高性能摄影器材同等或类似的拍摄效果,从而降低用户或生产商对摄影器材中某些关键电子元器件高性能、高精密度的要求,最终降低生产成本,因此具有重要的研究价值和意义。

发明内容

本发明的目的在于克服空间非均匀混合失真伪影的建模、表示和去除的问题,提供一种基于卷积稀疏残差学习的混合失真图像复原方法。

为了达到上述目的,本发明采用如下技术方案:

第一方面,本发明提供一种基于卷积稀疏残差学习的混合失真图像复原方法,包括以下步骤:

基于DIV2K数据集的无失真图像,构建同时包含高斯模糊、高斯噪声和JPEG压缩三种失真类型的空间非均匀混合失真图像数据集,使用空间非均匀混合失真图像数据集训练一个端到端的聚合激发网络;

将待测混合失真图像输入到训练后的聚合激发网络中进行失真参数估计,得到相应的空间失真参数图;

采用空间非均匀混合失真图像数据集训练多尺度卷积残差稀疏编码网络;

将待测混合失真图像和估计的空间失真参数图输入到训练后的多尺度卷积残差稀疏编码网络中,得到复原图像。

本发明进一步的改进在于,聚合激发网络采用三分支四尺度的U-Net结构,每个尺度的编码器输出特征均通过残差连接与解码器模块的上采样特征拼接,最后经过两层卷积输出失真参数图。

本发明进一步的改进在于,聚合激发网络的编码器通过聚合激发模块组成,聚合激发模块用于融合不同分支的特征以建模不同失真类型之间的相互作用,以及将融合特征与不同分支的特征拼接,从而建模混合失真对单个失真类型参数估计的影响。

本发明进一步的改进在于,多尺度卷积残差稀疏编码网络采用多尺度U-Transformer网络架构,多尺度卷积残差稀疏编码网络的编解码器之间通过卷积残差稀疏编码模块连接。

本发明进一步的改进在于,编码器的输出图像特征经过卷积残差稀疏编码模块后得到复原特征,最后经过解码器重建复原图像。

本发明进一步的改进在于,卷积残差稀疏编码模块为深度展开网络。

本发明进一步的改进在于,深度展开网络的网络结构通过多尺度卷积残差稀疏编码问题的优化求解过程决定。

本发明进一步的改进在于,多尺度卷积残差稀疏编码的优化问题可以通过公式(1)~(4)表示:

其中,e

求解公式(1)~(4)等价于求解如下优化问题:

其中λ是惩罚参数,公式(5)采用固定其他变量,求解剩余一个变量的方法依次求解该优化问题中的每个变量。首先固定c和任意三个z

将公式(6)重写为:

其中

求解公式(7)得到:

其中E

其中

其中↑n表示上采样图像至原尺寸的n倍,合并公式(10)中的前四个范数,得到:

其中

其中,E和D是独立的可学习变量;TB的定义与公式(8)相同。

最终,通过迭代求解公式(8)和(12)可以得到最优的

与现有技术相比,本发明具有如下有益效果:

本发明处理的失真类型和强度在空间分布上更具随机性,更符合现实场景中的图像失真情况;本发明使用基于转置注意力机制的学习迭代阈值收缩算法解决多尺度卷积残差稀疏编码优化问题,并将深度展开网络嵌入到U-Transformer网络中,兼具学习能力强和可解释性好的优点;本发明与传统复原网络所经常采用的卷积运算相比,本发明将转置注意力机制引入复原网络模型,建模了通道间的依赖关系,在保持参数量较小的情况下,改善了网络的自适应能力和性能。

附图说明

图1为本发明的聚合激发网络(FENet)模型框架图;

图2为本发明的多尺度卷积残差稀疏编码网络(MS-CRSCNet)模型框架图;

图3为本发明的Transformer模块框架图;

图4为本发明的MS-CRSCNet中的卷积残差稀疏编码(CRSC)模块框架图;

图5为本发明的CRSC模块中的z

图6为本发明的CRSC模块中的c预测网络框架图。

具体实施方式

为进一步了解本发明的内容,以下结合附图和具体实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。

本发明所述的一种基于卷积稀疏残差学习的混合失真图像复原方法,共包含两个阶段图像处理过程:第一阶段失真参数预测,第二阶段失真参数引导的图像复原。各阶段的详细算法流程如下:

第一阶段:本阶段使用FENet预测图像的混合失真参数,分别为高斯模糊,高斯白噪声、JPEG压缩。FENet模型如附图1所示,该网络以失真图像的Y通道作为输入,用三个分支分别预测三种失真参数,其中每个分支均采用U-Net网络架构,且所有尺度的特征都保持相同的通道数以减少模型复杂度。为了建模多个失真的联合影响,FENet的编码器会计算各分支特征图的均值。考虑到多种失真对单个失真参数预测的影响,本发明设计了FEB模块,该模块使用卷积层解析各分支平均后的特征图,然后再将解析结果拼接到每个分支。FEB模块被重复三次,每次都会将特征图的空间尺寸减半,用于模拟与失真相关的多尺度特征,随后各尺度的特征残差连接到FENet的解码器执行特征拼接。最终,FENet输出三个归一化失真参数,分别为高斯模糊参数

第二阶段:本阶段使用MS-CRSCNet网络完成基于失真参数引导的图像复原任务。MS-CRSCNet模型如附图2所示,图中“TB”表示Transformer模块(Transformer Block)。MS-CRSCNet模型的编码器和解码器包含了多个级联的Transformer模块,编码器和解码器之间通过CRSC模块连接,该模块主要用于多尺度特征的卷积稀疏编码建模和表示,之后复原特征发送给解码器,整个网络使用双线性插值加1×1卷积完成上采样和下采样操作。CRSC模块的设计思想来源于本发明提出的假设:残差特征比图像更稀疏,因此可以由一组过完备字典的线性组合来表示。用x

其中,e

求解公式(1)~(4)等价于求解如下优化问题:

其中λ是惩罚参数。公式(5)可以通过固定其他变量,求解剩下一个变量的方法依次求解该优化问题中的每个变量。首先,固定c和任意三个z

公式(6)可以重写为:

其中

其中E

S

为了给优化过程增加非线性和通道注意力机制,本发明使用Transformer模块来代替S

其中,TB(Transformer模块)的网络结构如附图3所示,该模块主要由转置注意力模块和门控深度可分离卷积前馈网络级联而成。转置注意力模块首先使用层归一化方法(LayerNorm)归一化输入特征,之后使用转置注意力和1×1卷积重新组合各通道的特征,最后通过残差连接与原输入相加得到整个模块的输出。在门控深度可分离卷积前馈网络中,输入特征经过层归一化后并行通过两个分支,每个分支都包含一个将特征映射到高维空间的1×1卷积和一个编码空间邻域信息的3×3深度可分离卷积,其中一个分支被GELU激活以提供非线性表示能力。两个分支的输出逐元素相乘后由一个1×1卷积投影到原特征维度,之后再与原输入相加得到该模块的输出。

之后,固定所有的z

其中

其中↑n表示上采样图像到原尺寸的n倍。合并式(12)中的前四个范数,得到:

其中

其中E和D为独立的可学习变量;TB的定义与公式(10)相同。

最后,通过迭代求解公式(10)和(14)可以得到最优的

以上CRSC优化方法可以由一个深度展开神经网络实现,该网络结构如附图4所示,图中,z

为获得训练和测试图像数据集,本发明设计了三种不同的空间退化操作来生成混合失真图像:

1)高斯模糊:本发明考虑了28个高斯模糊等级(σ

2)高斯噪声:本发明将噪声值设置为一个随机尺度因子乘上标准正态分布采样值,该随机尺度因子是空间变化的,因此最后的生成的噪声也是空间变化的。本发明中,噪声的最大值设置为55。

3)JPEG压缩:该失真的生成方式与高斯模糊类似。本发明考虑31个JPEG质量因子(q∈[10:20,22:2:40,45:5:90])。为实现JPEG压缩,首先将一幅图像分割为互不重叠的8×8像素图像块,每个块都使用一个随机选取的q值进行JPEG压缩操作,最后拼接所有的压缩图像块即可得到失真图像。

本发明需要训练两个网络模型:FENet和MS-CRSCNet。对于FENet,使用128×128像素图像块(灰度图像)进行训练,其损失函数为:

其中,

其中,λ=10

其中,I和I

其中,

训练数据包括800幅来自DIV2K数据集的图像,并且在三个尺度上对每一幅原图像执行空间非均匀质量退化操作,同时保存相应的失真参数图。本发明最终使用的退化操作包括四种组合:(1)高斯模糊+高斯噪声(BN);(2)高斯模糊+JPEG压缩(BJ);(3)高斯噪声+JPEG压缩(NJ);(4)高斯模糊+高斯噪声+JPEG压缩(BNJ)。为了评估本发明提出算法的性能,选取公开数据集LIVE,CSIQ,BSD500,CIDIQ和SDIVL作为测试集,并按照与训练集相同的方法生成相应的混合失真图像,使用PSNR,SSIM,LPIPS作为客观评价指标。多种算法在测试集上的性能如表1所示,表中DRSCNet(distortion-guided residual sparse codingnetwork)表示本发明方法。为了比较不同算法的效率,选择网络参数量和浮点数运算量(floating point operations,FLOPs)作为评价指标,测试结果如表2所示。为了进一步考察网络性能,本发明还测试了FENet网络预测失真参数的准确率,并选用估计值和实际值的SROCC作为评价指标,实验结果如表3所示。实验结果表明,本发明方法可在相对轻量的网络参数和计算复杂度的情况下,实现更优的图像复原性能。

综上,本发明方法将传统的卷积稀疏编码模型扩展为多尺度卷积残差稀疏编码模型,将该模型的优化求解过程展开为深度网络,嵌入到U-Transformer网络中,实现失真参数引导的非均匀混合失真图像复原。

表1本发明方法(DRSCNet)与其他图像复原方法在不同图像数据库上的实验结果。粗体数字表示最优的性能指标,下划线数字表示次优的性能指标。

表2本发明方法(DRSCNet)与其他图像复原方法的网络参数量和浮点数运算量比较。

表3本发明方法中的FENet网络预测失真参数的准确度。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

技术分类

06120116541862