掌桥专利:专业的专利平台
掌桥专利
首页

一种基于嵌套U型网络结构的图像去模糊方法

文献发布时间:2024-04-18 19:52:40



技术领域

本发明属于图像处理、计算机视觉技术领域,具体涉及一种基于嵌套U型网络结构的图像去模糊方法。

背景技术

作为外界客观世界信息记录和传递的载体,图像一直是人类获取和辨别客观世界信息的主要来源和手段。然而,在图像的拍摄过程中会经常发生由相机抖动或物体运动引发的图像模糊问题。由于模糊的图像失去了清晰的结构和丰富的纹理信息,使得人们很难从中获取清晰的内容和精细的信息。因此,如何实现图像去模糊,使其可以更好的应用于高级图像处理(图像检测、图像识别)等领域已经成为了一个研究热点。

针对如何清晰化模糊图像这个问题,人们主要从以下两个方面展开研究:基于传统的方法和基于深度学习的图像去模糊方法。基于传统方法的图像去模糊方法依靠于从图像中手动提取先验或图像的统计信息,并在此基础上建模优化方程,通过迭代求解优化方程得到恢复后的图像。由于传统方法仅在有限的图像上提取先验,因此这类方法只在特定模糊图像上获得较好的去模糊结果,而在其他模糊图像上泛化性较低。此外,迭代求解优化函数需要耗费大量的时间,因而这类方法并不能很好的满足算法对实时性的要求。基于深度学习的图像去模糊问题通过在大量的数据集上提取特征,并在网络模型训练的过程中不断迭代选取更适合图像恢复的权值,从而恢复潜在的标签图像。虽然图像去模糊问题已经取得了一些成绩,但恢复得到的图像并不十分令人满意。例如,一些基于深度学习的方法中存在网络参数过多、网络模型过大的问题,而这无疑对网络训练在硬件配置方面提出了更高的要求;另外一些方法仅适用于合成的模糊图像,在实际的模糊图像中泛化性和鲁棒性较弱。

发明内容

本发明的目的是为了克服现有技术中的不足,通过综合利用对抗生成模型以及结构注意机制,提供一种能够有效减少网络模型大小、满足图像去模糊实时处理需求,解决图像纹理和细节丢失等问题的图像去模糊方法。

本发明的目的是通过以下技术方案实现的:

一种基于嵌套U型网络结构的图像去模糊方法,其特征在于,包括以下步骤:

(1)准备数据,包括模糊图像和标签图像;搭建生成对抗网络模型并设置参数;其中标签图像为未经模糊退化的清晰图像,生成对抗网络模型包括生成网络和判别网络两个子网络;

(2)设置生成网络和判别网络的网络结构框架;生成网络的网络结构框架采用U型网络结构,生成网络包括编码器和解码器两部分,编码器用以下采样并提取输入图像中有用的细节特征进行编码,解码器用于上采样并解码输入图像;其中,编码器和解码器又分别包括若干个独立的U型网络结构,每一水平的编码器和解码器保持相同的分辨率,所述编码器和解码器用于学习重建生成图像的特征;具体的:

将模糊图像送入生成网络中,在生成网络优化训练过程中,对生成网络增加语义目标损失函数和结构目标损失函数的约束,使得生成图像具有和标签图像一致的语义及结构信息;判别网络将判别的结果反馈给生成网络,驱使生成网络能够生成图像结构较为完整的图像;生成网络根据判别网络的反馈更新生成网络的参数进入下一次的迭代训练,生成网络和判别网络以上述描述的方式不断竞争训练,直到训练使生成对抗网络模型收敛;

(3)设置生成对抗网络模型的目标损失函数:生成网络中的目标损失函数包括图像语义目标损失函数L

(4)将模糊图像、标签图像输送到生成对抗网络模型中,判别网络用以判别生成图像和标签图像在内容方面的一致性;判别网络将判断得到的结果反馈给生成网络,生成网络和判别网络之间竞争学习,直到达到纳什均衡,生成对抗网络模型收敛;将模糊图像载入到训练收敛的生成网络中,最终得到结构完整的生成图像。

进一步的,步骤(3)中,生成对抗网络模型的目标损失函数加权地表示为:

L(G,D)=βL

其中,β,λ和α分别是L

进一步的,生成网络采用一个双层嵌套的U型网络结构,第一层U型网络结构是指由六个阶段的编码器和五个阶段的解码器构成的U型网络结构,六个阶段的编码器包括从上到下依次设置的第一编码器、第二编码器、第三编码器、第四编码器、第五编码器、第六编码器;五个阶段的解码器包括从下到上依次设置的第五解码器、第四解码器、第三解码器、第二解码器、第一解码器;所述第一编码器与第一解码器位于同一水平面,所述第二编码器与第二解码器位于同一水平面,所述第三编码器与第三解码器位于同一水平面,所述第四编码器与第四解码器位于同一水平面,所述第五编码器与第五解码器位于同一水平面;所述第六编码器位于第五编码器与第五解码器的下方中部;

第二层U型网络结构是指每个解码器和编码器内部设置的基于U型网络结构的残差U型模块;所述第一编码器、第二编码器、第三编码器、第四编码器内的残差U型模块的层数依次减少;所述第一解码器、第二解码器、第三解码器、第四解码器内的残差U型模块的层数依次减少;所述第五编码器、第六编码器和第五解码器内均设置有包含膨胀率的残差U型模块;

每个解码器阶段将其输出的特征图进行上采样后与位于其前一水平面的编码器阶段输出的特征图进行融合;最后,第一解码器输出的特征图,经过一个Tanh层和一个卷积层重建得到去模糊图像。

进一步的,对于判别网络,采用基于块的生成对抗网络作为判别网络的网络结构,包括一个平卷积层、三个下采样卷积层、一个特征重建块;所述下采样卷积层用于降低输入图像的分辨率和编码局部特征;每个下采样卷积层后面都添加了样本标准化层和带泄露修正线性单元激活函数Leaky ReLU,并且每个下采样卷积层的卷积核大小为4×4。

进一步的,所述残差U型模块包含以下三部分:首先,特征输入到一个卷积核大小为3×3的卷积层中,将H×W×C

进一步的,生成对抗网络模型用于搭载在计算机上运行;其中批量训练图像的个数是2,生成网络和判别网络的学习率是0.0001;激活函数Leaky ReLU的坡度是0.2;生成对抗网络模型使用Adam优化器,其动量参数分别是β

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述基于嵌套U型网络结构的图像去模糊方法的步骤。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于嵌套U型网络结构的图像去模糊方法的步骤。

与现有技术相比,本发明的技术方案所带来的有益效果是:

1.本发明方法与现有的图像去模糊算法相比,本方法恢复得到的图像具有更清晰的结构以及更丰富的细节。相较以往从有限的图像中手动提取特征先验知识或的方法,本发明基于对抗生成网络的纯数据驱动的重构方式可以避免分开估计模型参数带来的累积误差,提高算法的准确性和鲁棒性。

2.本发明方法使用不同深度的残差U型模块(RSU),可以从具有任意空间分辨率的输入特征图中提取多尺度特征。

使用不同深度的残差U型模块(RSU),可以从具有任意空间分辨率的输入特征图中提取多尺度特征;多尺度特征从逐渐下采样的特征图中提取,并通过逐渐上采样、拼接和卷积编码成高分辨率特征图。该过程减轻了由大规模直接上采样引起的精细细节的损失。

3.本发明在低内存和低计算成本的情况下,在保持高分辨率特征图的同时,实现更加深的网络架构。

4.本发明方法中生成网络使用嵌套的U型网络结构能够更有效地提取阶段内的多尺度特征和聚合阶段间的多层次特征。

附图说明

图1为本发明方法的流程框架示意图;

图2为残差U型模块(Residual Ublock,RSU)的网络结构示意图;

图3为生成网络的网络布局和参数图;

图4为判别网络的网络布局和参数图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明提供一种基于嵌套U型网络结构的图像去模糊方法,其包括以下步骤:

步骤1:准备数据,包括模糊图像和标签图像;搭建生成对抗网络模型并设置参数;其中标签图像未经模糊退化的清晰图像,生成对抗网络模型包括生成网络和判别网络两个子网络;

步骤2:构建生成网络和判别网络的网络结构;如图3和图4所示,其中生成网络用于学习图像清晰化的过程,而判别网络则对生成网络学习得到的去模糊结果加以判别和反馈。

(201)构建生成网络G网络结构

本实施例采用U型网络作为生成网络的网络结构,生成网络是一个双层嵌套的U型网络结构,第一层U型网络结构是指整个生成网络的结构,其包含11个阶段,每个阶段包含一个残差U型模块,嵌套的U型网络结构能够更有效地提取阶段内的多尺度特征和聚合阶段间的多层次特征;生成网络主要包括两部分:六个阶段的编码器和五个阶段的解码器,其中每个编码器和解码器又由一个独立的U型网络结构构成;为使描述简便,下文及图中将编码器用Encoder表示,解码器用Decoder表示。

六个阶段的编码器包括从上到下依次设置的Encoder 1、Encoder 2、Encoder 3、Encoder 4、Encoder 5、Encoder 6;五个阶段的解码器包括从下到上依次设置的Decoder5、Decoder 4、Decoder 3、Decoder 2、Decoder 1;Encoder 1与Decoder 1位于同一水平面,Encoder 2与Decoder2位于同一水平面,Encoder 3与Decoder 3位于同一水平面,Encoder4与Decoder 4位于同一水平面,Encoder 5与Decoder 5位于同一水平面;Encoder 6位于Encoder 5与Decoder 5的下方中部;

对于编码器Encoder 1、Encoder 2、Encoder 3和Encoder4,这些编码器输出的分辨率分别为256、128、64和32,编码器Encoder 1、Encoder 2、Encoder 3和Encoder4分别使用残差U型模块RSU-7、RSU-6、RSU-5和RSU-4,其中,“7”、“6”、“5”和“4”表示RSU模块的深度(L)也即层数;L是根据输入特征图的空间分辨率来配置的。对于大尺寸的特征图,使用更大的L捕获更多的大尺度信息。Encoder 5和Encoder6输出的特征图的分辨率为16和8,相对较低,进一步降低这些特征图的分辨率会导致有用上下文信息的损失。因此,在Encoder5和Encoder6阶段,使用了包含膨胀率的残差U型模块RSU-4F,这种残差U型模块取代了池化和上采样操作带来的信息损耗的问题,使得通过RSU-4F输出的中间特征图和输入特征图,具有相同的分辨率;

对于解码器,解码器Decoder 1、Decoder 2、Decoder 3和Decoder4的结构与它们对称的编码器Encoder 1、Encoder 2、Encoder 3和Encoder4类似,解码器Decoder 1、Decoder 2、Decoder 3和Decoder4,这些编码器输出的分辨率分别为256、128、64和32;对于解码器Decoder 5输出的分辨率16,也使用包含膨胀率的残差U型模块RSU-4F;每个解码器将其自身网络的输出进行上采样后与解码器上一水平编码器的输出特征图进行融合;最后,通过解码器Decoder 1输出的特征图,经过一个Tanh层和一个卷积层重建得到去模糊图像。

(202)构建残差U型模块(RSU)

设置一种残差U型结构模块RSU,为了捕捉网络某个阶段内的多尺度特征,引入了一种残差U型模块RSU,其包含以下三部分:首先,特征输入到一个卷积核大小为3×3的卷积层中,它将输入特征图x(H×W×C

(203)构建判别网络D网络结构

为了对真实的标签图像与生成网络生成的图像进行区分,本实施例采用PatchGAN作为判别网络,如图4所示。该判别网络包括一个卷积层;三个下采样卷积层降低输入图像的分辨率和编码重要的局部特征用以分类,经过三个下采样卷积层的图像分辨率由256×256递减至32×32;一个经过Sigmoid函数激活的卷积层用于得到最终的分类响应。每个卷积层后面都添加了样本标准化层和Leaky ReLU激活函数,并且所有卷积层的卷积核大小为4×4。对于生成网络,在生成网络优化训练过程中,对其增加语义目标损失函数和结构目标损失函数的约束,使得生成的生成图像具有和标签图像一致的语义以及结构信息,期望判别网络无法判别出输入图像是合成图像还是真实的标签图像。对于判别网络,其将判别的结果反馈给生成网络,驱使生成网络能够生成图像结构显著的生成图像;生成网络根据判别网络的反馈更新网络的参数进入下一次的迭代训练,生成网络和判别网络以上述描述的方式不断竞争训练,直到网络训练收敛,将模糊图像载入到训练收敛的生成网络中,即可得到结构显著的去模糊图像。

步骤3:构建生成对抗网络模型的目标损失函数;

围绕着本发明的结构判别机制,通过引进图像语义内容约束项L

L(G,D)=βL

其中,β,λ和α分别是L

步骤301:构建图像语义内容约束项L

图像去模糊的目的在于保证恢复前后的图像能保持相同的语义内容。本实施中采用预训练好的VGG19模型,分别抽取生成图像和标签图像的高阶特征,期望两者之间的距离无限逼近,并通过求解二范数L

其中,L

步骤302:构建图像结构重建约束项L

显著的结构是衡量图像是否清晰的定性指标之一,同时也是传统方法中重要的先验之一。因此,本实施例通过约束生成图像和标签图像在图像水平方向和垂直方向上,图像梯度的差距,使得生成图像具有显著的结构特征。具体来讲,通过求解一范数L

其中,▽

步骤303:判别损失函数L

如步骤1所述,将模糊图像b

其中,

步骤4:生成对抗网络模型的训练与测试

本实施例中选取GOPRO数据集中的2103对标签图像/模糊图像的训练集作为本发明的训练集。本发明将模糊图像b

本实施例中将生成对抗网络模型搭载在配置为一块Intel(R)Core(TM)i7 CPU(16GB RAM)3.60GHz的CPU和1块NVIDIA GeForce GTX 1080Ti GPU的台式电脑上运行。其中batch size(批量训练图像的个数)是2,G和D学习率是0.0001。激活函数Leaky ReLU的坡度是0.2。网络使用Adam优化器,其动量参数分别是β

本申请的实施例还提供能够实现上述实施例中的基于嵌套U型网络结构的图像去模糊方法中全部步骤的一种电子设备的具体实施方式,电子设备具体包括如下内容:

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;

其中,处理器、存储器、通信接口通过总线完成相互间的通信;通信接口用于实现服务器端设备、计量设备以及用户端设备等相关设备之间的信息传输。

处理器用于调用存储器中的计算机程序,处理器执行计算机程序时实现上述实施例中的基于嵌套U型网络结构的图像去模糊方法中的全部步骤。

本申请的实施例还提供能够实现上述实施例中的基于基于嵌套U型网络结构的图像去模糊方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的基于嵌套U型网络结构的图像去模糊方法的全部步骤。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

最后需要指出的是:以上实例仅用以说明本发明的计算过程,而非对其限制。尽管参照前述实例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述实例所记载的计算过程进行修改,或者对其中部分参数进行等同替换,而这些修改或者替换,并不使相应计算方法的本质脱离本发明计算方法的精神和范围。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

相关技术
  • 一种基于自适应网格变形的人脸图像去模糊方法
  • 一种基于暗通道的遥感图像去模糊方法
  • 基于下粗上细型TSV的嵌套式散热网络结构
  • 一种基于去模糊图像的梯度拟合与去模糊方法
技术分类

06120116334206