掌桥专利:专业的专利平台
掌桥专利
首页

基于改进型循环生成对抗网络去图像运动模糊方法

文献发布时间:2023-06-19 10:32:14


基于改进型循环生成对抗网络去图像运动模糊方法

技术领域

本发明属于计算机图像处理技术领域,涉及一种基于改进型循环生成对抗网络去图像运动模糊方法。

背景技术

图像去运动模糊一直都是计算机视觉和图像处理领域的一个重要研究方向之一。在手持拍摄时,由于曝光过程中相机镜头与景物的相对运动而造成的运动模糊成为影响识别结果的重要原因之一。

运动模糊又称为动态模糊,按照模糊核是否已知,图像去模糊问题主要分为盲目去模糊算法和非盲目去模糊算法。非盲目的图像去模糊,其原理是利用已知的模糊核进行反卷积操作,完成图像复原工作。2011年,Zhao等[1]提出基于RL的图像去模糊新算法,是时域的一种图像修复算法,可较好地抑制振铃响应核图像噪声方法问题,并保留图像一定的细节信息。2016年,Luo等[2]提出了一种结合全变差和分数阶全变差模型的图像去模糊方法,建立去模糊图像的凸优化模型,用变量分别和交替方向法快速求解该模型,结果显示该算法可获得较高的峰值信噪比和结构自相似指标。另一方面,盲目图像去模糊则需要先估计出模糊核,转化为非盲的图像去模糊,再进行反卷积的图像修复工作。对于未知的模糊核估计,常利用标准化稀疏先验的正则化方法估算复杂模糊核[3],利用双目相机[4]的几何关系模型,推导出图像的扩散函数。在实际情况中,由于手持拍摄时运动随机性很大,加上与被拍物体存在着复杂且不可预知的相对运动,因此符合盲目图像去模糊的相关理论与方法。在这方面,传统方法的关建点是通过丰富的图像物理参数以及复杂的数学计算实现运动模糊的复原,但都存在着迭代次数多,计算量大,对相机的硬件要求高等不足,且易受环境噪声的影响。

随着深度学习在计算机视觉领域的广泛利用,借助卷积神经网络用于图像的去模糊工作取得了一定的成效。2014年,Xu等[5]提出利用卷积神经网络估计模糊核的非盲去模糊方法,开辟了深度学习在去图像模糊领域的新篇章。2017年,Nah等[6]针对盲目去模糊,使用卷积神经网络从退化图像中直接复原清晰图像。以上方法仍然存在模糊核估计不准确、缺乏特征一致性的损失约束等问题,并未关注到去模糊处理后的图像会在在频率域出现多余的高频频谱成分,导致去模糊后的图像与原图产生了新的误差,降低了图像的识别准确率。

参考文献:

[1]赵博,张文生,and丁欢,″基于Richardson-Lucy的图像去模糊新算法,″计算机工程与应用,vol.47,no.34,pp.1-4+77,2011.

[2]罗广利and杨晓梅,″结合全变差和分数阶全变差模型的图像去模糊,″计算机工程与设计,vol.37,no.07,pp.1857-1861+1866,2016.

[3]唐梦,彭国华,and郑红婵,″基于正则化方法的图像盲去模糊,″计算机应用研究,vol.31,no.02,pp.596-599+611,2014.

[4]洪汉玉,张文莫,章秀华,and时愈,″双目视图运动图像去模糊方法,″武汉工程大学学报,vol.37,no.04,pp.45-50,2015.

[5]L.Xu,J.S.Ren,C.Liu,and J.Jia,″Deep convolutional neural networkfor image deconvolution,″Advances in neural information processing systems,vol.27,pp.1790-1798,2014.

[6]S.Nah,T.Hyun Kim,and K.Mu Lee,″Deep multi-scale convolutionalneural network for dynamic scene deblurring,″in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2017,pp.3883-3891.

发明内容

发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于改进型循环生成对抗网络去图像运动模糊方法。

为了解决上述技术问题,本发明公开了一种基于改进型循环生成对抗网络去图像运动模糊方法,包括如下步骤:

步骤1,选择模糊-清晰图像数据集,构建非配对的模糊-清晰数据集作为训练数据集和测试数据集;

步骤2,构建生成器网络,所述生成器网络包括编码器模块、特征转换器模块以及解码器模块;

步骤3,构建以感受野块划分图像的PatchGAN判别器网络;

步骤4,通过基于Wasserstein距离的对抗损失和循环一致性的特征损失构建联合损失函数;

步骤5,根据步骤2和步骤3中得到的生成器网络和判别器网络构造两个镜像的环形生成式对抗网络GAN(Generative Adversarial Networks)网络相互配合,得到循环生成对抗网络模型,包括去模糊生成器、模糊生成器、清晰判别器和模糊判别器;相对应的有两个对抗损失函数来平衡整体模糊与清晰图像的转换。

步骤6,将待处理的运动模糊图像输入到步骤5中训练好的去模糊生成器中,得到初步去模糊后的图像;

步骤7,对步骤6得到的初步去模糊图像进行二维傅里叶变化,滤除其中过增强而产生的多余高频亮点频谱成分,得到准确的清晰图像。

在一种实现方式中,步骤1包括:

步骤1将选取的模糊-清晰图像数据集经过x轴、y轴和z轴的随机旋转模拟手持拍摄的真实场景,所述随机旋转的角度满足如下约束条件:

其中,α,β,γ分别表示相机坐标系和世界坐标系之间在x轴、y轴和z轴的角度差,λ

在一种实现方式中,步骤2中,

所述编码器模块由三层卷积神经网络层组成,每层卷积层使用Switchable归一化层和ReLU激活函数;第一下采样层卷积核大小为7×7,卷积步长为1,卷积核个数为64;第二下采样层卷积核大小为为3×3,卷积步长为2,卷积核个数为128;第三下采样层卷积核大小为为3×3,卷积步长为2,卷积核个数为256;

所述特征转换器模块由九层残差网络块组成,每层卷积层使用Switchable归一化层和ReLU激活函数;卷积核大小为3×3,卷积步长为1,卷积核个数为256;通过对深层次网络中冗余层的恒等映射,来保证整体网络的误差不再增加,以防输入图像的特征丢失。

所述解码器模块由三层卷积神经网络层组成,每层卷积层使用Switchable归一化层和ReLU激活函数;第一层和第二层为转置卷积层,卷积核大小为1×1,卷积步长为2,卷积核个数为128;第三层为卷积层,卷积核大小为7×7,卷积补偿为1,卷积核个数为64。

在一种实现方式中,步骤3中所述判别器网络使用感受野块将输入图像划分成M×M块,并映射为M×M的矩阵X,X

在一种实现方式中,步骤4建立基于Wasserstein距离的对抗损失函数,表示如下:

其中G

在一种实现方式中,步骤4建立循环一致性的特征损失函数,表示如下:

其中G

在一种实现方式中,步骤4构建联合损失函数,表示如下:

其中

在一种实现方式中,步骤5包括如下步骤:

步骤5-1:输入真实的清晰图片到改进型循环生成对抗网络,训练判别器;

步骤5-2:输入真实的模糊图片经过去模糊生成器G

步骤5-3:生成的伪清晰图像经过模糊生成器G

步骤5-4:循环往复至网络收敛,保留第一个去模糊生成器G

在一种实现方式中,本发明步骤7包括如下子步骤:

步骤7-1:对原始清晰图像进行二维傅里叶变换,获得原始清晰图像的图像频域结果;

步骤7-2:对经过去模糊生成器的初步去模糊图像进行二维傅里叶变换,获得初步去模糊图像的图像频域结果;

步骤7-3:提取初步去模糊图像的图像频域结果中高频信息处较原始清晰图像的图像频域结果中新出现的高频亮点信息;

步骤7-4:对初步去模糊图像的亮点信息进行滤波变换。

在一种实现方式中,步骤1中的模糊-清晰图像数据集采用已公开的GOPRO_Large数据集,所述GOPRO_Large数据集包含高帧相机拍摄的街景图片和人工合成的糊模图片。

有益效果:

(一)本发明提出的去图像运动模糊方法针对运动模糊,以较好效果、较高的鲁棒性解决由运动带来的模糊问题,完成去运动模糊的移动端目标识别任务。通过去运动模糊,本身因为相对运动带来边缘细节不清晰的图像可以向外界传递更丰富的语义信息,令识别结果更准确可靠。从而使得利用相对廉价的手机摄像头替代高速相机成为可能,极大提高了移动端图像智能识别工作的效率。

(二)本发明提出的去图像运动模糊方法解决了对于不成对数据集的无监督训练丢失原图特征的问题。运动模糊数据集很难采集到完全一致的成对清晰-模糊图像,传统的GAN网络对于不成对的无监督训练过程中容易丢失原图的特征,生成的图像虽完成了去模糊任务,但与原图仍有一定或较大的差异,从而导致后期图像识别结果出现误差。本发明利用两个镜像的GAN网络构成一个环形网络,引入循环一致性损失函数计算,保证了生成器对于不成对的数据集的无监督训练可以输出和原图具有很高相似性的图片。

(三)本发明提出使用适应性更强的SwitchableNorm归一化方式(SwitchableNormalization),完成去运动模糊的工作。而SwitchableNorm归一化方式通过将批标准化算法(Batch Normalization,BN)、层标准化算法(Layer Normalizaiton,LN)、实例标准化算法(InstanceNormalization,IN)结合起来使用,通过可微分学习为网络中的每一个归一化层确定合适的归一化操作,每个算法赋予权重,得到在自身网络结构下效果最佳的归一化方式。

(四)本发明中提出对初步去模糊后的图像进行二维傅里叶变化,提取图像频域结果中高频信息处较原频域新出现的高频亮点信息,实现了对频谱中的伪增强现象的去除。经过滤波后的图像识别结果中与清晰图像一样未出现伪识别结果,增强了去模糊网络的准确性,提高了系统的鲁棒性。

(五)本发明实施例中对模型训练集加入了随机旋转畸变因子,并同时考量网络在时域和频域上的表现,提出了一个较全面的模糊图像的预处理方法。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的实现流程图;

图2是本发明中的生成网络结构图;

图3是本发明中的对抗网络结构图;

图4是本发明中去模糊的循环生成网络训练过程图;

图5是本发明中去模糊前后YOLO目标识别结果对比图;

图6是本发明中图像二维傅里叶变换对比图;

图7是本发明中去除亮点信息后的二维傅里叶变换结果图;

图8是本发明中去除亮点信息后的YOLO目标识别结果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

图1是本发明实例中基于改进型循环生成对抗网络去图像运动模糊方法的流程图,包括如下步骤:

步骤1,选择已有公开的模糊-清晰图像数据集,构建非配对的模糊-清晰数据集作为训练数据集和测试数据集。本实施例中,采用已公开的GOPRO_Large数据集,所述GOPRO_Large数据集包含高帧相机拍摄的街景图片和人工合成的糊模图片。

进一步提升模型对运动模糊包括非垂直角度的手持拍摄物体的泛化能力及识别准确率,采用数据增强方法对网络模型进行训练,将输入的训练样本进行随机的角度调整,表示为:

α,β,γ分别是相机坐标系和世界坐标系之间在x轴、y轴、z轴的角度差,λ

步骤2,构建由3层结构的编码器、9层结构的特征转换器以及3层结构的解码器构成的生成器网络。

本实施例中,参照图2,生成器网络由3层结构的编码器、9层结构的特征转换器以及3层结构的解码器构成,每层卷积层使用Switchable归一化层和ReLU激活函数。生成器先通过三个卷积层进行特征提取,其中第一下采样层卷积核大小为7×7,卷积步长为1,卷积核个数为64,保证输入数据的尺寸不变;第二下采样层卷积核大小为3×3,卷积步长为2,卷积核个数为128,第三下采样层卷积核大小为3×3,卷积步长为2,卷积核个数为256,实现两次下采样效果,完成编码(Encoding)工作。接下来,特征转换器通过9层ResNet网络实现从模糊图像域到清晰图像域的特征转换以及图像运动模糊的去除,卷积核大小为3×3,卷积步长为1,卷积核个数为256。最后解码器接收特征转换器的特征地图(Feature Map)通过两个反向卷积层,卷积核大小为1×1,卷积步长为2,卷积核个数为128,将高维特征复原成低维特征,完成上采样,并送入一层卷积层生成清晰图像,卷积核大小为7×7,卷积补偿为1,卷积核个数为64,完成解码(Decoding)工作。整个生成器的网络结构中解码器与编码器是相互对称的,完成了图像到图像的风格迁移任务。

此外,步骤2每层卷积层使用Switchable归一化层。Switchable归一化层通过将BN算法、LN算法、IN算法结合起来使用,通过可微分学习为网络中的每一个归一化层确定合适的归一化操作,每个算法赋予权重,得到在自身网络结构下效果最佳的归一化方式。SN的计算公式表示为:

SN算法中同时计算了BN,LN,IN 3种归一化方式的均值和方差,并计算6个参数的权值,最后对加权系数使用SOFTMAX进行归一化。假设一个待处理的特征地图(FeatureMap)的尺寸为(N,C,W,H),式中,h

步骤3,构建以感受野块划分图像的PatchGAN判别器网络。

本实施例中,参照图3,判别器网络主要完成区分生成图像与真实图像的工作,考虑到在高分辨率、高清细节的图像风格迁移领域,普通GAN的判别器并不适用。本发明使用PatchGAN的判别器结构,使用感受野块将输入图像划分成M×M块,并映射伪M×M的矩阵X,X

步骤4,通过基于Wasserstein距离的对抗损失和循环一致性的特征损失构建联合损失函数。

本实施例中,基于Wasserstein距离的两项对抗损失函数表示如下,分别是图4循环生成对抗网络中上半环和下半环训练时的对抗损失函数。

其中G

本实施例中,改进型循环生成对抗网络同时学习G

本实施例中,整体网络的复合损失函数表示为:

其中

步骤5,根据步骤2和步骤3中得到的生成器网络和判别器网络构造两个镜像的环形GAN网络相互配合,得到循环生成对抗网络模型,包括去模糊生成器、模糊生成器、清晰判别器和模糊判别器。

本实施例中,参照图4,图的上半边是应用训练好的去模糊生成器完成去运动模糊的过程。图的下半边是循环生成对抗网络的训练过程,两个镜像的环形生成对抗网络相互配合,保证了整体网络的输入输出尽可能相似。对于一个单项网络:

步骤5-1:输入真实的清晰图片到改进型循环生成对抗网络,训练判别器;

步骤5-2:输入真实的模糊图片经过去模糊生成器G

步骤5-3:生成的伪清晰图像经过模糊生成器G

步骤5-4:循环往复至网络收敛,保留第一个去模糊生成器G

与上述过程类似,输入清晰图像,通过另一个单项网络,两个网络循环交替训练,形成闭环循环生成对抗网络。网络训练收敛后会得到两个可用的生成器模型:去运动模糊模型以及模拟运动模糊模型。保留第一个去模糊生成器用于清晰化手持拍摄的运动模糊照片。

步骤6,将待处理的运动模糊图像输入到步骤5中训练好的去模糊生成器中,得到初步去模糊后的图像。

本实施例中,图5是一组由于运动模糊的图像、经过去模糊网络后图像和清晰图像的对比效果,并展示了经过识别后的结果对比。可以直观比较在经过去模糊网络后模糊图像在轮廓、纹理和颜色等细节上都有了改善。YOLO是一种基于深度神经网络的对象识别和定位算法,运行速度很快,可用于实时识别目标,在评价去模糊效果时,我们引入YOLOv3,在识别结果的对比中,可以从模糊程度不同的三类图中的识别平均精度mAP(meanaverageprecision)结果中对比出经过去模糊后的图像中目标的识别精度有明显的提高,且可以识别出视野远处的目标物体。

步骤7,对步骤6得到的初步去模糊图像进行二维傅里叶变化,滤除高频的亮点频谱信息后得到准确的清晰图像。

本实施例中,参照图6,对图像进行二维傅里叶变换,去模糊后的图像其高频信息处相较于运动模糊时更清晰了,这也解释了经过去模糊后的图像在时域中的细节被加强了,达到了去模糊的效果。但与此同时,相较于清晰原图,运动模糊图像都出现了原图像不存在的高频频谱成分,均位于频谱图像的四个象限中心,是经去模糊网络后产生的伪增强情况。

去模糊图像的后处理关键是对过增强的亮点频谱信息的提取与滤除,其二维傅里叶变换的频谱分布如图7所示。

经过滤波变换后的图像(参照图8),虽相较于原始的去模糊图像主观感觉清晰度有了些许的下降,但相较于原模糊图像的清晰度仍有明显的提高,且去除了一些过增强而导致的伪识别的情况。左图和右图在原始去模糊图像的“motorbike”和“truck”旁分别识别出了“person”,是一个伪识别结果,而经过滤波后处理,去除了图像亮点频谱信息的识别结果中,与清晰原图一样未出现伪识别结果,增强了去模糊网络的准确性,提高了系统的安全性。

本发明提供了一种基于改进型循环生成对抗网络去图像运动模糊方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式之一。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

相关技术
  • 基于改进型循环生成对抗网络去图像运动模糊方法
  • 基于循环多尺度生成对抗网络的图像盲去运动模糊方法
技术分类

06120112585357