掌桥专利:专业的专利平台
掌桥专利
首页

基于通道注意力和形变生成对抗网络的水下图像增强方法

文献发布时间:2023-06-19 18:37:28


基于通道注意力和形变生成对抗网络的水下图像增强方法

技术领域

本发明属于水下智能捕捞机器人领域,涉及一种基于通道注意力和形变生成对抗网络的水下图像增强方法。

背景技术

海洋蕴藏人类可持续发展的宝贵财富,同时也是高质量发展的战略要地。水下光学图像由于承载信息能力强、成本低、信息丰富等优势,已经在水下考古、沉船打捞、海洋牧场养殖和监测等领域发挥至关重要的作用。注意到,由于固有的水体吸收和散射效应,水下光学图像在成像过程通常表现为光照不均匀、色偏、对比度低、边缘细节模糊等综合性退化,严重地影响后续的检测识别、图像分割等任务。

随着人工智能的飞速发展,基于数据驱动的深度学习技术已经被广泛地应用于水下图像去噪、细节恢复、超分辨率等任务。注意到,水下图像增强可作为一种从退化图像到清晰图像的域转换操作。目前而言,水下图像增强方法主要包括:无模型增强方法、基于模型的复原方法和基于数据驱动的域映射方法。

(1)无模型增强方法

通过解决单颜色空间中的颜色失真和低对比度问题,相关学者提出了ContrastLimited Adaptive Histogram Equalization(CLAHE)和White Balance(WB)技术。借助于双边和三边滤波技术,相关学者设计了多尺度Retinex框架来实现水下图像增强。另外,利用白平衡和直方图均衡化策略来融合拉普拉斯对比度、局部对比度、显著性和曝光度四种代表性权重图,相关学者提出了Fusion水下图像增强方法。

(2)基于模型的复原方法

通过估计透射图和背景光,相关学者提出了基于Dark Channel Prior(DCP)的方法。通过综合考虑空中和水下场景之间的转换差异,相关学者构建了Underwater DarkChannel Prior(UDCP)框架。通过解决蓝色通道中的像素值偶尔低于红色通道中像素值的实际问题,相关学者提出了基于双通道的方案来实现水下图像增强。

(3)基于数据驱动的域映射方法

通过结合空中图像和深度图像,相关学者提出了两阶段WaterGAN方案来实现水下图像增强。通过利用改正的水下图像成像模型和场景参数,相关学者提出了基于合成图像的UWCNN方法。为了消除使用成对水下图像的限制,相关学者提出了一种带有循环一致性损失的弱监督学习方法。为了显著提高水下图像增强过程中训练稳定性,通过计算数据分布和模型分布之间的距离,相关学者创建了Wasserstein GAN方法。

复杂海底环境下已有的水下图像增强方法主要存在如下缺陷:(1)基于无模型增强方法难以应对解决多种退化类型;(2)基于模型复原的方法需要估计大量参数、建模过程复杂;(3)基于数据驱动的域映射方法引入大量水下混合噪声、前景物体构建不完整、不同场景深度下感兴趣物体的增强一致性差。

发明内容

为了解决上述问题,本发明提供本发明采用的技术方案是:一种基于通道注意力和形变生成对抗网络的水下图像增强方法,包括以下步骤:

获取水下图像构建数据集,将数据集划分为训练集和测试集;

构建用来重新标定通道权重、具有多尺度感受野的自适应通道注意力模块;

构建用来进行特征提取、面向卷积核偏移的形变卷积模块;

将自适应通道注意力模块和形变卷积模块进行融合,生成对抗网络;

基于训练集数据对生成对抗网络进行训练,得到训练好的生成对抗网络;

将测试集数据输入到训练好的生成对抗网络中,得到增强后的水下图像。

进一步地:所述构建用来重新标定通道权重、具有多尺度感受野的自适应通道注意力模块的过程如下:

卷积运算表示为:

其中,

融合操作表示为:

其中,

使用全局平均池化来计算每个特征图的平均响应,其表示为:

其中,

利用单隐层神经网络来提高非线性映射能力,其表示为:

z

其中,

进一步地,自适应地选择合适的空间感受野,其表示为:

其中,

重新标定的特征V表示为:

其中,

进一步地,所述构建用来进行特征提取、面向卷积核偏移的形变卷积模块的过程如下:

标准卷积核的采样位置表示为:

P={(u,v)|u,v∈{-k,-(k-1),…,k}} (8)

其中,u和v分别表示卷积核采样位置的横坐标、纵坐标,

形变卷积的采样位置表示为:

其中,p

形变后的标准卷积核的采样位置应该满足:

使用双线性插值技术从X方向来计算非整数位置

其中:p

坐标为

位置

其中,

整个形变卷积模块的输出表示为:

其中,O(x

进一步地,所述生成对抗网络包括串联连接的生成器和判别器;

所述生成器包括串联连接的编码器和解码器;

所述编码器包括串联连接的自适应通道注意力模块和形变卷积模块。

进一步地,所述基于训练集数据对生成对抗网络进行训练采用的损失包括WGAN-GP损失、损失和图像梯度差损失。

一种基于通道注意力和形变生成对抗网络的水下图像增强装置,包括:

获取模块:获取水下图像构建数据集,将数据集划分为训练集和测试集;

构建模块I:构建用来重新标定通道权重、具有多尺度感受野的自适应通道注意力模块;

构建模块II:用于构建用来进行特征提取、面向卷积核偏移的形变卷积模块;

融合模块:用于将自适应通道注意力模块和形变卷积模块进行融合,生成对抗网络;

训练模块:用于基于训练集数据对生成对抗网络进行训练,得到训练好的生成对抗网络;

得到模块:用于将测试集数据输入到训练好的生成对抗网络中,得到增强后的水下图像。

本发明采用的基于通道注意力和形变生成对抗网络的水下图像增强方法,考虑到水下成像过程中所引进的散斑噪声,高斯噪声和脉冲噪声,借助于单隐层神经网络和全局平均池化技术,本发明构建具有不同尺度感受野的自适应通道注意力模块;考虑到传统堆叠卷积层仅具备非常有限的前景物体编码性能,通过利用逐层卷积核偏移策略,本发明提出基于形变卷积网络的特征提取方法;结合自适应通道注意力模块和形变卷积模块,本发明提供的一种基于通道注意力和形变生成对抗网络的水下图像增强方法,本发明具有以下有益效果:

(1)本发明利用单隐层神经网络和全局平均池化技术,构建了具有不同感受野的自适应通道注意力模块,一方面,有助于降低混合噪声(散斑噪声、高斯噪声和脉冲噪声)对于特征层的影响;另一方面,提高了不同场景深度下感兴趣物体的增强一致性;

(2)构建了卷积核偏移方法和偏置位置调制机制,提出了基于形变卷积网络的特征提取策略,从而从空间层面增强前景物体编码能力;

(3)结合自适应通道注意力模块和形变卷积网络,利用L

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1自适应通道注意力模块图;

图2形变卷积模块图;

图3整体水下图像增强框架图;

图4 UIEB数据集主观评估结果图;

图5 URPC数据集主观评估结果图;

图6关键点匹配比较结果图。

具体实施方式

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合,下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。

此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。

一种基于通道注意力和形变生成对抗网络的水下图像增强方法,包括以下步骤:

S1:获取水下图像构建数据集,将数据集划分为训练集和测试集;

S2:构建用来重新标定通道权重、具有多尺度感受野的自适应通道注意力模块;

S3:构建用来进行特征提取、面向卷积核偏移的形变卷积模块;

S4:将自适应通道注意力模块和形变卷积模块进行融合,生成对抗网络;

S5:基于训练集数据对生成对抗网络进行训练,得到训练好的生成对抗网络;

S6:将测试集数据输入到训练好的生成对抗网络中,得到增强后的水下图像。

步骤S1、S2、S3、S4、S5、S6顺序执行;

进一步地:所述构建用来重新标定通道权重、具有多尺度感受野的自适应通道注意力模块的过程如下:

自适应通道注意力模块主要是用来重新标定通道权重。注意到,在通道层面使用两种不同感受野的卷积核来增强特征可以显著提高视觉质量。因此,如图1所示,卷积运算可表示为:

其中,

随后,融合操作可表示为:

其中,

随后,使用全局平均池化来计算每个特征图的平均响应,其可以表示为:

其中,

另外,利用单隐层神经网络来提高非线性映射能力,其可以表示为:

z

其中,

进一步地,自适应地选择合适的空间感受野,其可以表示为:

其中,

最终,重新标定的特征V可以表示为:

其中,

进一步地:所述构建用来进行特征提取、面向卷积核偏移的形变卷积模块的过程如下:

为了增强前景物体构建的完整性,通过构建卷积核偏移方法,提出基于形变卷积网络的特征提取策略,有助于从空间层面增强前景物体的编码能力。如图2所示,标准卷积核的采样位置可以表示为:

P={(u,v)|u,v∈{-k,-(k-1),…,k}} (8)

其中,u和v分别表示卷积核采样位置的横坐标、纵坐标,

相应地,形变卷积的采样位置可表示为:

其中,p

注意到,形变后的采样位置应该满足:

为解决非整数位置处特征值

其中p

相似地,坐标为

进一步地,位置

其中,

最终,整个形变卷积模块的输出可表示为:

其中,O(x

进一步地,如图3所示,所述生成对抗网络包括串联连接的生成器和判别器;

所述生成器包括串联连接的编码器和解码器;

其中自适应通道注意力模块和形变卷积模块以有机串联的形式集成到编码器框架中。

所述基于训练集数据对生成对抗网络进行训练采用的损失包括WGAN-GP损失、损失和图像梯度差损失。

一种基于通道注意力和形变生成对抗网络的水下图像增强装置,包括:

获取模块:获取水下图像构建数据集,将数据集划分为训练集和测试集;

构建模块I:构建用来重新标定通道权重、具有多尺度感受野的自适应通道注意力模块;

构建模块II:用于构建用来进行特征提取、面向卷积核偏移的形变卷积模块;

融合模块:用于将自适应通道注意力模块和形变卷积模块进行融合,生成对抗网络;

训练模块:用于基于训练集数据对生成对抗网络进行训练,得到训练好的生成对抗网络;

得到模块:用于将测试集数据输入到训练好的生成对抗网络中,得到增强后的水下图像。

为了充分证明所提出方法的有效性和优越性,将所本申请提出的基于通道注意力和形变生成对抗网络的水下图像增强方法(简称:ACADGAN)与基于物理模型的恢复方法、无模型增强方法和图像到图像转换技术相对比。

图4UIEB数据集主观评估结果图比较的场景如图4所示,主要包括人工光(第一列)、蓝光(第二列)、绿光(第三列)、暗光(第四列)和紫罗兰光(第五列)。从图4中我们可以清楚地观察到基于物理模型的图像恢复方法很难获得令人满意的视觉性能。具体而言,UDCP方法使得上述场景中颜色偏差效应更加明显。明显地,基于无模型的水下图像增强方法,即UCM方法,可能会带来红色效应。注意到,FUnIE-GAN和UWCNN方法只能实现非常有限的增强效果。同时,FUnIE-GAN方法在紫罗兰光情况下会引起明显的颜色偏差。直观地说,本发明提出的ACADGAN方法最终能够实现最佳的视觉增强质量。此外,一致的结论也可以从图5中总结出来,图5URPC数据集主观评估结果图。

为了进一步充分证明本发明所提出的ACADGAN方法优越性,分别在UIEB和URPC数据集上面利用峰值信噪比(PSNR)、结构相似性(SSIM)、水下图像色彩(UICM)、锐度(UISM)和清晰度(UIConM)等指标进行对比,比较结果分别总结在表1和表2中。

表1为UIEB数据集客观图像质量量化对比

表2为URPC数据集客观图像质量量化对比

从表1和表2中我们可以看出,本发明所提出的ACADGAN方法可以在大多数指标上实现最佳(用粗体表示)或次优(用下划线表示)性能。具体而言,一方面,根据在UIEB数据集上所获得的最优SSIM和UIConM指标,我们可以推断所提出的ACADGAN方法能够有效地保留图像结构、纹理和对比度。同时,本发明所提出的ACADGAN方法可以完美地保存图像内容。此外,在URPC数据集的评估方面,本发明所提出的ACADGAN方法实现了最佳UIQM分数,这意味着增强图像更符合人类视觉感知。更重要的是,本发明所提出的ACADGAN方法可以获取最佳UCIQE分数,这意味增强后的图像在色度、饱和度和对比度方面实现了更好平衡。

为了从基本特征表达的角度来验证本专利所提的ACADGAN方法有效性和优越性,本专利使用SIFT、Harris和Canny方法分别提取关键点、角点和像素级边缘。相应地,关键点匹配结果如图6所示,从中我们可以清楚地看到,由于原始水下图像质量差,很少有关键点能够得到正确地提取和匹配。同时,通过采用复原或增强方法可以增强关键点匹配性能。此外,本专利所提出的ACADGAN方法可以实现最佳关键点匹配性能,这意味着本专利所提出的ACADGAN方法可以使退化的水下图像恢复更基本的特征。需要强调的是,表3和表4中提供了UIEB和URPC数据集平均评估性能,

表3为UIEB数据集特征表达对比

表4为URPC数据集特征表达对比

从中我们可以明显地看出,本专利所提出的ACADGAN方法可以在提取SIFT关键点、Harris角点和Canny边缘方面实现最佳或次优性能,这表明本专利所提出的ACADGAN方法有助于基本特征的提取。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 一种基于多分支生成对抗网络的水下图像增强方法
  • 基于自对抗生成对抗网络的水下图像增强方法
  • 一种基于多尺度密集生成对抗网络的水下图像增强方法及网络模型的训练方法
技术分类

06120115630356