掌桥专利:专业的专利平台
掌桥专利
首页

基于Transformer网络的噪声估计图像增强方法

文献发布时间:2023-06-19 19:28:50


基于Transformer网络的噪声估计图像增强方法

技术领域

本发明属于图像处理技术领域,更进一步涉及图像增强技术领域中的一种基于Transformer网络的噪声估计图像增强方法。本发明可用于遥感、夜间图像的视频、生物医学等领域的低光照度图像,提高图像的对比度和清晰度,减少经过图像增强而放大产生的噪声和颜色失真现象,从而增强图像质量。

背景技术

低光照图像增强是图像处理的基本任务之一,它在不同的领域有广泛的应用,包括视觉监控、自动驾驶和手机摄影。图像作为重要的载体深入人们的日常生活,尤其是智能手机摄影变得无处不在和突出。在这类应用中,由于不可避免的环境或技术限制,如夜间图像摄影和有限的曝光时间,常常得到包含大量噪声的低光照图像。因此增强低光照图像和视频具有重要的意义和实际应用价值。基于深度学习的无监督算法主要分为两类:有监督学习和无监督学习。有监督学习的图像增强方法通过深度学习建模,依赖于大规模训练数据集以学习参考图像和真实图像之间的映射关系,从而将真实的低光照图像进行增强,使其趋近于参考图像水平。该类方法通常对某一类数据具有良好的增强效果,但对不同于训练数据集特性的数据难以取得较好效果,泛化能力较弱。除此之外,图像增强中的去噪方法主要基于图像噪声分布均匀的高斯理论,不考虑噪声水平因光照不均匀而产生改变的情况。无监督学习的图像增强方法最大的优点在于摆脱难以获取大规模优质训练数据集的困境,节省大量人力物力。基于深度学习的无监督图像算法能在提高低光照图像质量的同时平衡计算效率。然而,现有的无监督算法倾向于追求算法的灵活和快速,增强后的图像难以取得较好的质量性能。

天津大学在其申请的专利文献“基于注意引导和多尺度特征融合的低照度图像增强方法”(申请日:2022年03月18日,申请号:202210267898.3,申请公布号:CN 114596233A)中提出了一种低照度图像的增强方法。该方法的实现步骤包括:1.构建数据集,该数据集包括大量的模拟低照度环境合成的测试集和真实环境下拍摄的BayerRaw格式的低照度图像。2.对图像数据进行预处理,包括降低维度,去除黑电平,图像系数放大。3.构建特征提取网络,采用五个stage组成特征提取网络用于学习不同尺度下的特征信息,每个stage由若干个引入密集连接的残差块组成。4.构建包括多分辨率融合块和链式残差池化层的特征融合网络,最终得到充分包含浅层特征的细节信息和深层特征的语义信息的特征图,实现了各层级特征图之间的融合。5.设计可解释性的注意力损失函数,引导网络训练。6.后处理,输出增强后的高分辨率图像。该方法虽然提出了一种可解释的注意力引导机制,并且不带来额外的神经网络推理负担。但是,该方法仍然存在的不足之处是,特征融合网络采用了多分辨率融合块和链式残差池化层,能够有效集成浅层和深层特征信息,池化操作容易丢失原始图像信息,无法通过融合多尺度特征进行弥补,带来图像增强指标性能上的下降。

大连海事大学在其申请的专利文献“基于光照信息引导的无监督低光图像增强方法及装置”(申请日:2022年06月08日,申请号CN202210646447.0,申请公布号:CN115115540A)中提出一种无监督的低照度图像增强方法。该方法的实现步骤包括:收集训练数据集和测试数据集;构建基于光照信息引导的低光增强模型,并将训练数据集中的图像输入到低光增强模型中进行训练;基于光照信息引导的低光增强模型为包括生成器和判别器的生成式对抗网络;生成器包括光照估计模块和增强网络,光照估计模块生成单通道的光照信息图,用以指导所述增强网络的学习;增强网络以U-net作为网络的基本块,在U-net网络的不同尺度层添加光照信息图指导;将测试数据集中的图像输入到训练好的低光增强模型中,得到增强后的正常光图像。该方法采用生成对抗网络来进行图像增强,摆脱了有监督算法中需要获取成对图像数据的局限,并采用了对特征添加光照信息用以指导低光增强的过程来避免结构缺失与颜色偏差。但是,该方法仍然存在的不足之处是,采用U-net作为网络的基本块,在不同尺度上多次提取特征,造成特征的冗余使用,降低了模型的效率。

西安理工大学在其申请的专利文献“基于Retinex模型的极低照度图像增强方法”(申请日:2022年04月29日,申请号:CN 202210475548.6,申请公布号:CN 114723638 A)中提出来一种极低照度的图像增强方法。该方法采用双边滤波器估计低照度图像的颜色通道图中每个像素点的光照亮度值,并根据光照亮度值确定颜色通道图的光照分量,构建基于四元数的低秩矩阵约束对反射分量去噪;基于颜色通道图和对应的光照分量计算颜色通道图对应的第一反射分量;基于第一去噪约束模型去除第一反射分量中的噪声,得到第二反射分量;根据光照分量和第二反射分量生成增强后的低照度图像。该方法通过构建去噪约束模型可以有效保留RGB三颜色通道间的内在联系,增加去噪效果,进而解决低照度图像增强后颜色失真严重的问题。但是,该方法仍然存在的不足之处是,去噪约束模型采用了较为复杂的四元数矩阵形式,时间复杂度较高进而导致整个模型处理图像的速度变慢。

发明内容

本发明的目的是针对上述现有技术的不足,提出一种基于Transformer网络的噪声估计图像增强方法,用于解决池化操作容易丢失原始图像信息,无法通过融合多尺度特征进行弥补,以及采用U-net作为网络的基本块,在不同尺度上多次提取特征,造成特征的冗余使用,去噪约束模型采用复杂的四元数矩阵,时间复杂度较高的问题。

实现本发明目的的思路是:本发明构建全分辨的特征提取分解子网络,有助于保留图像的空间细节,用于解决池化或下采样操作带来的丢失图像信息的问题。网络利用卷积算子提取图像的局部信息,并且结合Transformer的全局建模能力,能够充分地发挥模型的表达能力,避免了目前U-net模块容易造成特征冗余使用的问题,能更加有效地提取图像特征。本发明设计的噪声估计优化子网络,通过卷积层拟合估计噪声方差来估计增强后图像的噪声水平以达到去噪目的,简单高效,改善了现有技术中不考虑图像实际噪声分布,去噪盲目且采用复杂的四元矩阵去噪模型,时间复杂度较高的缺点。本发明基于Transformer构建的特征提取分解子网络利用Transformer和CNN能够捕获全局和局部信息的特点,充分发挥模型的表达能力,提高模型的计算效率。输入图像经过特征提取分解子网络变换得到光照图像和反射图像,其中反射图像代表图像的本质内容如色彩和细节等信息,大量因分解变换操作而被放大产生的噪声也包含其中。因此通过构建噪声估计优化子网络,近似估计反射图像的噪声方差,最后引入残差网络进而学习去噪,得到增强后图像。

本发明方法的具体步骤包括如下:

步骤1,生成训练集:

选取至少500张含有噪声的低光照度图像,将每张图像裁剪为128*128大小的图像块,对每个图像块进行数据增广,再将增广后的所有图像块转换为3*128*128的张量形式,将所有张量形式的图像块组成训练集;

步骤2,构建基于Transformer的特征提取分解子网络:

搭建由第一卷积层,第一Transformer层,第二Transformer层,第三Transformer层,第二卷积层,除法器依次串联组成的特征提取分解子网络;第一、第二卷积层的激活函数分别采用ReLU函数和Sigmoid函数实现,卷积核的尺寸分别设置为3*3和1*1,步长均设置为1;第一至第三Transformer层的通道数均设置为16;

步骤3,构建噪声估计优化子网络:

步骤3.1,搭建由第一卷积层、第二卷积层串联组成的噪声估计模块,第一、第二卷积层的激活函数均采用ReLU函数,卷积核尺寸分别设置为3*3和1*1,步长均设置为1;

步骤3.2,搭建由第一卷积层、第二卷积层、通道注意力层串联组成的优化模块;第一、第二卷积层的激活函数均采用ReLU函数,卷积核尺寸均设置为3*3,步长均设置为1;通道注意力层的通道数设置为16;

步骤3.3,搭建由乘法器、卷积层、相加器串联组成的融合模块,卷积层的激活函数采用ReLU函数,卷积核尺寸设置为1*1,步长设置为1;

步骤3.4,将噪声估计模块与优化模块并联后再与融合模块串联组成噪声估计优化子网络;

步骤4,将特征提取分解子网络与噪声估计优化子网络串联组成增强网络;

步骤5,训练增强网络:

将训练集输入到增强网络中,利用反向传播算法进行梯度下降,迭代更新增强网络的参数,直到增强网络的损失函数收敛为止,得到训练好的增强网络;

步骤6,对低光照图像进行图像增强:

采用与步骤1相同的方式,对待增强的低光照图像进行裁剪、增广处理后,输入到训练好的增强网络中,进行图像增强,输出正常光照的图像。

本发明与现有的技术相比具有以下优点:

第一,由于本发明构建的基于Transformer的特征提取分解子网络,利用卷积算子提取图像的局部信息,并且结合Transformer的全局建模能力,充分地发挥模型的表达能力,更好地提取图像特征,改善了现有技术中仅依赖堆叠卷积层扩大感受野而导致的模型参数量冗余,效率低,容易导致梯度消失的问题,使得本发明采用全分辨的特征提取网络,能够精确地保留图像细节,恢复出更加清晰的图像。

第二,由于本发明构建的噪声估计优化子网络,通过卷积层拟合估计噪声方差来估计增强后图像的噪声水平以达到去噪目的,简单高效,克服了现有技术中不考虑图像实际噪声分布,去噪盲目且采用复杂去噪模型的缺点,使得本发明能够快速有效地进行去噪,且增强后图像变得更加平滑,拥有更加良好的视觉效果和图像质量。

附图说明

图1是本发明的流程图;

图2是本发明网络模型的结构示意图。

具体实施方式

下面结合附图和实施例,对本发明作进一步的描述。

参照图1,对本发明实施例的实现步骤作进一步的描述。

步骤1,生成训练集。

本发明实施例是从低光照数据集LOLdataset中选取500张含有噪声的低光照度图像,将每张图像裁剪为128*128大小的图像块,对每个图像块进行数据增广,再将增广后的所有图像块转换为3*128*128的张量形式,将所有张量形式的图像块组成训练集。

所述对每个图像块进行数据增广的操作如下。

在顺时针旋转90度、逆时针旋转90度、旋转180度、图像的中心对称变换的四种图像变换中随机选取一种进行数据增广。本发明实施例通过数据增广共生成500张图像块,与未进行数据增广的500张图像块组成训练集,总共1000张图像块。

参照图2,对本发明构建的增强网络结构作进一步描述。

步骤2,构建基于Transformer的特征提取分解子网络。

搭建由第一卷积层,第一Transformer层,第二Transformer层,第三Transformer层,第二卷积层,除法器依次串联组成的特征提取分解子网络;第一、第二卷积层的激活函数分别采用ReLU函数和Sigmoid函数实现,卷积核的尺寸分别设置为3*3和1*1,步长均设置为1;第一至第三Transformer层的通道数均设置为16。

本发明实施例采用的Transformer结构由第一Layer norm层、多头自注意力层、第一相加器、第二Layer norm层、MLP前馈层、第二相加器串联组成,其中Layer norm层的通道数设置为16。

步骤3,构建噪声估计优化子网络。

步骤3.1,搭建由第一卷积层、第二卷积层串联组成的噪声估计模块,第一、第二卷积层的激活函数均采用ReLU函数,卷积核尺寸分别设置为3*3和1*1,步长均设置为1。

步骤3.2,搭建由第一卷积层、第二卷积层、通道注意力层串联组成的优化模块;第一、第二卷积层的激活函数均采用ReLU函数,卷积核尺寸均设置为3*3,步长均设置为1;通道注意力层的通道数设置为16。

步骤3.3,搭建由乘法器、卷积层、相加器串串联组成的融合模块,卷积层的激活函数采用ReLU函数,卷积核尺寸设置为1*1,步长设置为1。

步骤4,将特征提取分解子网络与噪声估计优化子网络串联组成增强网络。

步骤5,训练增强网络。

将训练集输入到增强网络中,利用反向传播算法进行梯度下降,迭代更新增强网络的参数,直到增强网络的损失函数收敛为止,得到训练好的增强网络。

所述增强网络的具体训练步骤如下:

第一步,将训练集输入到增强网络中,经过特征提取分解子网络中的第一卷积层进行通道数变换,第一至第三Transformer层进行特征提取,第二卷积层进行降维得到光照图像;将输入的训练集图像通过除法器除以光照图像得到反射图像,特征提取分解子网络输出该反射图像。

第二步,将反射图像作为噪声估计优化子网络的输入,该子网络中的噪声估计模块中的第一卷积层对输入进行特征提取,得到特征图,对特征图进行小范围的滤波后,再将特征图和滤波后的图像做差,将差值求平方均值来近似噪声的方差,最后将噪声估计后的方差经第二卷积层进行学习修正,输出噪声方差特征图。

第三步,将反射图输入到优化模块中的第一、第二卷积层完成进一步的特征提取,再通过通道注意力层对特征进行校正,保留有价值的特征,得到近似的理想、没有退化的图像特征。

第四步,将第三步中得到的特征图和第二步中得到的噪声方差特征图,通过融合模块中的乘法器相乘来拟合噪声特征,输入融合模块中的卷积层得到噪声图,使用相加器将第一步中的输入的训练集图像和噪声图相加,得到输出图像。

所述损失函数公式如下:

其中,L表示损失函数,∑表示求和操作,M表示低照度图像块x中像素的总数,N(i)表示以第i个像素点为中心的窗口区域,窗口大小取为5*5,j表示N(i)窗口内的第j个像素,w

所述w

其中,exp(·)表示以自然数e为底的指数操作,s

步骤6,对低光照图像进行图像增强。

采用与步骤1相同的方式,对待增强的低光照图像进行裁剪、增广处理后,输入到训练好的增强网络中,进行图像增强,输出正常光照的图像。

下面结合仿真实验对本发明的效果做进一步的说明。

1.仿真实验条件:

本发明的仿真实验的硬件平台:处理器为Intel(R)Core(TM)CPUi9-10900X@3.70GHz、内存为32GB、显卡为NVIDIA RTX2080Ti。

本发明的仿真实验的软件平台:在Anaconda的Python 3.9.0虚拟环境中搭建了包含Torch-1.11.0+cu100环境库的代码运行。

本发明的仿真实验采用的数据是低光照数据集LOLdataset,在该数据集中任选500张图像进行裁剪得到128*128大小的图像块,并对裁剪后的每张图像块再进行数据增广,再将增广后的所有图像块转换为3*128*128的张量形式,将所有张量形式的图像块组成训练集;再从剩余的数据集中任选15张低光照度图像以及一一对应的正常光照参考图像作为图像对组成测试集。

2.仿真内容及其结果分析:

本发明的仿真实验是采用本发明和一个现有技术(SCI图像增强方法)分别对输入的测试集低光照度图像进行图像增强。

在仿真实验中,采用的一个现有技术是指:

现有技术sci图像增强方法是指:Long Ma等人在“Toward Fast,Flexible,andRobust Low-Light Image Enhancement”(Published as a conference paper at CVPR2022)中提出的图像增强算法,简称SCI图像增强方法。

为了验证本发明的仿真实验效果,利用图像质量评价指标平均峰值信噪比PSNR(Peak Signal to Noise Ratio)对仿真实验的两种方法的增强结果图像进行评价。利用下面公式,计算15张测试图像的平均峰值信噪比,将其计算结果绘制成表1:

其中,

表1本发明与现有技术在图像质量指标PSNR的对比表

结合表1可以看出,本发明的平均峰值信噪比PSNR为17.04dB,高于现有技术方法SCI,证明本发明可以得到更优质的增强图像。

以上仿真实验表明:本发明通过构建基于Transformer的特征提取分解子网络,可以高效提取图像特征,改善了仅依赖卷积层堆叠的参数冗余以及容易造成梯度消失的问题,提高了网络模型的表达能力和参数利用效率。除此之外,设计的噪声估计优化子网络对噪声进行拟合估计,并采用残差结构进行去噪优化,简单有效地去除了增强后图像中的噪声,提高了网络模型整体的性能。

技术分类

06120115923435