掌桥专利:专业的专利平台
掌桥专利
首页

基于强度引导的多尺度超分辨重建方法

文献发布时间:2023-06-19 18:46:07


基于强度引导的多尺度超分辨重建方法

技术领域

本发明属于深度超分辨重建技术,是一种基于强度引导的多尺度超分辨重建方法。

背景技术

近年来,能够捕捉目标深度信息的深度成像设备的蓬勃发展使得深度信息的获取不再困难,深度信息的使用在我们的生活中已经变得有迹可循。甚至,因为深度设备的小型化,其已经被加装在手机和平板上,用于所拍摄图片的增强现实。但是,绝大多数低成本的深度设备本身的尺寸大小又是造成深度信息的空间分辨率低的主要原因。

相比较于传统的相机,低成本的深度传感器拍摄的深度图通常存在空间分辨率低的问题,并且饱受缺失值、噪声、量化等方面的降级影响。这限制了其潜在的应用。图像Super Resolution(SR)技术为突破这个限制提供了新的思路。

一般来讲,图像的超分辨问题是一个病态的逆问题,它没有一个固定的解。因为总是有多个high-resolution(HR)图像对应单个low-resolution(LR)图像。一些经典的SR方法为该技术的发展奠定了基础:R.Keys(1.R.Keys,"Cubic convolution interpolationfor digital image processing,"IEEE Transactions on Acoustics,Speech,andSignal Processing 29,1153-1160(1981).)基于预测的方法提出Cubic convolutioninterpolation作为一种新的离散数据重构采样技术。Sun et al.(2.J.Sun,J.Sun,Z.B.Xu,and H.Y.Shum,"Image super-resolution using gradient profile prior,"Proc Cvpr IEEE,2471-+(2008).)基于边缘的方法,利用从大量自然图像中学习到的梯度轮廓在估计HR图像时对图像梯度提供约束。Xiong et al.(3.Z.W.Xiong,X.Y.Sun,andF.Wu,"Robust Web Image/Video Super-Resolution,"IEEE T Image Process 19,2017-2028(2010).)为了提高图像分辨率和感知质量,提出了自适应正则化和基于学习的超分辨相结合的方法。Yang et al.(4.J.C.Yang,J.Wright,T.S.Huang,and Y.Ma,"Image Super-Resolution Via Sparse Representation,"IEEE T Image Process 19,2861-2873(2010).)基于稀疏表示方法,证明了图像块表示为选择适当超完备字典的稀疏线性组合形式。得益于CNN在彩色图像SR上的出色表现,SRCNN证明了其潜力。越来越多的研究者开始尝试将其应用到深度图像上,并且取得了进步:Hui et al.(5.T.W.Hui,C.C.Loy,andX.O.Tang,"Depth Map Super-Resolution by Deep Multi-Scale Guidance,"ComputerVision-Eccv 2016,Pt Iii 9907,353-369(2016).)提出一种强度引导深度的超分辨网络MSG-Net,利用HR强度特征在不同层次解决深度图上采样过程中的歧义问题。Guo et al.(6.C.L.Guo,C.Y.Li,J.C.Guo,R.M.Cong,H.Z.Fu,and P.Han,"Hierarchical FeaturesDriven Residual Learning for Depth Map Super-Resolution,"IEEE T ImageProcess28,2545-2557(2019).)提出一种建立在残差U-Net深度网络架构之上的超分辨网络DepthSR-Net,最终的HR图时通过将学习得到的残差图加入到插值后的HR图像中获得的。Ruget et al.(7.A.Ruget,S.McLaughlin,R.K.Henderson,I.Gyongy,A.Halimi,andJ.Leach,"Robust super-resolution depth imaging via a multi-feature fusiondeep network,"Opt Express 29,11917-11937(2021).)利用从原始直方图中提取第一和第二深度图,通过多尺度特征融合来实现在低光子水平、低信背比的环境下的稳健超分辨成像.Lindell的方法采用线性SPAD探测器,需要对场景进行扫描成像,获取场景的深度信息往往需要几个小时,无法满足越来越广泛的实时性的需求;Sun在网络的基础上对Lindell进行改进,使得网络对深度的估计效果更好,但是并没有改变采集场景信息耗时长的问题。Ruget的方法将数据的特征提取过程拆分为预处理部分,虽然减轻了网络训练的计算负担,但是在预处理阶段步骤繁多、耗时。

发明内容

本发明的目的在于提出一种基于强度引导的多尺度超分辨重建方法,以实现稳健的估计场景的深度图像,并克服低成本的深度设备空间分辨率小的缺陷。

实现本发明的技术解决方案为:一种基于强度引导的多尺度特征融合的深度超分辨重建方法,具体的步骤为:

步骤1:搭建深度图成像系统,分别从SPAD阵列和相机中获得三维深度信息和二维强度图像;将三维深度信息投影成二维,通过棋盘格特征探测,应用特征转换来实现与二维强度图像的对齐;将配准后的三维深度数据进行提高信噪比处理;利用深度的最大似然估计方法计算数据立方体的峰值中心质量得到二维深度图,并在空间维度上利用克罗内克积分别放大4倍、2倍和1倍,作为网络的输入深度图、第一深度特征图和第二深度特征图;在空间维度上利用下采样法将三维数据分别缩小2倍和4倍,通过计算中心质量获得二维的第三深度特征图和第四深度特征图;

步骤2:构建基于强度引导的多尺度特征融合的深度超分辨网络并对其进行训练;所述超分辨网络包括U型网络、强度特征提取分支和去噪分支,所述U型网络一侧为编码器,从上至下分别为编码器第一层、编码器第二层、编码器第三层、编码器第四层和编码器第五层;另一侧为解码器,一共5层,从上至下分别为解码器第一层、解码器第二层、解码器第三层、解码器第四层和解码器第五层;所述去噪分支包含多尺度卷积模块和非局部卷积模块,所述多尺度卷积模块用于提取拼接后的编码器输出图像的多尺度深层特征信息;非局部卷积模块用于融合不同尺度深度特征信息;所述强度特征提取分支用于提取和深度特征尺寸大小相同的对应强度特征;

步骤3:将步骤1预处理得到的深度数据输入训练好的模型获得重构的最终深度图;其中,在网络的编码器的第一层输入预处理得到的输入深度图,编码器第二层、编码器第三层、编码器第四层和编码器第五层分别对应输入第一深度特征图、第二深度特征图、第三深度特征图和第四深度特征图;在解码器的每一层输入去噪分支输出的数据,并在每一层插入强度特征提取分支提取出来的对应尺度的强度特征。

优选地,利用深度的最大似然估计方法计算出二维深度图D

其中,H

优选地,强度特征提取分支提取强度特征的具体过程如下:

(1)将强度图I输入强度特征提取分支;

(2)强度特征提取分支对强度图I进行卷积、池化获得四个具有不同尺寸、不同通道数的强度特征I'

I'

pool1_f=max pool

I'

pool2_f=max pool

I'

pool3_f=max pool

I'

其中,I是输入,σ表示激活函数ReLU,b表示偏差,maxpool

优选地,多尺度卷积模块提取拼接后的编码器输出图像的多尺度深层特征信息的具体过程如下:

(1)将编码器每一层卷积后的数据利用池化、改变通道数或上采样后拼接在一起得到输入数据K;

(2)多尺度卷积模块使用3×3卷积层,对输入数据K进行卷积,得到图像K

(3)将图像K

(4)将K

K'=concat(K

其中,K'是输出图像,concat(·)表示的是合并操作。

优选地,非局部卷积模块采用级联残差密集结构,融合特征的具体过程为:

(1)将多尺度卷积模块的输出K'作为非局部融合模块的输入,K'的形状为(B,H,W,C),其中B为批次,H为特征的高,W为特征的宽,C为通道数;

(2)非局部卷积模块使用1×1的卷积层和reshape操作对输入数据进行提取不同尺度的特征,分别记作theta=reshape[conv

(3)将theta和phi两个特征进行元素之间的相乘得到

(4)将y用卷积注意力机制模块CBAM在空间和通道上进行自适应的特征优化,得到z,z的形状是(B,H,W,C);

(5)将z与输入K'进行元素相加操作,得到最终的结果K”。

优选地,非局部卷积模块最终的输出具体为:

其中,K”是输出,softmax(·)是归一化指数函数,CBAM(·)表示注意力机制CBAM模块,

本发明与现有技术相比有显著的优点:(1)简单高效的利用SPAD阵列数据,将多尺度特征的提取从网络中拆解为预处理,然后在训练阶段直接提供给网络,减轻了网络的训练时间和计算机的计算压力。(2)解决直方图与强度图像之间的错位问题。(3)对比其他网络,提出的网络在上采样方面表现良好,特别是低信噪比和低光子水平的数据。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明用于采集数据的系统图。

图2是配准的具体流程。

图3是网络架构示意图。

图4是多尺度卷积模块的结构示意图。

图5是非局部卷积模块的结构示意图。

图6是在不同噪声水平的仿真数据上使用训练好的模型来重建目标深度图。

图7是在真实数据上使用训练好的模型来重建目标深度图。

具体实施方式

一种基于强度引导的多尺度特征融合的超分辨重建方法,适用于对单光子激光雷达采集的三维数据做计算后处理,以得到放大的、高质量的深度图,具体步骤为:

步骤1:搭建深度图成像系统,分别从SPAD阵列和相机中获得三维低分辨率深度信息和二维高分辨率强度图像;

如图1所示,所述深度图成像系统使用同轴布置方式,可以提供完整的接收器视场与激光束的重叠。所述深度图成像系统分为两个模块:(1)光源模块。光源为半导体脉冲激光器,工作波长为635nm,重复频率为20MHz。信号发生器产生同步信号以触发脉冲激光器和SPAD阵列。激光器接收到来自信号发生器发出的脉冲信号产生激光,点光源由扩散片整形成面光源,覆盖阵列SPAD探测器的探测范围。(2)探测器模块。由SPAD阵列、常规相机和带通滤波器组成。SPAD阵列输出检测目标的时间相关单光子计数直方图,常规相机记录场景的时间集成光子通量。具体操作是分别从SPAD阵列和相机中获得三维低分辨率深度信息和二维高分辨率强度图像;采集到数据之后,将三维深度信息投影成二维,通过棋盘格特征探测,应用特征转换来实现投影成二维的图像和相机获得的二维高分辨率强度图像的对齐,详细流程如图2所示。

将配准后的三维深度数据进行提高信噪比处理,利用深度的最大似然估计方法,通过计算三维数据峰值的中心质量计算出二维深度图,并在空间维度上利用克罗内克积放大4倍、2倍和1倍,作为网络的输入深度图、第一深度特征图和第二深度特征图;在空间维度利用下采样法将三维数据分别缩小2倍和4倍,通过计算中心质量获得二维的第三深度特征图和第四深度特征图;其中,深度的最大似然估计方法计算中心质量计算出二维深度图的具体公式如下:

其中,带噪声的光子计数H

步骤2:如图3所示,构建基于强度引导的多尺度特征融合的深度超分辨网络并对其进行训练。其中基于强度引导的多尺度特征融合的深度超分辨网络的基本框架是U型网络,U型网络在整体结构上是近似对称的,其左侧是编码器,一共5层,从上至下分别为编码器第一层、编码器第二层、编码器第三层、编码器第四层和编码器第五层;其右侧是解码器,一共5层,从上至下分别为解码器第一层、解码器第二层、解码器第三层、解码器第四层和解码器第五层。网络包含去噪分支和强度特征提取分支。两个分支的作用主要是在高分辨率强度图像的引导下,对输入的低分辨率深度图像进行去噪和上采样至需要的分辨率。其中,去噪分支包含多尺度卷积模块和非局部卷积模块。

强度特征提取分支用于提取和深度特征尺寸大小相同的对应强度分支;强度分支由卷积操作和2×2最大池化组成。每层卷积操作的滤波器个数分别是64,128,256,512。分支的每一层的卷积操作的输出大小为与深度特征尺寸大小相同的强度特征。这些输出沿着网络的解码器进行集成,通过沿着滤波器的维度和相应的大小的层级联。具体描述如下:

(1)将强度图I作为强度特征提取分支的输入;

(2)将I进行卷积、池化获得四个具有不同尺寸、不同通道数的强度特征I'

I'

pool1_f=maxpool

I'

pool2_f=maxpool

I'

pool3_f=maxpool

I'

其中,I是输入,σ表示激活函数ReLU,b表示偏差,maxpool

如图4所示,所述去噪分支中的多尺度卷积模块用于提取深层特征信息,以挖掘更多的有效的特征信息。提取深层特征信息的具体过程如下:

(1)将编码器每一层卷积后的数据利用池化、改变通道数或上采样之后拼接在一起得到输入数据K;

(2)多尺度卷积模块先使用3×3卷积层,对输入数据K进行卷积,得到K

(3)将K

(4)将K

整个模块用公式表示如下:

K'=concat(K

其中,K'是输出,concat(·)表示的是合并操作。

如图5所示,所述非局部卷积模块用于融合不同尺度特征信息,以提高特征信息的利用率。非局部卷积模块采用级联残差密集结构,融合特征的具体过程为:

(1)将多尺度卷积模块的输出K'作为非局部融合模块的输入,K'的形状为(B,H,W,C),其中B为批次,H为特征的高,W为特征的宽,C为通道数;

(2)非局部卷积模块先使用1×1的卷积层和reshape操作对输入数据进行提取不同尺度的特征,分别记作theta=reshape[conv

(3)将theta和phi两个特征进行元素之间的相乘得到

(4)将y用卷积注意力机制模块CBAM在空间和通道上进行自适应的特征优化,得到z,z的形状是(B,H,W,C);

(5)将z与最开始的输入K'进行元素相加操作,得到最终的结果K”;将K”插入到对应的解码器的每一层,与强度特征和以及经过上采样的当前解码器层数的下一层的输出数据拼接。

整个模块用公式表示如下:

其中,K”是输出,softmax(·)是归一化指数函数,CBAM(·)表示注意力机制CBAM模块,

除此以外,网络所选择的优化器是ADAM,选用的损失函数是L1损失函数。

步骤3:将步骤1预处理得到的深度数据输入训练好的模型获得重构的最终深度图;其中,在网络的编码器的第一层输入预处理得到的输入深度图,编码器第二层、编码器第三层、编码器第四层和编码器第五层分别对应输入第一深度特征图、第二深度特征图、第三深度特征图和第四深度特征图;在解码器的每一层输入去噪分支输出的数据,并在每一层插入强度特征提取分支提取出来的对应尺度的强度特征。

如图6所示,是在仿真数据上使用最近邻插值、Lindell等人提出的强度直接融合的方法何本发明方法得到的重建目标深度图对比。其中,(a)是各个方法在ppp=5/SBR=0.5的噪声水平下的目标深度重建图。(b)是各个方法在ppp=2/SBR=0.04的噪声水平下的目标深度重建图。(c)表格是各个方法在两种不同的噪声水平下的重建效果的数值展示,我们使用针对异常值敏感的均方根误差

如图7所示,是在真实数据上使用最近邻插值、Lindell等人提出的强度直接融合的方法何本发明方法得到的重建目标深度图对比。其中,Captured指的是经过简单预处理的原始数据。

技术分类

06120115687468