掌桥专利:专业的专利平台
掌桥专利
首页

深度图补全方法、装置、计算机设备及存储介质

文献发布时间:2024-04-18 20:01:23


深度图补全方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及人工智能领域,特别涉及一种深度图补全方法、装置、计算机设备及存储介质。

背景技术

在三维AIGC(Artificial Intelligence Generated Content,生成式人工智能)领域,深度图补全是重要的基础任务之一。深度图补全是指基于残缺的深度图及与之关联的场景图,对残缺的深度图进行补全,以保证场景图上的每个像素都有场景深度信息。

相关技术中,通常采用神经网络模型进行深度图补全。如,通过有监督学习的方式,收集并标定大量特定场景的图像与深度信息,然后在标定数据上训练神经网络模型,进而使用训练得到的神经网络模型来补全该场景下的其他残缺深度图。

然而,基于有监督学习的方法训练神经网络模型,容易出现过拟合现象,导致深度补全质量较差。

发明内容

本申请实施例提供了一种深度图补全方法、装置、计算机设备及存储介质。所述技术方案如下:

一方面,本申请实施例提供了一种深度图补全方法,所述方法包括:

对场景图、残缺深度图以及噪声图进行特征聚合,得到聚合特征,所述残缺深度图是所述场景图对应的存在残缺的深度图;

基于扩散强度参数,通过深度补全网络对所述聚合特征进行深度补全处理,得到深度补全特征,所述深度补全网络基于扩散模型,所述扩散强度参数用于控制深度补全过程中的反向扩散强度;

基于所述深度补全特征进行图像还原,得到补全深度图,所述补全深度图的完整度高于所述残缺深度图的完整度。

另一方面,本申请实施例提供了一种深度图补全装置,所述装置包括:

特征聚合模块,用于对场景图、残缺深度图以及噪声图进行特征聚合,得到聚合特征,所述残缺深度图是所述场景图对应的存在残缺的深度图;

深度补全模块,用于基于扩散强度参数,通过深度补全网络对所述聚合特征进行深度补全处理,得到深度补全特征,所述深度补全网络基于扩散模型,所述扩散强度参数用于控制深度补全过程中的反向扩散强度;

图像还原模块,用于基于所述深度补全特征进行图像还原,得到补全深度图,所述补全深度图的完整度高于所述残缺深度图的完整度。

另一方面,本申请实施例提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条程序代码,至少一条程序代码由处理器加载并执行,以实现如上述方面所述的深度图补全方法。

另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述方面所述的深度图补全方法。

另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如上述方面所述的深度图补全方法。

本申请实施例中,通过对场景图、残缺深度图以及噪声图进行特征聚合,得到聚合特征,并基于扩散强度参数,通过深度补全网络对所述聚合特征进行深度补全处理,可以生成用于图像还原的深度补全特征,以得到补全深度图;采用本申请实施例的方法,将基于扩散模型的扩散去噪过程引入了深度补全任务中,降低了模型在训练过程中的过拟合风险,提升了推理阶段深度补全网络的稳健性,即,提升了补全深度图的补全稳定性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的深度图补全方法的流程图;

图2是本申请一个示例性实施例提供的深度补全网络的示意图;

图3是本申请一个示例性实施例提供的残差层ResBlock-D的内部结构示意图;

图4是本申请一个示例性实施例提供的残差层ResBlock-U的内部结构示意图;

图5是本申请一个示例性实施例提供的通过深度补全网络对聚合特征进行N轮迭代深度补全处理的示意图;

图6是本申请一个示例性实施例提供的对深度补全网络进行训练的流程图;

图7是本申请一个示例性实施例提供的深度图补全装置的结构框图;

图8是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

生成式人工智能(Artificial Intelligence Generated Content,AIGC)是指基于生成对抗网络、大型预训练模型等人工智能技术的方法,通过对已有数据进行学习和模式识别,以适当的泛化能力生成具有一定创意和质量的内容的技术。例如,基于人工智能生成的文字、图像、音频等媒体内容。

在三维AIGC领域,深度图补全是重要的基础任务之一。深度图补全是指基于残缺的深度图及与之关联的场景图,对残缺的深度图进行补全,以保证场景图上的每个像素都有场景深度信息。

相关技术中,通常采用神经网络模型进行深度图补全。如,通过有监督学习的方式,收集并标定大量特定场景的图像与深度信息,然后在标定数据上训练神经网络模型,进而使用训练得到的神经网络模型来补全该场景下的其他残缺深度图。

然而,基于有监督学习的方法训练神经网络模型,容易出现过拟合现象,导致深度补全质量较差。

本申请提出一种基于扩散模型的深度图补全方法,可以提升深度图的补全质量。

本申请提出的深度图补全方法可以应用到多种与深度感知相关的应用场景中,包括但不限于如下场景:

1、三维建模领域。可基于本申请提出的深度图补全方法来补全各类深度感知设备(例如激光雷达、深度相机等设备)采集的深度图,也可补全多视深度算法计算得到深度图,进而提升深度感知完整度、提升三维模型的建模质量。

2、自动驾驶领域。可基于本申请提出的深度图补全方法来补全车载设备感知的场景深度,以提升自动驾驶算法全面感知周围环境的能力,从而做出更为有效的驾驶决策。

3、增强现实领域。可基于本申请提出的深度图补全方法来来提升真实场景的深度估计结果,从而更好地理解当前视角下的真实场景与虚拟物体的相对关系,提升用户体验。

4、3D打印领域。可基于本申请提出的深度图补全方法来更好地感知目标物体的深度信息,以完整捕捉带打印物体的细节,提升打印模型质量。

在一些实施例中,本申请提出的深度图补全方法可以应用于单视深度图补全任务中,以对单视的场景图对应的残缺深度图进行深度补全。其中,单视深度图补全也可称之为单目深度估计,即利用一张或者唯一视角下的场景图,估计场景图中每个像素点相对于拍摄源的距离。对于人眼来说,由于存在大量的先验知识,所以可以从一只眼睛所获取的图像信息中提取出大量深度信息。

本申请提出的深度图补全方法还可以应用于游戏业务场景中,例如在AR游戏(Augmented Reality Game,增强现实游戏)或VR游戏(Virtual Reality Game,虚拟现实游戏)中,为使得增强现实感,用户可以使用VR或AR设备扫描真实环境,并由设备基于环境扫描结果在游戏中构建虚拟环境。由于构建虚拟环境需要利用到环境的深度信息,当VR或AR设备仅能够根据环境扫描结果获取稀疏或残缺深度图时,可以采用本申请提出的深度图补全方法,基于残缺深度图和扫描过程中拍摄得到的环境图像进行深度图补全,从而基于补全深度图构建虚拟环境。

参见图1,图1是本申请一个示例性实施例提供的深度图补全方法的流程图。该流程图包括以下步骤。

步骤101,对场景图、残缺深度图以及噪声图进行特征聚合,得到聚合特征,残缺深度图是场景图对应的存在残缺的深度图。

场景图是用于计算对应的深度图的原始图像。在一些实施例中,场景图是RGB(RedGreen Blue)三通道彩色图像。

可选的,场景图是图像采集设备(如相机)拍摄得到的图像。

可选的,场景图是经过预处理或各类计算得到的图像。

残缺深度图是场景图对应的存在残缺的深度图。

示例性的,场景图是分辨率为(H,W)的RGB图像,其中,H是像素高度,W是像素宽度。则场景图对应的残缺深度图是分辨率为(H,W)的深度图像,但部分像素点存在残缺,即,场景图上部分像素点对应的场景深度信息缺失。

可选的,残缺深度图是深度感知设备(例如激光雷达、深度相机等设备)采集得到的深度图。受制于物理硬件的限制,对于光滑物体表面反射、半透明或透明物体、深色物体、超出量程等因素都可能造成深度感知设备采集的深度图存在缺失。

可选的,残缺深度图也可以是经过预处理或各类计算得到的存在残缺的深度图。

噪声图是随机获取的包含噪声信息的图像。

示例性的,噪声图是分辨率为(H,W)的图像,其中每个像素点的取值ε基于均值为0、标准差为1的高斯分布随机确定得到。即,ε~G(0,1)。

关于对场景图、残缺深度图以及噪声图进行特征聚合的方式,在一些实施例中,可以对场景图、残缺深度图分别编码,再将编码后的特征与噪声图进行特征聚合处理,得到聚合特征。

在另一些实施例中,也可以通过其他方式进行特征聚合,例如将场景图、残缺深度图以及噪声图进行融合后再进行编码等,本申请实施例对特征聚合的具体方式不作限制。

在一些实施例中,可以采用包含CNN(Convolutional Neural Networks,卷积神经网络)的模型进行特征聚合处理。

示例性的,经过特征聚合处理得到的聚合特征分辨率为(H,W),通道数为64。

步骤102,基于扩散强度参数,通过深度补全网络对聚合特征进行深度补全处理,得到深度补全特征,深度补全网络基于扩散模型,扩散强度参数用于控制深度补全过程中的反向扩散强度。

深度补全网络用于对聚合特征进行深度补全处理,以使得输出的补全深度特征能用于还原出具有更高完整度的深度图。

深度补全网络基于扩散模型是指深度补全网络可以为扩散模型,也可以为包含扩散模型的其他模型。

扩散模型也称为去噪扩散概率模型(Denoising Diffusion ProbabilisticModel,DDPM),是一种可以用于实现人工智能生成内容的模型。扩散模型的算法理论基础是通过变分推断(Variational Inference)训练参数化的马尔可夫链(Markov Chain)。

扩散模型的训练过程包括两个阶段,分为前向扩散过程(Forward DiffusionProcess)和反向扩散过程(Reverse diffusion process)。

前向扩散过程用于给定初始数据分布并不断地向分布中添加高斯噪声,前向扩散过程是一个马尔可夫过程。

反向扩散过程用于将噪声不断还原为初始数据,通过反向扩散过程预测每一步加入的噪声,并将噪声去掉的方式以逐渐还原得到无噪声的图像。

深度补全网络的应用过程是基于扩散强度参数,对输入的聚合特征进行深度补全处理,得到深度补全特征的过程。深度补全处理过程中,扩散强度参数用于控制对聚合特征进行去噪的反向扩散强度。

示例性的,扩散强度参数t可以基于(0,1)均匀分布随机确定。即,t~U(0,I)。

步骤103,基于深度补全特征进行图像还原,得到补全深度图,补全深度图的完整度高于残缺深度图的完整度。

在一种可能的实现方式中,可以通过神经网络模型,对深度补全特征进行图像还原,得到补全深度图。例如,通过CNN对深度补全特征进行图像还原。

在一些实施例中,补全深度图是完整的深度图,在另一些实施例中,补全深度图仍存在残缺,但补全深度图的完整度高于残缺深度图的完整度。

示例性的,残缺深度图中有1000个像素点存在缺失,则补全深度图中可能有500个像素点或300个像素点存在缺失,或没有像素点存在缺失。

在一些实施例中,得到完整的深度图可能包括多轮迭代,每轮迭代中均生成该轮对应的补全深度图,且补全深度图的完整度随着迭代轮数的增加而增加。关于通过多轮迭代生成完整的深度图的更多内容参见图X及其相关描述,在此不再赘述。

综上所述,通过对场景图、残缺深度图以及噪声图进行特征聚合,得到聚合特征,并基于扩散强度参数,通过深度补全网络对所述聚合特征进行深度补全处理,可以生成用于图像还原的深度补全特征,以得到补全深度图;采用本申请实施例的方法,将基于扩散模型的扩散去噪过程引入了深度补全任务中,降低了模型在训练过程中的过拟合风险,提升了推理阶段深度补全网络的稳健性,即,提升了补全深度图的补全稳定性。

关于对场景图、残缺深度图以及噪声图进行特征聚合,得到聚合特征的方式,在一些实施例中,可以分别对残缺深度图和场景图进行特征编码,再将编码后的特征与噪声图进行聚合。

在一些实施例中,可以通过第一编码器对残缺深度图进行特征编码,得到残缺深度特征。

示例性的,将分辨率为(H,W)的残缺深度图D

其中SiLU为激活函数,

在一些实施例中,可以通过第二编码器对场景图进行特征编码,得到场景特征。

示例性的,将分辨率为(H,W)的场景图I

其中

在一些实施例中,可以对场景特征、残缺深度特征和噪声图进行聚合,得到聚合特征,其中,场景特征、残缺深度特征和噪声图的维度一致。

在一些实施例中,可以首先将残缺深度特征F

其中,聚合特征

本领域技术人员可以理解的,以上对第一编码器、第二编码器以及特征聚合的方式的说明仅作示例,也可以通过其他合理的特征编码方式对场景图、残缺深度图以及噪声图进行编码和特征聚合。例如,第一编码器中的二维1×1卷积运算可以替换为多层感知机或者Transformer结构,第二编码器可以替换为任意的图像预训练大模型等,诸如此类的变形均在本申请的保护范围之内。

为了提取出聚合特征中的深层信息,可以通过下采样扩散和上采样扩散的过程进行特征提取。

在一些实施例中,深度补全网络包括下采样扩散子网络和上采样扩散子网络。

在一些实施例中,可以根据扩散强度参数,通过下采样扩散子网络对聚合特征进行下采样扩散处理,得到下采样深度特征;并根据扩散强度参数,通过上采样扩散子网络对下采样深度特征进行上采样扩散处理,得到深度补全特征。

其中,下采样扩散子网络用于对特征进行下采样处理,上采样扩散子网络用于对特征进行上采样处理。

在一些实施例中,深度补全网络中包括多种分辨率层级,随着下采样处理的进行,得到的特征对应的分辨率层级递减;随着上采样处理的进行,得到的特征对应的分辨率层级递增。

示例性的,深度补全网络中可以包括4个分辨率层级,分别为(H,W)、(H/2,W/2)、(H/4,W/4)和(H/8,W/8)。

示例性的,不同的分辨率层级对应的卷积特征维度(通道数)分别为64、128、128、256。

为了逐层提取出聚合特征中不同尺度的深度信息,在一些实施例中,下采样扩散子网络包括n个下采样层,上采样扩散子网络包括n个上采样层。

参见图2,图2是本申请一个示例性实施例提供的深度补全网络的示意图。

在图2所示的模型结构中,将包括下采样扩散子网络241、上采样扩散子网络242以及瓶颈编码子网络mid的模型结构称之为深度补全网络;将包括深度补全网络、第一编码器以及第二编码器的模型结构称之为DiffDC网络201。

如图2所示,深度补全网络包括下采样扩散子网络241和上采样扩散子网络242。其中,下采样扩散子网络241中包括n个下采样层(n=4),分别为下采样层D0、D1、D2和D3;上采样扩散子网络242中包括n个上采样层(n=4),分别为上采样层U0、U1、U2和U3。

关于通过下采样扩散子网络对聚合特征进行下采样扩散处理,得到下采样深度特征的过程,在一些实施例中,可以通过n个下采样层依次进行下采样处理。

在一些实施例中,可以根据扩散强度参数,通过第一下采样层对聚合特征进行下采样扩散处理,得到第一下采样特征;根据扩散强度参数,通过第i+1下采样层对第i下采样特征进行下采样扩散处理,得到第i+1下采样特征;并将第n下采样层输出的第n下采样特征作为下采样深度特征。

在一些实施例中,可以对残缺深度图211经过第一编码器221编码得到的残缺深度特征231、场景图212经过第二编码器222编码得到的场景特征232,以及噪声图213进行特征聚合后,将得到的聚合特征作为下采样扩散子网络241中第一个下采样层D0的输入。

在一些实施例中,将对扩散强度参数214进行特征编码后得到的扩散强度特征234也作为下采样层D0的输入。

关于对扩散强度参数t进行编码,得到扩散强度特征F

E

其中δ=-0.28782,sin和cos分别为正弦函数和余弦函数,E

然后经过两层线性神经网络得到生成高维的扩散强度特征F

F

其中linear

本领域技术人员可以理解的,以上对扩散强度参数进行编码的方式仅作示例,也可以通过其他合理的特征编码方式对扩散强度参数进行编码。例如,可以将线性神经网络替换为Transformer结构,或是将sin和cos函数替换为其他基函数(如球谐函数)等,诸如此类的变形均在本申请的保护范围之内。

下文以下采样扩散子网络241中包括4个下采样层为例,对得到下采样深度特征的过程进行说明。

在一些实施例中,可以根据扩散强度参数,通过第一下采样层对聚合特征进行下采样扩散处理,得到第一下采样特征。

例如,将扩散强度特征234和聚合特征(由残缺深度特征231、场景特征232和噪声图213聚合得到)输入至第一下采样层D0中,得到D0输出的第一下采样特征

示例性的,第一下采样层D0中的特征分辨率均为(H,W),第一下采样特征

在一些实施例中,可以根据扩散强度参数,通过第i+1下采样层对第i下采样特征进行下采样扩散处理,得到第i+1下采样特征。

示例性的,i=1,2或3。

例如,将第一下采样特征

示例性的,第2下采样层D1中的特征分辨率均为(H/2,W/2),第2下采样特征

将第2下采样特征

示例性的,第3下采样层D2中的特征分辨率均为(H/4,W/4),第3下采样特征

将第3下采样特征

示例性的,第4下采样层D3中的特征分辨率均为(H/8,W/8),第4下采样特征

在一些实施例中,将第n下采样层输出的第n下采样特征作为下采样深度特征。

例如,n=4的情况下,将第4下采样层输出的第4下采样特征

在一些实施例中,为进一步提取深层特征,在下采样扩散子网络241和上采样扩散子网络242之间,还包括瓶颈编码子网络mid。

在一些实施例中,可以将第4下采样层D3输出的第4下采样特征

下文以上采样扩散子网络242中包括4个上采样层为例,对得到深度补全特征的过程进行说明。

在一些实施例中,可以根据扩散强度参数,通过第一上采样层对下采样深度特征进行上采样扩散处理,得到深度补全特征。

在一些实施例中,可以根据扩散强度参数,通过第一上采样层对下采样深度特征进行上采样扩散处理,得到第一上采样特征。

例如,将扩散强度特征234和基于下采样深度特征

示例性的,第一上采样层U0中的特征分辨率均为(H/4,W/4),第一上采样特征

在一些实施例中,可以根据扩散强度参数,通过第i+1上采样层对第i上采样特征进行上采样扩散处理,得到第i+1上采样特征。

示例性的,i=1,2或3。

例如,将第一上采样特征

示例性的,第2上采样层U1中的特征分辨率均为(H/2,W/2),第2上采样特征

将第2上采样特征

示例性的,第3上采样层U2中的特征分辨率均为(H,W),第3上采样特征

将第3上采样特征

示例性的,第4上采样层U0中的特征分辨率均为(H,W),第4上采样特征

在一些实施例中,将第n上采样层输出的第n上采样特征作为深度补全特征。

例如,在n=4的情况下,将第4上采样层U3输出的第4上采样特征

在一些实施例中,可以基于深度补全特征

示例性的,基于深度补全特征

在一些实施例中,为融合不同尺度的特征信息,可以先对第i上采样特征与第n-i下采样特征进行特征融合,得到第i融合特征;再根据扩散强度参数,通过第i+1上采样层对第i融合特征进行上采样扩散处理,得到第i+1上采样特征。

示例性的,i=1,2或3。

例如,先对第一上采样特征

先对第2上采样特征

先对第3上采样特征

本实施例中,依次通过不同层级的下采样层进行下采样处理,可以从聚合特征中提取到深层特征;在上采样层中,通过对第i上采样特征与第n-i下采样特征进行特征融合,得到第i融合特征,可以使得上采样扩散子网络中的上采样层能够基于不同尺度的特征信息进行学习,从而提升深度补全的效果。

在一些实施例中,每一个下采样层、上采样层以及瓶颈编码子网络mid中,均包含有依次相连的残差层ResBlock(Residual Block)、注意力层Attention以及残差层ResBlock。

基于残差层ResBlock中采样层(Sample)的采样运算的差异,残差层ResBlock可进一步分为ResBlock-D、ResBlock-I和ResBlock-U三种类型:Sample运算为下采样时,对应的ResBlock为ResBlock-D;Sample运算为上采样时,对应的ResBlock为ResBlock-U;Sample运算为恒等映射(Identity Mapping),即不进行采样操作时,对应的ResBlock为ResBlock-I。

示例性的,下采样层D0和上采样层U3中依次包括残差层ResBlock-I、注意力层Attention和残差层ResBlock-I。

示例性的,下采样层D1、D2和D3中依次包括残差层ResBlock-D、注意力层Attention和残差层ResBlock-I。

示例性的,上采样层U0、U1和U2中依次包括残差层ResBlock-U、注意力层Attention和残差层ResBlock-I。

在下采样处理过程中,残差层ResBlock-D用于将第i下采样特征和扩散强度特征通过跃层连接(Skip Connection)的方式进行融合。

在一些实施例中,可以对第i下采样特征进行下采样处理,得到下采样中间特征;基于扩散强度特征和下采样中间特征进行特征融合,生成下采样融合特征,并基于下采样中间特征和下采样融合特征进行特征融合,生成第i+1下采样特征。

其中,扩散强度特征F

参见图3,图3是本申请一个示例性实施例提供的残差层ResBlock-D的内部结构示意图。

以ResBlock为ResBlock-D为例,对生成第i+1下采样特征的过程进行说明。

残差层ResBlock-D中的采样层(Sample)用于对第i下采样特征312进行下采样处理,得到下采样中间特征321(F

F

F

F

F

其中

在上采样处理过程中,残差层ResBlock-U用于将第i上采样特征和扩散强度特征通过跃层连接(Skip Connection)的方式进行融合。

在一些实施例中,可以对第i上采样特征进行上采样处理,得到上采样中间特征;基于扩散强度特征和上采样中间特征进行特征融合,生成上采样融合特征,并基于上采样中间特征和上采样融合特征进行特征融合,生成第i+1上采样特征。

其中,扩散强度特征F

参见图4,图4是本申请一个示例性实施例提供的残差层ResBlock-U的内部结构示意图。

以ResBlock为ResBlock-U为例,对生成第i+1上采样特征的过程进行说明。

残差层ResBlock-U中的采样层(Sample)用于对第i上采样特征412进行上采样处理,得到上采样中间特征421(F

F

F

F

F

其中

本实施例中,基于残差层ResBlock,可以通过跃层连接的方式对第i上采样特征(或第i下采样特征)与扩散强度特征进行特征融合,从而实现将扩散强度特征用于控制深度补全过程中的反向扩散强度。

为了得到完整度较高的补全深度图,在一些实施例中,可以通过多轮迭代进行深度补全处理。

N轮迭代深度补全处理中,每轮中所采用的扩散强度参数可以是不同的。在一些实施例中,随着迭代轮次的增加,扩散强度参数越来越小,以实现由粗到精的深度补全过程。

在一些实施例中,可以确定扩散强度参数序列,扩散强度参数序列中包含N个扩散强度参数,且第k+1扩散强度参数小于第k扩散强度参数。其中,k的取值为从1到N-1的整数。

在一些实施例中,扩散强度参数序列可以基于(0,1)均匀分布随机确定。例如,可以基于(0,1)均匀分布随机选取N个扩散强度参数,降序排列后记为{t

在一些实施例中,可以基于扩散强度参数序列中的扩散强度参数,通过深度补全网络对聚合特征进行N轮迭代深度补全处理,得到深度补全特征。

参见图5,图5是本申请一个示例性实施例提供的通过深度补全网络对聚合特征进行N轮迭代深度补全处理的示意图。

如图5所示,对于第一轮迭代来说,DiffDC网络的输入为基于第1轮残缺深度图511-1、场景图512以及第1轮噪声图513-1进行聚合得到的第1轮聚合特征。

仅作示例的,在第一轮迭代中所采用的扩散强度参数为0.95。

下文以第k轮迭代为例进行说明,在第k轮迭代中,对场景图512、第k轮残缺深度图511-k以及第k轮噪声图513-k进行特征聚合,得到第k轮聚合特征。

其中,第k轮噪声图基于高斯分布随机生成。例如,第k轮噪声图中每个像素点的取值ε基于均值为0、标准差为1的高斯分布随机确定得到。即,ε~G(0,1)。

其中,第k+1轮残缺深度图为第k轮深度补全处理得到的第k轮补全深度图,也即,第k轮残缺深度图511-k是上一轮迭代生成的第k-1轮补全深度图。

在一些实施例中,基于扩散强度参数序列中的第k扩散强度参数,通过深度补全网络对第k轮聚合特征进行深度补全处理,得到第k轮深度补全特征;并基于第k轮深度补全特征进行图像还原,得到第k轮补全深度图。

仅作示例的,在第k轮迭代中所采用的扩散强度参数为0.60。

同理,在第k+1轮迭代中,对场景图512、第k+1轮残缺深度图511-k+1以及第k+1轮噪声图513-k+1进行特征聚合,得到第k+1轮聚合特征,通过深度补全网络对第k+1轮聚合特征进行深度补全处理,得到第k+1轮深度补全特征,并基于第k+1轮深度补全特征进行图像还原,得到第k+1轮补全深度图。

仅作示例的,在第k+1轮迭代中所采用的扩散强度参数为0.49。

其中,第k+1轮残缺深度图511-k+1为在第k轮迭代中生成的第k轮补全深度图。

在一些实施例中,以I

多轮迭代的深度补全过程中,将

仅作示例的,在第N轮迭代中所采用的扩散强度参数为0.11。

本实施例中,通过深度补全网络对聚合特征进行N轮迭代深度补全处理,每一轮迭代中以上一轮迭代生成的补全深度图作为输入,同时每一轮迭代中采用依次递减的扩散强度参数,可以实现由粗到精的深度补全过程,提升深度补全的质量。

为对深度补全网络进行训练,在一些实施例中,可以采集样本场景图、样本残缺深度图、样本噪声图,以及样本深度图,将样本场景图、样本残缺深度图和样本噪声图进行特征聚合后得到的样本聚合特征输入至深度补全网络中,得到样本深度补全特征,基于样本深度补全特征进行图像还原,得到样本补全深度图,并以样本深度图作为监督,基于样本补全深度图和样本深度图的差异确定补全损失,基于该补全损失对深度补全网络进行训练。

为提升训练质量,在一些实施例中,还可以在训练过程中通过引入样本引导图,以降低深度补全网络的扩散随机程度。

参见图6,图6是本申请一个示例性实施例提供的对深度补全网络进行训练的流程图,该流程图包括以下步骤。

步骤601,对样本场景图、样本残缺深度图和样本噪声图进行特征聚合,得到第一样本聚合特征。

关于样本噪声图的生成方式,在一种可能的实现方式中,可以基于样本扩散强度参数,对样本深度图通过高斯分布进行随机加噪,得到样本噪声图。

示例性的,以D

其中,

在一些实施例中,第一样本聚合特征F

F

其中,D

步骤602,根据样本扩散强度参数,通过深度补全网络对第一样本聚合特征进行深度补全处理,得到第一样本深度补全特征。

步骤603,基于第一样本深度补全特征,生成第一样本补全深度图。

示例性的,以D

f(D

步骤604,基于第一样本补全深度图,确定样本引导图,样本引导图用于降低深度补全网络的扩散随机程度。

关于样本引导图的确定方式,在一种可能的实现方式中,样本引导图的取值为第一样本补全深度图的概率为第一概率,样本引导图的取值为元素值全为零的向量的概率为第二概率,其中,第一概率与第二概率之和为1。

示例性的,第一概率和第二概率均为50%,以

步骤605,对样本引导图、样本场景图、样本残缺深度图和样本噪声图进行特征聚合,得到第二样本聚合特征。

在一些实施例中,第二样本聚合特征F

其中,D

步骤606,根据样本扩散强度参数,通过深度补全网络对第二样本聚合特征进行深度补全处理,得到第二样本深度补全特征。

步骤607,基于第二样本深度补全特征,生成第二样本补全深度图。

在一些实施例中,第二样本补全深度图可以表征为如下公式:

步骤608,基于第二样本补全深度图与样本深度图的差异,确定补全损失。

示例性的,以

其中,G为高斯分布,U为均匀分布,

步骤609,基于补全损失训练深度补全网络。

仅作示例的,通过梯度下降法或其他训练方式训练深度补全网络。

本实施例中,通过基于样本引导图像确定第二样本补全深度图,可以用于引导深度补全网络的扩散过程,降低深度补全网络的扩散随机程度,即当前扩散过程中以前次计算结果为参考,使得当前计算过程不过分偏离前次计算结果,从而起到更好的训练效果。

参见图7,图7是本申请一个示例性实施例提供的深度图补全装置的结构框图。该装置包括:

特征聚合模块701,用于对场景图、残缺深度图以及噪声图进行特征聚合,得到聚合特征,所述残缺深度图是所述场景图对应的存在残缺的深度图;

深度补全模块702,用于基于扩散强度参数,通过深度补全网络对所述聚合特征进行深度补全处理,得到深度补全特征,所述深度补全网络基于扩散模型,所述扩散强度参数用于控制深度补全过程中的反向扩散强度;

图像还原模块703,用于基于所述深度补全特征进行图像还原,得到补全深度图,所述补全深度图的完整度高于所述残缺深度图的完整度。

可选的,所述装置还包括迭代模块,用于:

确定扩散强度参数序列,所述扩散强度参数序列中包含N个扩散强度参数,且第k+1扩散强度参数小于第k扩散强度参数;

可选的,深度补全模块702,用于:

基于所述扩散强度参数序列中的所述扩散强度参数,通过所述深度补全网络对所述聚合特征进行N轮迭代深度补全处理,得到所述深度补全特征。

可选的,特征聚合模块701,用于:

对所述场景图、第k轮残缺深度图以及第k轮噪声图进行特征聚合,得到第k轮聚合特征,其中,第k+1轮残缺深度图为第k轮深度补全处理得到的第k轮补全深度图,所述第k轮噪声图基于高斯分布随机生成;

可选的,深度补全模块702,用于:

基于所述扩散强度参数序列中的所述第k扩散强度参数,通过所述深度补全网络对所述第k轮聚合特征进行深度补全处理,得到第k轮深度补全特征;

可选的,图像还原模块703,用于:

基于所述第k轮深度补全特征进行图像还原,得到所述第k轮补全深度图。

可选的,所述深度补全网络包括下采样扩散子网络和上采样扩散子网络,深度补全模块702,用于:

根据所述扩散强度参数,通过所述下采样扩散子网络对所述聚合特征进行下采样扩散处理,得到下采样深度特征;

根据所述扩散强度参数,通过所述上采样扩散子网络对所述下采样深度特征进行上采样扩散处理,得到所述深度补全特征。

可选的,所述下采样扩散子网络包括n个下采样层,所述上采样扩散子网络包括n个上采样层;深度补全模块702,用于:

根据所述扩散强度参数,通过第一下采样层对所述聚合特征进行下采样扩散处理,得到第一下采样特征;

根据所述扩散强度参数,通过第i+1下采样层对第i下采样特征进行下采样扩散处理,得到第i+1下采样特征;

将第n下采样层输出的第n下采样特征作为所述下采样深度特征;

根据所述扩散强度参数,通过第一上采样层对所述下采样深度特征进行上采样扩散处理,得到第一上采样特征;

根据所述扩散强度参数,通过第i+1上采样层对第i上采样特征进行上采样扩散处理,得到第i+1上采样特征;

将第n上采样层输出的第n上采样特征作为所述深度补全特征。

可选的,深度补全模块702,用于:

对所述第i下采样特征进行下采样处理,得到下采样中间特征;

基于扩散强度特征和所述下采样中间特征进行特征融合,生成下采样融合特征,其中,所述扩散强度特征基于对所述扩散强度参数进行特征提取得到;

基于所述下采样中间特征和所述下采样融合特征进行特征融合,生成所述第i+1下采样特征。

可选的,深度补全模块702,用于:

对所述第i上采样特征进行上采样处理,得到上采样中间特征;

基于扩散强度特征和所述上采样中间特征进行特征融合,生成上采样融合特征,其中,所述扩散强度特征基于对所述扩散强度参数进行特征提取得到;

基于所述上采样中间特征和所述上采样融合特征进行特征融合,生成所述第i+1上采样特征。

可选的,深度补全模块702,用于:

对所述第i上采样特征与第n-i下采样特征进行特征融合,得到第i融合特征;

根据所述扩散强度参数,通过所述第i+1上采样层对所述第i融合特征进行上采样扩散处理,得到所述第i+1上采样特征。

可选的,特征聚合模块701,用于:

通过第一编码器对所述残缺深度图进行特征编码,得到残缺深度特征;

通过第二编码器对所述场景图进行特征编码,得到场景特征;

对所述场景特征、所述残缺深度特征和所述噪声图进行聚合,得到所述聚合特征,其中,所述场景特征、所述残缺深度特征和所述噪声图的维度一致。

可选的,该装置还包括训练模块,用于:

对样本场景图、样本残缺深度图和样本噪声图进行特征聚合,得到第一样本聚合特征;

根据样本扩散强度参数,通过所述深度补全网络对所述第一样本聚合特征进行深度补全处理,得到第一样本深度补全特征;

基于所述第一样本深度补全特征,生成第一样本补全深度图;

基于所述第一样本补全深度图,确定样本引导图,所述样本引导图用于降低所述深度补全网络的扩散随机程度;

对所述样本引导图、所述样本场景图、所述样本残缺深度图和所述样本噪声图进行特征聚合,得到第二样本聚合特征;

根据所述样本扩散强度参数,通过所述深度补全网络对所述第二样本聚合特征进行深度补全处理,得到第二样本深度补全特征;

基于所述第二样本深度补全特征,生成第二样本补全深度图;

基于所述第二样本补全深度图与样本深度图的差异,确定补全损失;

基于所述补全损失训练所述深度补全网络。

可选的,所述样本引导图的取值为所述第一样本补全深度图的概率为第一概率,所述样本引导图的取值为元素值全为零的向量的概率为第二概率,所述第一概率与所述第二概率之和为1。

可选的,训练模块,用于:

基于所述样本扩散强度参数,对所述样本深度图通过高斯分布进行随机加噪,得到所述样本噪声图。

参见图8,图8是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体来讲:所述计算机设备800包括中央处理单元(Central Processing Unit,CPU)801、包括随机存取存储器802和只读存储器803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。所述计算机设备800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说,所述大容量存储设备807可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM,Random Access Memory)、只读存储器(ROM,Read Only Memory)、闪存或其他固态存储其技术,只读光盘(Compact Disc Read-Only Memory,CD-ROM)、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元801执行,一个或多个程序包含用于实现上述方法的指令,中央处理单元801执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例,所述计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在所述系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述任一实施例所述的方法。

可选的,该计算机可读存储介质可以包括:ROM、RAM、固态硬盘(SSD,Solid StateDrives)或光盘等。其中,RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。

本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例所述的方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上仅为本申请的可选的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 一种适用于六面体磁屏蔽装置的消磁线圈结构
  • 一种针对铁氧体-坡莫合金复合磁屏蔽桶的消磁线圈装置
技术分类

06120116548708