掌桥专利:专业的专利平台
掌桥专利
首页

一种基于虚拟视角生成和迭代优化的深度估计方法和系统

文献发布时间:2024-04-18 19:58:26


一种基于虚拟视角生成和迭代优化的深度估计方法和系统

技术领域

本发明涉及自动驾驶以及三维重建中的深度估计技术,尤其涉及一种基于虚拟视角生成和迭代优化的深度估计方法和系统。

背景技术

深度估计是一项从相机RGB图像中理解三维场景的关键任务,近年来基于深度学习的深度估计方法取得了明显的进步,通过利用神经网络来学习从图像到深度图的映射,已经取得了显著的进展。其中单目深度估计方法是指推理时只输入来自单个相机的图像,模型就能预测出图像中像素深度值(图像中该像素点相对于相机的距离)。单目深度估计的好处是成本低、易于实现。单目深度估计领域领先的是轻量级深度估计方法DRO,其基于轻量级的初始预测器和基于GRU(gated recurrent units门控递归单元)进行迭代优化的双阶段网络结构和思想仅利用了时序的连续帧图像的信息,目前并没有发掘更多的三维空间信息用于提升单目深度估计性能。同时,DRO这类构建Cost Map(成本图)或Cost Volume(成本量)的深度估计方法往往由于其静态场景假设,存在一个主要的缺陷,即在对于存在互相遮挡情况下的目标,以及动态场景中的运动目标如行驶的车辆等目标的预测结果不够精确,如目标的轮廓模糊或者相互重叠,边界不清晰及同一目标的深度值不连续等问题。

另一方面,主要用于新视角生成的BTS方法也做了深度估计任务,其是一种借助生成新视角图像来预测深度图的自监督方法,使模型从不同视角的图像中得到更多的三维信息和更好地理解3D场景,比如一定程度上使遮挡情况下目标的深度值预测更加准确。但是自监督深度估计方法由于在训练过程中没有提供深度真值用于训练,所以其预测精度相比有监督深度估计方法有很大的差距。同时,BTS只是利用了新视角合成策略提供了更多的三维信息用于深度估计,其并没有对深度估计网络有较大的改进或设计一些针对性的创新性模块来更有效地利用新视角的信息。BTS深度估计部分的网络结构较为简单,也没有对预测出的深度图进行迭代和优化。

此外,近期利用多视角(multi-view)进行深度估计的DRO和BTS等方法均没有对不同视角图像提取的特征进行更有效的信息交互,没有对多视角图像中的长距离依赖信息和全局信息进行关注和学习,所以预测出的深度图对于目标缺乏一定的语义理解,导致对同一目标的深度值不够连续和精细,同时不同目标间的区分不够准确,在一些困难场景和复杂区域,比如对于混乱的背景,存在遮挡关系的目标和运动目标等,出现部分深度值混乱的现象。

因此,需要能够改进现有技术中的缺陷的方法和系统。

发明内容

提供本发明内容来以简化形式介绍将在以下具体实施方式部分中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。

针对现有技术中的问题,本发明提出了一种基于虚拟视角生成和迭代优化的深度估计方法和系统,采用虚拟视角图像生成和虚拟视角特征仿真技术来进行有监督的单目深度估计。首先,设计一个虚拟视角特征模拟器,利用新视角合成和对比学习的技术来生成虚拟视角图像特征。然后,提供了一个基于三维感知虚拟注意力机制的优化器以用于不断迭代优化预测出的深度图。在优化过程中,使用三维感知虚拟注意力机制来捕捉全局的空间-背景相关性,以保持不同视图的特征一致性和三维场景的深度估计完整性。

具体而言,在本发明的一个实施例中,公开了一种用于基于虚拟视角生成和迭代优化来进行深度估计的方法,该方法在包括虚拟视角特征模拟器和三维感知虚拟注意力(3DVA)提炼器的深度估计装置处执行,该方法包括:

接收来自单目相机的参考视角下的参考视角图像;

将该参考视角图像输入特征网络和深度上下文网络以提取该参考视角图像的参考视角特征和上下文特征;

基于该参考视角图像来生成一个或多个虚拟视角下的虚拟视角图像并从中提取出虚拟视角特征;

基于该参考视角特征来预测出初始深度图;

基于该参考视角特征、该虚拟视角特征、该一个或多个虚拟视角以及该初始深度图来构建虚拟成本图;以及

通过对该虚拟成本图进行迭代成本降低来迭代地更新该初始深度图以输出最终深度图。

在本发明的一个实施例中,ResNet18骨干网被同时用作该特征网络和该深度上下文网络。

在本发明的一个实施例中,基于该参考视角图像来生成一个或多个虚拟视角下的虚拟视角图像并从中提取出虚拟视角特征进一步包括:

经由该虚拟视角特征模拟器,使用新视角生成技术,通过多层感知机和体素渲染来生成该虚拟视角图像;以及

使用该特征网络来从该虚拟视角图像中提取出该虚拟视角特征。

在本发明的上述实施例中,该虚拟视角特征模拟器通过将在接收该参考视角图像的同时接收的另一路图像作为该虚拟视角特征模拟器的图像真值,并通过对该参考视角特征和该虚拟视角特征进行对比学习来训练。

在本发明的一个实施例中,该参考视角特征由该3DVA提炼器中的深度头接收并由该深度头基于该参考视角特征来预测出该初始深度图。

在本发明的一个实施例中,该虚拟成本图由该3DVA提炼器进一步基于该一个或多个虚拟视角与该参考视角之间的相对位姿来生成。

在本发明的一个实施例中,通过对该虚拟成本图进行迭代成本降低来迭代地更新该初始深度图以输出最终深度图进一步包括:

对该虚拟成本图进行特征提取以获得三维感知虚拟特征;

基于该三维感知虚拟特征和该上下文特征来生成最终深度图特征;

基于该最终深度图特征以及作为当前深度图的该初始深度图来计算出深度图更新以更新该初始深度图并生成经更新的当前深度图;

基于该经更新的当前深度图来更新该虚拟成本图;以及

迭代地执行上述各操作以迭代地更新当前深度图以使得该虚拟成本图的成本收敛至最小值以输出该最终深度图。

在本发明的上述实施例中,对该虚拟成本图进行特征提取进一步包括使用两个串联的二维卷积网络来对该虚拟成本图进行特征提取。

在本发明的上述实施例中,基于该三维感知虚拟特征和该上下文特征来生成最终深度图特征进一步包括通过将该三维感知虚拟特征作为值并将该上下文特征作为查询和地址,经由softmax函数操作和特征融合来输出该最终深度图特征。

在本发明的另一个实施例中,公开了一种用于基于虚拟视角生成和迭代优化来进行深度估计的系统,该系统包括:

特征提取器,其被配置成:

接收来自单目相机的参考视角下的参考视角图像;

将该参考视角图像输入特征网络和深度上下文网络以提取该参考视角图像的参考视角特征和上下文特征;

虚拟视角特征模拟器,其被配置成基于该参考视角图像来生成一个或多个虚拟视角下的虚拟视角图像并从中提取出虚拟视角特征;以及

三维感知虚拟注意力(3DVA)提炼器,其被配置成:

基于该参考视角特征来预测出初始深度图;

基于该参考视角特征、该虚拟视角特征、该一个或多个虚拟视角以及该初始深度图来构建虚拟成本图;以及

通过对该虚拟成本图进行迭代成本降低来迭代地更新该初始深度图以输出最终深度图。

在本发明的一个实施例中,该特征提取器被进一步配置成将ResNet18骨干网同时用作该特征网络和该深度上下文网络。

在本发明的一个实施例中,该虚拟视角特征模拟器被进一步配置成通过以下操作来提取出该虚拟视角特征:

使用新视角生成技术,通过多层感知机和体素渲染来生成该虚拟视角图像;以及

使用该特征网络来从该虚拟视角图像中提取出该虚拟视角特征。

在本发明的上述实施例中,该虚拟视角特征模拟器通过将在接收该参考视角图像的同时接收的另一路图像作为该虚拟视角特征模拟器的图像真值,并通过对该参考视角特征和该虚拟视角特征进行对比学习来训练。

在本发明的一个实施例中,该3DVA提炼器进一步包括深度头,该深度头被配置成接收该参考视角特征并基于该参考视角特征来预测出该初始深度图。

在本发明的一个实施例中,该3DVA提炼器进一步包括虚拟成本图模块,该虚拟成本图由该虚拟成本图模块生成,并且该虚拟成本图模块被进一步配置成基于该一个或多个虚拟视角与该参考视角之间的相对位姿来生成该虚拟成本图。

在本发明的上述实施例中,该3DVA提炼器进一步包括3DVA模块和门控递归单元GRU,该3DVA提炼器被进一步配置成通过以下操作来输出该最终深度图:

经由该虚拟成本图模块对该虚拟成本图进行特征提取以获得三维感知虚拟特征;

经由该3DVA模块基于该三维感知虚拟特征和该上下文特征来生成最终深度图特征;

经由该GRU基于该最终深度图特征以及作为当前深度图的该初始深度图来计算出深度图更新以更新该初始深度图并生成经更新的当前深度图;

经由该虚拟成本图模块基于该经更新的当前深度图来更新该虚拟成本图;以及

迭代地执行上述各操作以迭代地更新当前深度图以使得该虚拟成本图的成本收敛至最小值以输出该最终深度图。

在本发明的上述实施例中,该虚拟成本图模块被进一步配置成使用两个串联的二维卷积网络来对该虚拟成本图进行特征提取。

在本发明的上述实施例中,该3DVA模块被进一步配置成通过将该三维感知虚拟特征作为值并将该上下文特征作为查询和地址,经由softmax函数操作和特征融合来输出该最终深度图特征。

在本发明的又一个实施例中,公开了一种计算机可读存储介质,其存储用于基于虚拟视角生成和迭代优化来进行深度估计的指令,包括:

用于接收来自单目相机的参考视角下的参考视角图像的指令;

用于将该参考视角图像输入特征网络和深度上下文网络以提取该参考视角图像的参考视角特征和上下文特征的指令;

用于基于该参考视角图像来生成一个或多个虚拟视角下的虚拟视角图像并从中提取出虚拟视角特征的指令;

用于基于该参考视角特征来预测出初始深度图的指令;

用于基于该参考视角特征、该虚拟视角特征、该一个或多个虚拟视角以及该初始深度图来构建虚拟成本图的指令;以及

用于通过对该虚拟成本图进行迭代成本降低来迭代地更新该初始深度图以输出最终深度图的指令。

在结合附图研读了下文对本发明的具体示例性实施例的描述之后,本发明的其他方面、特征和实施例对于本领域普通技术人员将是明显的。尽管本发明的特征在以下可能是针对某些实施例和附图来讨论的,但本发明的全部实施例可包括本文所讨论的有利特征中的一个或多个。换言之,尽管可能讨论了一个或多个实施例具有某些有利特征,但也可以根据本文讨论的本发明的各种实施例使用此类特征中的一个或多个特征。以类似方式,尽管示例性实施例在下文可能是作为设备、系统或方法实施例进行讨论的,但是应当领会,此类示例性实施例可以在各种设备、系统、和方法中实现。

附图说明

为了能详细理解本公开的以上陈述的特征所用的方式,可参照各方面来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中阐示。然而应该注意,附图仅阐示了本公开的某些典型方面,故不应被认为限定其范围,因为本描述可允许有其他等同有效的方面。

图1示出了根据本公开的一个实施例的用于基于虚拟视角生成和迭代优化来进行深度估计的系统的示意性框图。

图2示出了根据本公开的一个实施例的深度估计网络模型的整体框架图。

图3示出了根据本公开的一个实施例的三维感知虚拟注意力模块的示意图。

图4示出了根据本公开的一个实施例的用于基于虚拟视角生成和迭代优化来进行深度估计的方法的流程图。

图5示出了根据本公开的一个实施例的深度估计网络模型在KITTI Eigen Split数据集上的与现有技术相比的定性结果。

图6示出了根据本公开的一个实施例的深度估计网络模型在DrivingStereo数据集上的与现有技术相比的定性结果。

具体实施方式

以下将参考形成本发明一部分并示出各具体示例性实施例的附图更详尽地描述各个实施例。然而,各实施例可以以许多不同的形式来实现,并且不应将其解释为限制此处所阐述的各实施例;相反地,提供这些实施例以使得本公开变得透彻和完整,并且将这些实施例的范围完全传达给本领域普通技术人员。各实施例可按照方法、系统或设备来实施。因此,这些实施例可采用硬件实现形式、全软件实现形式或者结合软件和硬件方面的实现形式。因此,以下具体实施方式并非是局限性的。

各流程图中的步骤可通过硬件(例如,处理器、引擎、存储器、电路)、软件(例如,操作系统、应用、驱动器、机器/处理器可执行指令)或其组合来执行。如本领域普通技术人员将理解的,各实施例中所涉及的方法可以包括比示出的更多或更少的步骤。

在现有技术中没有利用虚拟视角(或新视角)生成的有监督深度估计方法框架以用于借助合成的虚拟视角图像和特征信息为单目深度估计模型提供更多的三维信息和空间几何线索。此外目前已知的结合新视角生成的深度估计方法(如BTS)没有结合迭代优化的策略去进一步提升预测精度和鲁棒性。

因此,本发明提出了一个结合虚拟视角生成和迭代优化思想的单目深度估计技术,其框架是一种从粗糙到精细的双阶段深度估计网络模型。采用虚拟视角图像生成和虚拟视角特征仿真技术来进行有监督的单目深度估计。

具体而言,首先设计了一个虚拟视角特征模拟器VVF-Simulator(virtual viewfeature simulator),利用新视角合成和对比学习的技术来生成虚拟视角图像特征。通过这种方式,在推理阶段都可以得到不同视角的图像以用于后续的深度估计,使网络像人类一样拥有不同视角(两只眼睛得到的图像)感知到的图片信息来明确地提供具有重要价值的空间几何信息以用于估计三维距离信息。然后,还设计了一个基于三维感知虚拟注意力机制的提炼器(命名为基于三维感知虚拟注意力(3DVA)提炼器(3DVA-Refiner),来不断迭代优化预测出的深度图。在优化过程中,使用三维感知虚拟注意力3DVA机制来捕捉全局的空间-背景相关性,以保持不同视图的特征一致性和三维场景的深度估计完整性,以使得对于具有遮挡关系的各目标的深度值有更准确的预测。

由此,本发明使得单目深度估计方法在推理时也可以借助新视角合成技术利用单目图像来生成虚拟视角的图像,从而为单目深度估计技术提供了更多三维的空间信息,缩小了单目深度估计方法和双目深度估计方法之间的性能差距,打破了单目深度估计方法预测性能的上限。

下文中将通过框图以及方法流程图对本公开的各方面进行更详细、更全面的描述。

图1示出了根据本公开的一个实施例的用于基于虚拟视角生成和迭代优化来进行深度估计的系统100的示意性框图。以下将结合图2和图3来详细地描述图1。

如图1所示,系统100包括特征提取器102、虚拟视角特征模拟器104、以及3DVA提炼器106。

在本发明的一个实施例中,特征提取器102包括特征网络108和深度上下文网络110,并且特征提取器102可被配置成接收来自单目相机的参考视角下的参考视角图像,将该参考视角图像输入特征网络108和深度上下文网络110中以提取该参考视角图像的参考视角特征和上下文特征。

图2示出了根据本公开的一个实施例的深度估计网络模型的整体框架图200。如图2所示,来自单目相机的参考视角图像(即,图2中的参考图像I

在本发明的一个实施例中,特征提取器102可被进一步配置成将ResNet18骨干网同时用作特征网络110和深度上下文网络112。如本领域技术人员可以理解的,本发明不限于将ResNet18骨干网用作特征网络110和深度上下文网络112,而是可根据实际情况或实际需求选择任何合适的其他网络。具体而言,如果对初始预测的精度要求不高,可选择轻量级的ResNet18作为特征网络和上下文网络;如果以精度作为最高优先级,而不考虑实际的模型耗时,也可以选择ResNet50、Swin-Transformer系列等更重量级的骨干网来替换ResNet18提取特征,将这些更重量级的骨干网应用于图2所示的框架中可以得到更高的精度,但深度估计模型的推理速度会下降,这可能不利于实际量产和应用的需求。本发明使用更轻量级的仅两层网络的ResNet18骨干网作为特征提取网络(用于提取参考视角特征、虚拟视角特征和深度上下文特征),以使得轻量化的单目深度估计模型可以更容易部署到自动驾驶实际应用场景中。

回到图1,在本发明的一个实施例中,图1中的虚拟视角特征模拟器104和3DVA提炼器106可组成双阶段深度估计网络模型。虚拟视角特征模拟器104可被配置成基于该参考视角图像来生成一个或多个虚拟视角下的虚拟视角图像并从中提取出虚拟视角特征。参照图2,在本发明的一个实施例中,虚拟视角特征模拟器104可被进一步配置成通过以下操作来提取出虚拟视角特征F

如本领域技术人员可以理解的,本发明不限于使用新视角生成技术,而是可使用任何合适的其他新视角合成方法,诸如基于神经辐射场(Neural Radiance Fields,NERF)等。

在本发明的一个实施例中,可通过将在接收参考视角图像I

回到图1,3DVA提炼器106可被配置成基于参考视角特征来预测出初始深度图;基于该参考视角特征、该虚拟视角特征、该一个或多个虚拟视角以及该初始深度图来构建虚拟成本图;以及通过对该虚拟成本图进行迭代成本降低来迭代地更新该初始深度图以输出最终深度图。如图1所示,3DVA提炼器106进一步包括深度头112、虚拟成本图模块114、3DVA模块116以及门控递归单元(GRU)118。参照图2,经由特征网络108提取出的参考视角特征F

在本发明的一个实施例中,虚拟成本图模块114可被配置成基于参考视角特征F

在生成虚拟成本图后,3DVA提炼器106可经由其中的虚拟成本图模块114、3DVA模块116和GRU 118通过以下各步骤来对每次迭代生成的深度图D

如图2所示,首先,虚拟成本图模块114可通过使用两个串联的二维卷积网络(图2中的卷积网络2d×2)来对该虚拟成本图进行特征提取以获得三维感知虚拟特征F

接着,3DVA模块116可基于三维感知虚拟特征F

然后,GRU 118可基于最终深度图特征F

最后,虚拟成本图模块114可基于该经更新的当前深度图D

3DVA提炼器106可迭代地执行上述各步骤以迭代地更新当前深度图D

图4示出了根据本公开的一个实施例的用于基于虚拟视角生成和迭代优化来进行深度估计的方法400的流程图。在本发明的一个实施例中,该方法400可以在包括虚拟视角特征模拟器104和三维感知虚拟注意力(3DVA)提炼器106的深度估计装置(对应于图1中的系统100)处执行。

如图4所示,方法400开始于步骤402,接收来自单目相机的参考视角下的参考视角图像。

接着,方法400继续至步骤404,将该参考视角图像输入特征网络和深度上下文网络以提取该参考视角图像的参考视角特征和上下文特征。在本发明的一个实施例中,ResNet18骨干网可被同时用作该特征网络和该深度上下文网络。

然后,方法400继续至步骤406,基于该参考视角图像来生成一个或多个虚拟视角下的虚拟视角图像并从中提取出虚拟视角特征。在本发明的一个实施例中,步骤406可进一步包括经由虚拟视角特征模拟器,使用新视角生成技术,通过多层感知机和体素渲染来生成该虚拟视角图像,以及使用该特征网络来从该虚拟视角图像中提取出该虚拟视角特征。在本发明的上述实施例中,该虚拟视角特征模拟器可通过将在接收该参考视角图像的同时接收的另一路图像作为该虚拟视角特征模拟器的图像真值,并通过对该参考视角特征和该虚拟视角特征进行对比学习来训练。

接下来,方法400继续至步骤408,基于该参考视角特征来预测出初始深度图。在本发明的一个实施例中,该参考视角特征可由该3DVA提炼器中的深度头接收并由该深度头基于该参考视角特征来预测出该初始深度图。

随后,方法400继续至步骤410,基于该参考视角特征、该虚拟视角特征、该一个或多个虚拟视角以及该初始深度图来构建虚拟成本图。在本发明的一个实施例中,该虚拟成本图可由该3DVA提炼器进一步基于该一个或多个虚拟视角与该参考视角之间的相对位姿来生成。

最后,方法400继续至步骤412,通过对该虚拟成本图进行迭代成本降低来迭代地更新该初始深度图以输出最终深度图。在本发明的一个实施例中,步骤412进一步包括对该虚拟成本图进行特征提取以获得三维感知虚拟特征;基于该三维感知虚拟特征和该上下文特征来生成最终深度图特征;基于该最终深度图特征以及作为当前深度图的该初始深度图来计算出深度图更新以更新该初始深度图并生成经更新的当前深度图;基于该经更新的当前深度图来更新该虚拟成本图;以及迭代地执行上述各操作以迭代地更新当前深度图以使得该虚拟成本图的成本收敛至最小值以输出该最终深度图。在本发明的上述实施例中,对该虚拟成本图进行特征提取进一步包括使用两个串联的二维卷积网络来对该虚拟成本图进行特征提取。在本发明的上述实施例中,基于该三维感知虚拟特征和该上下文特征来生成最终深度图特征进一步包括通过将该三维感知虚拟特征作为值并将该上下文特征作为查询和地址,经由softmax函数操作和特征融合来输出该最终深度图特征。

在步骤412后,方法400结束。

综上,本发明基于虚拟视角生成和迭代优化的单目深度估计方法,设计了新颖的虚拟视图特征模拟器和基于三维感知虚拟注意力3DVA模块,去掉了现有技术中冗余的位姿相关结构,加入新的3DVA机制并改进其网络结构,设计了创新性的结合新视角生成技术的有监督单目深度估计方法。而且,本发明经大量的实验验证,在多个国际基准公开数据集如KITTI深度估计数据集等上达到了目前最领先的深度估计预测精度。本发明的深度估计效果良好,通过充分利用生成的虚拟视角带来的三维空间信息,使得模型预测精度明显高于现有的单目深度估计方法。

具体地,本发明通过大量的实验验证,在国际公用的KITTI深度估计数据集(诸如KITTI Eigen Split数据集)上使用与现有技术中的DRO单目深度估计方法相同指标计算方式时,本发明的主要指标Abs Rel绝对相对误差(absolute relative error)达到0.038,相比于DRO的0.047Abs Rel深度估计误差大幅降低,提升深度预测精度19%左右。而且在知名的DrivingStereo自动驾驶数据集和虚拟的Virtual KITTI 2数据集上均达到了领先的性能。当在KITTI数据集使用业内通用的另一种指标计算方式时,同样达到目前业内最领先的0.043Abs Rel,打破了之前有监督深度估计方法中最领先的前三个方法的0.050-0.052的性能瓶颈,本方法的误差远低于自监督方法BTS的0.102以及同等实验条件下测试出DRO方法的0.059。

如图5(示出了KITTI Eigen Split数据集上的定性结果)和图6(示出了DrivingStereo数据集上的定性结果)所示,在所生成的可视化深度效果图中可见,本发明对于图像中的深度值相比现有技术中的DRO方法有更精确的预测,尤其是对具有遮挡关系的不同目标,动态场景中的各类运动目标比如电车、车辆、骑自行车的行人等都能估计出更准确的深度图和更清晰的目标轮廓。这对于自动驾驶场景的3D感知和检测目标及障碍物的距离具有重大意义。

以上参考根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作说明描述了本发明的实施例。框中所注明的各功能/动作可以按不同于任何流程图所示的次序出现。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以按相反的次序来执行。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

相关技术
  • 一种基于生成对抗网络的图像深度估计方法
  • 基于深度学习迭代匹配的6D姿态估计网络训练方法及装置
  • 一种基于深度学习分类的模糊核优化迭代初始值估计方法
  • 一种基于深度先验的深度估计空间划分优化方法及系统
技术分类

06120116491320