掌桥专利:专业的专利平台
掌桥专利
首页

用于改进确定深度图、相对姿势或语义分割的过程的设备和方法

文献发布时间:2023-06-19 16:06:26



技术领域

本发明涉及先进驾驶辅助系统(advanced driver assistance system,ADAS)、计算机视觉和机器学习(machine learning,ML)领域。本发明提供了一种基于ML的方法,用于根据合成图像(根据真实图像或虚拟图像生成)训练神经网络,以改进确定深度图、相对姿势或语义分割(例如,可用于训练自动驾驶车辆的自动驾驶仪)的过程。此外,本发明涉及域适应,例如,通过在虚拟图像上训练神经网络和在真实图像上测试来解决计算机视觉问题。

背景技术

根据传感器输入进行相对姿势、深度图或语义分割的估计是机器人、ADAS或自动驾驶系统的重要任务。例如,用于进行所述估计的传感器输入来自视觉传感器(例如由数码相机拍摄的输入图像)。根据输入图像估计的信息(深度图、语义分割或相对姿势)可(与输入图像一起)用于机器人、ADAS或自动驾驶系统的进一步训练。例如,可以根据输入图像并根据对应的相对姿势、深度图或语义分割训练车辆的自动驾驶仪。

随着神经网络的快速发展,为了解决计算机视觉问题,立体匹配或自监督深度学习方法等估计技术取得了进步,但需要大量真实高质量的立体图像或真实序列图像作为估计训练的输入图像。即使真实立体图像或真实序列图像很容易生成,但也很难创建对应于所述真实图像的准确深度图、相对姿势或语义分割(可用作进一步训练的地面真值)。

而创建具有关于深度图、相对姿势或语义分割的对应的准确信息的虚拟图像(不是相机拍摄的,而是计算机生成的)是可行的。通过这种方式,可以创建大量的训练数据(例如用于训练机器人、ADAS或自动驾驶系统)。

但是,例如,由于虚拟图像的图像纹理或色彩强度不如真实图像中的好,所以可以发现虚拟图像与真实图像之间存在域间隙。如果执行估计的神经网络仅根据虚拟图像训练,则该域间隙还降低了基于输入图像的深度图、相对姿势估计或语义分割的估计质量。

解决这个问题的传统方法是使用深度神经网络学习域不变特征或域不变表示,或者推动两个域分布彼此接近。但是,这些方法的结果不那么有效。也就是说,传统方法并不能有效地减小虚拟图像与真实图像之间的域间隙。

发明内容

鉴于上述问题,本发明的实施例的目的是改进不同图像域之间(例如虚拟图像与真实图像之间)的域适应。

该目的或其它目的可以通过所附独立权利要求中描述的本发明的实施例实现。本发明的实施例的有利实现方式在从属权利要求中进一步定义。

本发明的第一方面提供了一种用于确定深度图、相对姿势或语义分割的设备,其中,该设备包括:神经网络,用于在推理阶段根据输入图像确定深度图、相对姿势或语义分割;生成器,用于在训练阶段根据真实图像或虚拟图像并根据损失函数生成合成图像,并根据合成图像训练神经网络,其中,损失函数包括语义边缘函数。

这确保了可以有效地减小虚拟图像与真实图像之间的域间隙。因此,可以避免对创建用于训练神经网络的真实图像的依赖,并且可以使用虚拟图像,对于虚拟图像,可以自动创建标签(例如指示分割、姿势或深度)。具体地,语义边缘函数确保了有效地减小域间隙。

具体地,输入图像可以是输入到设备的真实图像或虚拟图像。具体地,真实图像或虚拟图像被输入到设备,用于生成用于车辆自动驾驶仪的训练数据。

具体地,真实图像是在真实环境中用立体相机获取的二维图像(例如,RGB或色度-亮度图像)。例如,真实图像根据以下至少一项获取:KITTI、CITYSCAPES、AEV数据集。

具体地,虚拟图像是在Carla等虚拟环境中用立体相机获取的二维图像(例如,RGB图像或色度-亮度图像)或照片般逼真的数据集。

具体地,合成图像是生成对抗网络(generative adversarial network,GAN)根据真实图像或虚拟图像的生成的二维图像(例如RGB图像或色度-亮度图像)。

具体地,深度图是2D图像或矩阵,其中,每个像素或元素描述场景中相对于相机的对应3D点的深度。具体地,场景是相机捕获的真实世界的预定义感兴趣区域。

具体地,场景中的3D点投影到立体相机图像对(left,right)的x坐标差根据以下公式计算:I_left(x+d)=I_right(x),其中,d是视差。

具体地,视差图是2D图像或矩阵,其中,每个像素或元素描述了该像素或元素的视差。

具体地,相对姿势是包括3D位置坐标(例如x、y、z)和用于车辆定向(例如偏航、俯仰、侧倾)的3个角度的6D矢量。

具体地,语义分割包括对输入图像的每个像素进行分类,用于描绘对象的类型(例如:汽车、植被、建筑、天空、道路中的至少一个)。

具体地,语义边缘函数考虑真实图像或虚拟图像中的至少一个边缘。具体地,边缘包括图像中对象的边界,其中,边界包括显著的对比度变化。

在第一方面的一种实现方式中,语义边缘函数用于维护合成图像中的语义梯度信息和/或边缘信息。

这确保了根据合成图像中的语义梯度信息和/或边缘信息减小真实图像与合成图像之间的域间隙。

在第一方面的另一种实现方式中,该设备还包括第一鉴别器和第二鉴别器,其中,生成器还用于在训练阶段将合成图像提供给第一鉴别器或第二鉴别器,以训练神经网络。

这确保了可以提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。

具体地,纹理是图像的一个区域,描绘了色彩强度显著变化的内容。

在第一方面的另一种实现方式中,生成器还用于在训练阶段根据提供了合成图像的鉴别器的确定结果训练神经网络。

这确保了可以进一步提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。

在第一方面的另一种实现方式中,生成器还用于在训练阶段将合成图像随机提供给第一鉴别器或第二鉴别器。

这确保了可以进一步提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。

在第一方面的另一种实现方式中,第一鉴别器还用于在训练阶段确定生成器根据虚拟图像生成的合成图像是虚假图像,并确定虚拟图像是原始图像;第二鉴别器还用于在训练阶段确定生成器根据真实图像生成的合成图像是虚假图像,并确定真实图像是原始图像。

这确保了可以进一步提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。

在第一方面的另一种实现方式中,该设备还用于根据合成图像训练神经网络,用于确定以下至少一项:深度图、相对姿势、语义分割。

这确保了可以根据合成图像改进确定深度图、相对姿势、语义分割中的至少一个的过程。

在第一方面的另一种实现方式中,该设备还用于在训练阶段根据合成图像生成可学习掩码;并根据可学习掩码训练神经网络。

这确保了也可以根据可学习掩码减小域间隙。

具体地,可学习掩码是合成图像中的感兴趣区域。具体地,可学习掩码支持确定合成图像的像素是否可用于视图重建。

在第一方面的另一种实现方式中,可学习掩码为语义内层掩码。

这确保了也可以根据语义内层掩码减小域间隙。

具体地,语义内层掩码是合成图像中的感兴趣区域。具体地,语义内层掩码支持确定合成图像的像素是否可用于视图重建。具体地,语义内层掩码包括语义分割信息。语义分割信息可用于确定合成图像的像素是否可用于视图重建。具体地,语义内层掩码是神经网络根据语义分割信息生成的。

在第一方面的另一种实现方式中,该设备还用于根据可学习掩码训练神经网络,用于确定以下至少一项:深度图、相对姿势、语义分割。

这确保了可以根据可学习掩码改进确定深度图、相对姿势、语义分割中的至少一个的过程。

具体地,根据语义内层掩码训练神经网络,以用于确定深度图。

在第一方面的另一种实现方式中,该设备还用于在训练阶段根据合成图像确定分割信息,并根据分割信息生成可学习掩码。

这确保了可学习掩码可以考虑分割信息。

在第一方面的另一种实现方式中,该设备还用于在训练阶段根据合成图像确定姿势信息,并根据姿势信息生成可学习掩码。

这确保了可学习掩码可以考虑姿势信息。

在第一方面的另一种实现方式中,该设备还用于在训练阶段根据合成图像确定内层掩码,并根据内层掩码生成可学习掩码。

这确保了可学习掩码可以考虑内层掩码。

具体地,内层掩码是合成图像中的感兴趣区域。具体地,内层掩码支持确定合成图像的像素是否可用于视图重建。

具体地,该设备还用于:在训练阶段,如果合成图像是根据真实图像生成的,则根据合成图像对神经网络应用自监督训练。

具体地,该设备还用于:在训练阶段,如果合成图像是根据虚拟图像生成的,则根据合成图像和/或对应于合成图像的地面真值标签将监督训练应用于神经网络。

具体地,该设备使用地面真值标签,包括深度图、相对姿势或语义分割。

具体地,该设备还包括第三鉴别器和第四鉴别器,其中,该设备还用于根据第三鉴别器的确定结果,和/或根据第四鉴别器的确定结果训练神经网络。

具体地,该设备用于训练神经网络,以用于根据第三鉴别器确定深度图。

具体地,该设备用于训练神经网络,以用于根据第四鉴别器确定语义分割。

本发明的第二方面提供了一种用于确定深度图、相对姿势或语义分割的方法,该方法包括以下步骤:在推理阶段,该设备的神经网络根据输入图像确定深度图、相对姿势或语义分割;在训练阶段,该设备的生成器根据真实图像或虚拟图像并根据损失函数生成合成图像,生成器根据合成图像训练神经网络,其中,损失函数包括语义边缘函数。

在第二方面的一种实现方式中,语义边缘函数维护合成图像中的语义梯度信息和/或边缘信息。

在第二方面的另一种实现方式中,该方法还包括:在训练阶段,生成器将合成图像提供给设备的第一鉴别器或设备的第二鉴别器,以用于训练神经网络。

在第二方面的另一种实现方式中,该方法还包括:在训练阶段,生成器根据提供了合成图像的鉴别器的确定结果训练神经网络。

在第二方面的另一种实现方式中,该方法还包括:在训练阶段,生成器随机向第一鉴别器或第二鉴别器提供合成图像。

在第二方面的另一种实现方式中,该方法还包括:在训练阶段,第一鉴别器确定生成器根据虚拟图像生成的合成图像是虚假图像,第一鉴别器确定虚拟图像是原始图像;在训练阶段,第二鉴别器确定生成器根据真实图像生成的合成图像是虚假图像,确定真实图像是原始图像。

在第二方面的另一种实现方式中,该方法还包括设备根据合成图像训练神经网络,以用于确定以下至少一项:深度图、相对姿势、语义分割。

在第二方面的另一种实现方式中,该方法还包括:在训练阶段,该设备根据合成图像生成可学习掩码;设备根据可学习掩码训练神经网络。

在第二方面的另一种实现方式中,可学习掩码为语义内层掩码。

在第二方面的另一种实现方式中,该方法还包括设备根据可学习掩码训练神经网络,以用于确定以下至少一项:深度图、相对姿势、语义分割。

在第二方面的另一种实现方式中,该方法还包括:在训练阶段,该设备根据合成图像确定分割信息,且该设备根据分割信息生成可学习掩码。

在第二方面的另一种实现方式中,该方法还包括:在训练阶段,该设备根据合成图像确定姿势信息,并根据姿势信息生成可学习掩码。

在第二方面的另一种实现方式中,该方法还包括:在训练阶段,该设备根据合成图像确定内层掩码,且设备根据内层掩码生成可学习掩码。

第二方面及其实现方式包括与第一方面及其相应的实现方式相同的优点。

本发明的第三方面提供了一种包括指令的计算机程序产品,当计算机执行程序时,该指令使计算机执行第二方面或其任何实现方式提供的方法的步骤。

第三方面及其实现方式包括与第二方面及其相应的实现方式相同的优点。

需要说明的是,本申请中描述的所有设备、元件、单元和模块可以通过软件或硬件元件或其任何类型的组合实现。本申请中描述的各种实体执行的所有步骤和所描述的将由各种实体执行的功能旨在表明相应的实体用于执行相应的步骤和功能。虽然在以下具体实施例的描述中,外部实体执行的具体功能或步骤没有在执行该具体步骤或功能的实体的具体详述元件的描述中反映,但是技术人员应清楚,这些方法和功能可以通过相应的硬件或软件元件或其任何组合实现。

附图说明

结合所附附图,下面具体实施例的描述阐述上述本发明的各方面及实现方式,其中:

图1示出了本发明的实施例提供的设备的示意图;

图2详细地示出了本发明的实施例提供的设备的示意图;

图3示出了本发明提供的操作场景的示意图;

图4示出了本发明提供的深度图的示意图;

图5示出了本发明提供的操作场景的示意图;

图6示出了本发明提供的操作场景的示意图;

图7示出了本发明提供的操作场景的示意图;

图8示出了本发明提供的操作场景的示意图;

图9示出了本发明的实施例提供的方法的示意图。

具体实施方式

图1示出了本发明的实施例提供的设备100的示意图。设备100用于根据输入图像105确定深度图101、相对姿势102或语义分割103。此外,所述确定过程通过基于ML的方法改进。为此,设备100包括神经网络104和生成器106。具体地,根据神经网络104改进该确定过程,神经网络104根据合成图像107进行训练。

因此,设备100区分推理阶段和训练阶段。在推理阶段,将训练后的神经网络104应用于输入图像105,以根据输入图像105确定深度图101、相对姿势102或语义分割103。在训练阶段,将训练数据(即真实图像108或虚拟图像109)提供给神经网络104。因此,生成器106用于根据真实图像108或虚拟图像109生成合成图像107。对于合成图像107的生成,生成器还使用损失函数110。具体地,损失函数110包括语义边缘函数111。一旦生成合成图像107,生成器106根据合成图像107训练神经网络104。

可选地,语义边缘函数111可以维护合成图像107中的语义梯度信息和/或边缘信息。

换句话说,设备100可以使用虚拟图像109以及地面真值标签(例如深度图、语义分割或相对姿势,这些标签是专门为虚拟图像109生成的)来训练神经网络104,并在真实图像108等上进行测试。

根据对应于两个不同域的真实图像109和虚拟图像108,可以创建对应于中间域的合成图像107。根据中间域的合成图像107训练神经网络104可以产生鲁棒和准确的深度图101、相对姿势102或语义分割103,独立于域特定纹理特征或图像分布。

设备100可以包括处理器或处理电路(未示出),该处理器或处理电路用于执行、进行或启动本文描述的设备100的各种操作。处理电路可以包括硬件和/或处理电路可以由软件控制。硬件可以包括模拟电路或数字电路,或模拟电路和数字电路两者。数字电路可以包括专用集成电路(application-specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、数字信号处理器(digital signal processor,DSP)或多用途处理器等部件。

设备100还可以包括存储器电路,其存储可以由处理器或处理电路执行(具体地,在软件的控制下执行)的一个或多个指令。例如,存储器电路可以包括存储可执行软件代码的非瞬时性存储介质,当处理器或处理电路执行可执行软件代码时,该可执行软件代码使设备100执行各种操作。

在一个实施例中,处理电路包括一个或多个处理器以及与一个或多个处理器连接的非瞬时性存储器。非瞬时性存储器可以携带可执行程序代码,当一个或多个处理器执行可执行程序代码时,使设备100执行、进行或启动本文描述的操作或方法。

图2详细地示出了本发明的实施例提供的设备100的示意图。图2所示的设备100包括图1的网络设备100的所有特征和功能,以及以下可选特征。

如图2所示,设备100可选地包括第一鉴别器201和第二鉴别器202。在训练阶段,生成器106可选地可以将合成图像107提供给第一鉴别器201或第二鉴别器202,以训练神经网络104。第一鉴别器201和第二鉴别器202支持生成器106使用虚拟图像109和真实图像108创建具有类似于域的纹理的合成图像107。

更具体地说,生成器106可以将合成图像107随机提供给第一鉴别器201或第二鉴别器202。然后,生成器106根据提供了合成图像107的鉴别器201、202的确定结果训练神经网络104。

换句话说,生成器106以及第一鉴别器201和第二鉴别器202根据主要考虑普遍公共特征的对抗性损失函数(即损失函数110)生成合成图像107,用于训练神经网络104,普遍公共特征例如语义边缘和语义信息、模式、场景结构,以及相机传感器生成的纹理、滤色器、噪声、照明效果、阴影和反射等伪影。

换句话说,对于损失函数110,例如,可以使用语义梯度或基于边缘的重建(可能与鲁棒损失函数结合),而不是使用均方误差(mean square error,MSE)损失来重建输入图像105。这支持生成器106通过保持场景结构和几何特性来重建合成图像107,并混合或创建虚拟图像109与真实图像108之间的纹理、强度或质量。

可选地,损失函数110是语义边缘函数111,其目的可以是维护语义梯度信息和/或语义边缘信息以生成合成图像107。此外,通过使用第一鉴别器201和第二鉴别器202,生成器106可以生成类似于真实图像域的图像纹理,而不会丢失几何结构。

生成器106、第一鉴别器201和第二鉴别器202生成的合成图像107可用于进一步训练神经网络104,以例如用于改进根据合成图像107确定深度图101、相对姿势102或语义分割103的过程。具体地,这由L1/视图重建函数、交叉熵函数或L1函数等相应的损失函数110支持。

换句话说,生成器106和鉴别器201、202通过考虑合成图像107中的语义边缘应与原始输入中(即,在真实图像108或虚拟图像109中)相同,生成合成图像107,其中,合成图像107具有较高的纹理变化。

具体地,将合成图像107随机提供给第一鉴别器201或第二鉴别器202支持生成器106生成具有较高纹理变化的合成图像107。

为了实现这种效果,在训练阶段,第一鉴别器201确定生成器106根据虚拟图像109生成的合成图像107是虚假图像,并确定虚拟图像109是原始图像。出于相同的目的,在训练阶段,第二鉴别器202确定由生成器106根据真实图像108生成的合成图像107是虚假图像,并确定真实图像108是原始图像。

如图2中进一步所示,在训练阶段,设备100可选地根据合成图像107生成可学习掩码203。可学习掩码203指示合成图像107中的像素,这对于进一步训练神经网络104是重要的。因此,设备100可选地进一步根据可学习掩码203和合成图像107训练神经网络104。可选地,可学习掩码203可用于训练神经网络104,以改进确定以下至少一项的过程:深度图101、相对姿势102、语义分割103。

可选地,可学习掩码203为语义内层掩码。语义内层掩码通过语义内层掩码中的语义分割信息指示合成图像107中的感兴趣的区域。

如图2中进一步所示,在训练阶段,设备100可选地根据合成图像107确定分割信息204。分割信息204支持将合成图像107的部分与标签相关联,例如指示预定义部分是以下至少一个:街道、墙、树、交通灯、人行道、天空、房屋。然后,设备100根据分割信息204和合成图像107生成可学习掩码203。

如图2中进一步所示,在训练阶段,设备100可选地根据合成图像107确定姿势信息205。例如,姿势信息205包括用于车辆定向的位置坐标和角度。然后,设备100根据姿势信息205和合成图像107生成可学习掩码203。

如图2中进一步所示,在训练阶段,设备100可选地根据合成图像107确定内层掩码206。具体地,估计的语义分割信息被结合在内层掩码206中,用于训练神经网络104的自监督深度估计模型。然后,设备100根据内层掩码206和合成图像107生成可学习掩码203。

具体地,根据内层掩码206和分割信息204训练神经网络104能够改进设备100根据输入图像105确定深度图101的过程。另外两个鉴别器(图2中未示出)可以支持将真实图像域以及估计深度和语义分割的对应分布向虚拟域移动。

换句话说,设备100能够在两个鉴别器201、202的附加支持下训练神经网络104,以根据合成图像107的估计深度图和语义分割结果将域从真实移动到虚拟。

因此,图1和图2公开的特征可以根据自监督方法减小虚拟图像109与真实图像108(或虚拟数据集与真实数据集)之间的域间隙,以改进确定深度图101、语义分割103和相对姿势估计102的过程。

图3更详细地示出了本发明的实施例提供的设备100的示意图。图3所示的设备100包括图1和图2的网络设备100的所有特征和功能,以及以下可选特征。

根据图3,现在更详细地描述生成器106(也可以称为域适应模块或生成器块)。生成器106可用于训练模型(例如神经网络104),以根据虚拟图像域和真实图像域创建具有共同特征的新域图像(例如合成图像107)。对抗损失函数(即损失函数110)可以与基于图像语义边缘的损失函数一起使用,并与两个鉴别器网络(即第一鉴别器201和第二鉴别器202)一起使用,一个鉴别器用于虚拟域,另一个鉴别器用于真实域。

在学习过程中,使用第一鉴别器201和第二鉴别器202。为了再现输入图像105,在神经网络104的估计公共域RGB图像中使用重建损失。输入图像105可以来自随机模式中的虚拟域或真实域。生成器106的输出通过语义梯度或基于边缘的损失函数(即损失函数110)并通过第一鉴别器201和第二鉴别器202中的一个。鉴别器的选择是完全随机的。仅选择一个鉴别器的原因是生成器106根据所选择的鉴别器提供的判断计算结果,这有助于通过安全地保持场景结构和边缘来混合真实图像108和虚拟图像109的纹理信息。此外,选择鉴别器或选择数据集(真实图像或虚拟图像)的随机性有助于神经网络104不进入局部极小值,相反,损失将波动,因为这可能达到全局极小值。

根据图3,现在更详细地描述损失函数110(其也可以称为基于图像梯度的损失函数)。为了保持图像梯度、边缘或场景结构,提供了完全基于图像语义边缘的鲁棒的损失函数110。基于语义边缘的学习支持生成器106生成从训练开始维护语义梯度或边缘信息的图像,同时确保为训练深度估计(depth estimation,DE)模型、语义分割(semanticsegmentation,SS)模型和相对姿势估计(relative pose estimation,RPE)模型而生成的图像(即合成图像107)上纹理的更大变化。因此,通过将语义边缘作为用于训练模型(DE、SS、RPE)的共同重要特征来训练计算机视觉应用模型。DE模型、SS模型和RPE模型的卷积支持学习计算机视觉应用程序,独立于变化的纹理、阴影、照明效果、天气状况或色彩滤波。

根据图3,现在更详细地描述第一鉴别器201和第二鉴别器202(它们也可以是域适应模块的一部分)。对于第一鉴别器201和/或第二鉴别器202,可以使用Wasserstein鉴别器,其使用搬土距离来最小化虚拟数据集(即虚拟图像109)的分布与真实图像数据集(即真实图像108)的分布之间的差异。此外,梯度惩罚可以由鉴别器201、202中的至少一个鉴别器施加,用于解决梯度消失或爆炸的问题。第一鉴别器201的目的可以是学习神经网络104的输入是否来自虚拟数据集。在基于第一鉴别器201的训练期间,虚拟图像109被认为是真的/真实的,而生成器106的输出总是被认为是假的/虚假的。第二鉴别器202的目的类似于第一鉴别器201,但以正好相反的方式操作(即反向地)。第二鉴别器202总是将真实图像108视为真的/真实的,并且生成器106的输出视为假的/虚假的。

当训练神经网络104时,生成器106的输出总是被认为是假的/虚假的,并且随机选择鉴别器201、202中的一个鉴别器来判断生成的RGB(即合成图像107)是虚拟的还是真实的。通过混淆生成器106和第一鉴别器201和第二鉴别器202,生成器106将生成具有混合纹理和特征的图像。

在真实世界场景中,深度图101是根据相机传感器参数和语义信息投影为模式的3D场景结构的表示。对于在设备100中进行的处理,语义信息可以纯粹是3D场景、边缘和对象形状的模式。

如图3所示,设备100可选地可以包括第三鉴别器301和第四鉴别器302。第三鉴别器301可以在估计的深度图101上操作,而第四鉴别器302可以在估计的语义分割上操作。第三鉴别器301和第四鉴别器302的目的是进一步改进根据输入图像105确定深度图101和语义分割103的过程。

图4示出了输入图像401的一部分和深度图402、403的两部分,这些部分是由仅在虚拟图像109上训练的设备根据输入图像401确定的。如图4所示,在比较部分402和部分403时,在真实图像的估计深度图402、403中存在一些孔和不规则性(其中,设备已单独在虚拟数据集上训练)。在这种情况下,第三鉴别器301和第四鉴别器302有助于改进基于输入纹理的估计深度图或语义分割(通过在虚拟或真实数据集上训练设备100)。因此,生成器106被迫生成具有虚拟域和真实域共同特征的更好的合成图像107。

回到图3,现在描述如何根据用于分割、深度网或姿势和掩码网(即根据分割信息204、深度信息、姿势信息205和内层掩码206)的生成器的输出来训练神经网络104。作为用于创建用于改进确定深度图101、相对姿势102和语义分割103的过程的地面真值的监督方法,可以应用基于图像之间几何和视图重建的自监督方法。例如,这些图像可以来自立体图像或序列图像,也可以来自映射数据的图像。

使用分割信息204支持创建高效的可学习掩码203。通常,当使用视图重建损失函数以便将网络输入扭曲到立体图像、序列图像或地图相对图像时,像遮挡、非重叠或边缘周围这样的异常值对于神经网络104来说是棘手的区域。通过使用语义边缘作为损失函数110和通过根据分割信息204进行进一步训练,神经网络104可以被训练以进一步学习和改进内层掩码206和可学习掩码203,以便在视图重建损失的帮助下生成更好的深度图101。

根据图5、图6和图7,现在描述训练神经网络104的各种方法。

图5示出了使用虚拟图像109(即虚拟数据集)来训练深度图101和语义分割103,例如,同时使用真实视频(即序列图像)运行自监督方法(图5中未示出)。这种方法的主要好处是持续的学习过程。虽然虚拟数据集始终可用于训练,但真实视频是动态可用的,以进一步改进训练。因此,深度或分割模型可以用精确的虚拟标签来丰富。同时,根据以虚拟图像的学习结果作为使用第三鉴别器301和第四鉴别器302的基础的真实图像108改进设备100的确定结果。

具体地,图5示出了用于根据虚拟图像109训练的设备100的有源部件。由于虚拟图像109可以用于生成深度图101和语义分割103等的标签,所以虚拟图像109用于通过损失函数110训练神经网络104。

图6示出了用于使用序列真实图像108进行训练的设备100的网络架构。具体地,示出了用于训练真实视频(序列真实图像108)的有源部件。由于训练基于真实视频,因此使用自监督方法(基于视图重建损失函数)来计算深度图101和相对姿势102(里程测量),此外,估计的语义分割103用于(仅前向传播)改进内层掩码206和/或可学习掩码203。此外,仅虚拟图像109(数据集)用于训练深度图101和语义分割102,而在真实图像108上,训练的深度和分割模型被正向传递,并将真实图像108上的估计结果调整为类似于根据虚拟图像109进行估计的结果。这通过使用第三鉴别器301和第四鉴别器302仅在估计的深度和分割结果中将域从真实移动到虚拟来支持。

图7示出了用于根据单个真实图像108训练神经网络104的设备100的网络架构,除了用于训练用于深度图和语义分割的模型的鉴别器之外,没有任何损失函数。更具体地说,网络架构是根据真实图像108(数据集)训练的,没有深度相关损失函数。在所示的示例中,真实图像上的深度图用于根据第三鉴别器301和第四鉴别器302生成更好的结果。所示的方法支持使用没有任何地面真值标签的立体虚拟图像109和立体真实图像108,通过使用自监督方法来估计深度图101。所示的方法还支持使用没有任何地面真值标签的立体虚拟图像109和序列真实图像108,通过使用自监督方法来估计深度图101。

图8示出了设备100的推理阶段(也称为测试阶段)。在如图所示的推理阶段,确定真实域的给定输入图像105的深度图101和语义分割103。设备100还支持确定相对姿势102(图8中未示出)。

图9示出了本发明的实施例提供的方法900的示意图。方法900用于确定深度图101、相对姿势102或语义分割103。方法900包括步骤901:在推理阶段,神经网络104根据输入图像105确定深度图101、相对姿势102或语义分割103。方法900还包括步骤902:在训练阶段,生成器106根据真实图像108或虚拟图像109并根据损失函数110生成合成图像107。方法900还包括步骤903:生成器106根据合成图像107训练神经网络104;其中,损失函数110包括语义边缘函数111。

已经结合作为示例的各种实施例以及实现方式描述了本发明。但是,根据对附图、本发明和独立权利要求的研究,本领域技术人员在实践所要求保护的发明时,能够理解和实现其它变型。在权利要求书以及说明书中,词语“包括”不排除其它元件或步骤,且“一、”“一个”不排除多个。单个元件或其它单元可满足权利要求书中所列举的若干实体或项目的功能。在互不相同的从属权利要求中列举一些措施并不表示这些措施的组合不能用于有益的实现方式。

技术分类

06120114708426