掌桥专利:专业的专利平台
掌桥专利
首页

基于对抗网络的单帧深度图像三维模型重建方法及装置

文献发布时间:2023-06-19 10:32:14


基于对抗网络的单帧深度图像三维模型重建方法及装置

技术领域

本发明涉及计算机视觉和计算机图形学的技术领域,尤其涉及一种基于对抗网络的单帧深度图像三维模型重建方法,以及基于对抗网络的单帧深度图像三维模型重建装置。

背景技术

随着人工智能、计算机视觉和图像处理的发展,三维重建作为环境感知的关键技术之一,它在机器人,自动驾驶,虚拟现实和增强现实等领域的需求日益增加。传统的三维重建方法,如运动恢复结构(Structure from Motion,SFM)、即时定位和地图构建(Simultaneous Localization and Mapping,SLAM)等,要求密集的视点图像,严重依赖于跨视图之间的特征匹配,重建过程涉及环节较多,且难以重建出感知对象被遮挡或丢失的形状。近年来,基于深度学习模型的三维重建方法得到了广泛应用,其主要思想是使用深度神经网络代替传统人工设计算法提取特征的方式,并通过学习获得训练数据的先验知识,从而达到高质量重建模型的目的。深度神经网络的引入克服了传统三维重建方法存在的一些局限,但是这些网络的性能关联到众多基础理论和实用化技术,因此选择和设计一个最优的深度神经网络框架,使对象的3D形状能够高效准确地重建,仍然是本领域目前面临的一个挑战。

目前,最广泛应用于三维重建的网络模型是深度生成网络,如生成对抗网络(Generative Adversarial Network,GAN),自编码器(AutoEncoder,AE)和变分自动编码器(Variational AutoEncoder,VAE),它们在三维重建领域取得了显著进展。这些方法的主体框架包括编码和解码两个阶段,在编码阶段将输入数据编码为潜在特征,在解码阶段将此特征解码生成完整3D形状。基于AE和GAN的集成网络因为将AE的保持先验和GAN的判别性能组合,使其能够更好地学习到三维数据的复杂分布,从而成为了研究热点。虽然基于该类网络的方法提高了三维重建精度,然而它们仍然存在一定局限:(1)不能完整恢复被遮挡区域;(2)不能生成对象的细节;(3)容易产生冗余的形状。

发明内容

为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于对抗网络的单帧深度图像三维模型重建方法,其不需要人工设计复杂的特征算法,避免了复杂的相机校准及精细的流程设计,并具备了重建对象被遮挡区域的能力,不仅提高了重建精度,而且能够在提升对象细节质量的同时,抑制冗余形状的增生。

本发明的技术方案是:这种基于对抗网络的单帧深度图像三维模型重建方法,包括以下步骤:

(1)在生成器部分,利用胶囊编码器将输入的单帧深度图像编码为多个潜在胶囊,然后利用注意力解码器将这些潜在胶囊解码并融合生成一个3D初始形状;

(2)在判别器部分,通过与生成器的整体对抗学习,优化所述3D初始形状;

(3)在优化器部分,对所述3D初始形状进行局部结构优化,生成3D细化形状。

本发明首先利用胶囊编码器将输入的单帧深度图像编码为多个潜在胶囊,然后利用注意力解码器将这些潜在胶囊解码并融合生成一个较为粗糙的3D初始形状,通过与生成器的整体对抗学习,优化3D初始形状,对3D初始形状进行局部结构优化,生成高精度的3D细化形状,从而不需要人工设计复杂的特征算法,避免了复杂的相机校准及精细的流程设计,并具备了重建对象被遮挡区域的能力,不仅提高了重建精度,而且能够在提升对象细节质量的同时,抑制冗余形状的增生。

还提供了一种基于对抗网络的单帧深度图像三维模型重建装置,该装置包括:

生成器,其利用胶囊编码器将输入的单帧深度图像编码为多个潜在胶囊,然后利用注意力解码器将这些潜在胶囊解码并融合生成一个3D初始形状;

判别器,其通过与生成器的整体对抗学习,优化所述3D初始形状;

优化器,其对所述3D初始形状进行局部结构优化,生成3D细化形状。

附图说明

图1示出了PSAAN框架。训练过程包括生成器,判别器和优化器,测试过程包括生成器和优化器。

图2示出了根据本发明的基于对抗网络的单帧深度图像三维模型重建方法的流程图。

具体实施方式

为了解决上述这些问题,本发明提出了一种基于位姿和结构感知的对抗网络的模型,即PSAAN(Pose and Structure Aware based Adversarial Network),实现单帧图像的三维重建。与传统的三维重建方法相比,该方法不需要人工设计复杂的特征算法,避免了复杂的相机校准及精细的流程设计,并具备了重建对象被遮挡区域的能力;与现有基于深度学习的三维重建方法相比,该方法不仅提高了重建精度,而且能够在提升对象细节质量的同时,抑制冗余形状的增生。大量实验也表明,基于PSAAN模型的三维重建方法在整体精度及局部完整性方面均优于目前主流重建算法。

为了能够提高三维重建的精度与质量,同时避免传统方法中人工设计特征、相机校准及复杂的流程设计,以及深度学习方法中预测不完整、不准确,缺少细节的问题,本发明提出了一种基于位姿和结构感知的对抗网络的单帧深度图像三维重建方法,即通过学习来自训练集样本个体及群体的先验知识,提升重建对象的预测精度。为此,需要解决的关键技术问题包括:如何建立一个好的网络框架,学习图像与完整三维形状之间的映射;如何从单帧深度图像中学习一组特征能够很好地表示对象的潜在特性,以提高三维重建的精度;如何捕获形状局部区域之间的依赖关系,进而促进对缺失信息的重建,提升预测结果的完整性和可靠性;如何添加约束,使网络生成对象的细节。

如图2所示,这种基于对抗网络的单帧深度图像三维模型重建方法,包括以下步骤:

(1)在生成器部分,利用胶囊编码器将输入的单帧深度图像编码为多个潜在胶囊,然后利用注意力解码器将这些潜在胶囊解码并融合生成一个3D初始形状;

(2)在判别器部分,通过与生成器的整体对抗学习,优化所述3D初始形状;

(3)在优化器部分,对所述3D初始形状进行局部结构优化,生成3D细化形状。

本发明首先利用胶囊编码器将输入的单帧深度图像编码为多个潜在胶囊,然后利用注意力解码器将这些潜在胶囊解码并融合生成一个较为粗糙的3D初始形状,通过与生成器的整体对抗学习,优化3D初始形状,对3D初始形状进行局部结构优化,生成高精度的3D细化形状,从而不需要人工设计复杂的特征算法,避免了复杂的相机校准及精细的流程设计,并具备了重建对象被遮挡区域的能力,不仅提高了重建精度,而且能够在提升对象细节质量的同时,抑制冗余形状的增生。

优选地,所述步骤(1)中,为了防止学习过程中对象局部结构信息的丢失,设计u-net网络结构,将胶囊编码器和注意力解码器的对应卷积层进行拼接。

优选地,所述步骤(1)中,

利用五个三维卷积层将深度图像转换的3D体素网格编码成尺寸为4

将这些3D特征图中相应位置的特征进行封装,从而创建低层胶囊u

其中,

优选地,所述步骤(1)中,

将从编码器中学到的多个高层胶囊转换为尺寸为4

然后把3D形状看成2D切片集合:I={I

(I)学习注意力权重,用来计算2D切片中所有特征位置之间的依赖性;将所有2D切片集合I映射到两个新的特征空间f,g,对于特征空间f,g;首先分别通过F(·),G(·)将所有二维特征处理成两组新特征,得到矩阵

其中,a

(II)提取注意力特征,通过注意力权重感知2D切片中与目标3D形状相关的显著特征;再次将所有2D切片集合I映射到第三个新的特征空间h,通过H(·),得到矩阵

优选地,所述步骤(1)中,利用Reshape操作将O转换为2D切片集合,通过c

优选地,所述步骤(1)中,

生成器的损失函数由AE的重建损失L

L

L

L

其中,y∈{0,1},y

优选地,所述步骤(2)中,

由四个三维卷积层组成,每个卷积层都有一组的滤波器,其步长为2

将卷积层后的特征展平为一个维度为32768的向量;

判别器通过缩小真实3D形状与预测3D形状之间的Wasserstein距离来优化网络参数,判别器损失函数L

其中,y∈{0,1},y

优选地,所述步骤(3)中,

首先将Y

其中,Y

优化器的损失函数L

L

其中,β是权重系数,y∈{0,1},y

优选地,所述步骤(3)中,利用Adam算法对损失函数进行优化,其优化顺序为:先对优化函数(4)、(3)交替优化20次,然后对优化函数(6)优化10次;测试过程中,依次使用生成器及优化器获得单帧深度图像的3D高精度重建模型。

还提供了一种基于对抗网络的单帧深度图像三维模型重建装置,该装置包括:

生成器,其利用胶囊编码器将输入的单帧深度图像编码为多个潜在胶囊,然后利用注意力解码器将这些潜在胶囊解码并融合生成一个3D初始形状;

判别器,其通过与生成器的整体对抗学习,优化所述3D初始形状;

优化器,其对所述3D初始形状进行局部结构优化,生成3D细化形状。

以下更详细地说明本发明。

本发明提出的PSAAN由三个主要子网络组成:生成器,判别器和优化器。在生成器部分,首先利用胶囊编码器将输入的单帧深度图像编码为多个潜在胶囊,然后利用注意力解码器将这些潜在胶囊解码并融合生成一个较为粗糙的3D初始形状;在判别器部分,通过与生成器的整体对抗学习,优化上述3D初始形状;在优化器部分,对上述的3D初始形状进行局部结构优化,生成高精度的3D细化形状。PSAAN的总体框架如图1所示。

1.PSAAN的生成器

生成器主要用以学习输入图像对应部分形状信息和完整三维形状之间的映射,以实现单帧深度图像的三维重建。该部分的创新点主要有两点:其一是设计了一个胶囊编码器,利用它从输入图像中学习的多个胶囊来表示3D形状的潜在特征。该编码器能够保持对象的空间位置信息,并学习到对象部件之间的分层位姿关系,从而为对象的重建提供更有价值的潜在特征。其二是设计了一个注意力解码器,利用它学习对象局部区域之间的相关性,使网络自适应地调整局部区域在重建中的权重,从而提高对象的重建质量和精确度。

该部分的网络结构如图1中生成器部分所示,它主要包括胶囊编码器和注意力解码器。为了防止学习过程中对象局部结构信息的丢失,设计了u-net网络结构,即将编码器和解码器的对应卷积层进行拼接。各部分的详细设计如下。

1.1.胶囊编码器

首先利用五个三维卷积层(3D Convolution layer,3D Conv),将深度图像转换的3D体素网格编码成尺寸为4

然后将这些3D特征图中相应位置的特征进行了封装,从而创建了低层胶囊u

其中,

1.2.注意力解码器

首先将从编码器中学到的多个高层胶囊转换为尺寸为4

然后把3D形状看成2D切片集合:I={I

(1)学习注意力权重,用来计算2D切片中所有特征位置之间的依赖性。将所有2D切片集合I映射到两个新的特征空间f,g。对于特征空间f,g,首先分别通过F(·),G(·)将所有二维特征处理成两组新特征,得到矩阵

其中,a

(2)提取注意力特征,通过注意力权重感知2D切片中与目标3D形状相关的显著特征。再次将所有2D切片集合I映射到第三个新的特征空间h,即通过H(·),得到矩阵

为了重建更高质量的完整3D形状,利用Reshape操作将O转换为2D切片集合,通过c

生成器的损失函数由AE的重建损失(设为L

L

L

其中,y∈{0,1},y

2.PSAAN的判别器

判别器是通过与生成器进行对抗学习,从而提高生成器预测样本的重建质量,即判别生成的3D形状分布是否接近真实的3D形状分布,因而它可约束所预测的3D形状是否真实,是否具有合理性。与原始GAN判别器将真实数据和伪数据按两类进行分类不同的是,设计判别器输出一个表示真实或伪数据分布的高维向量。这种设计更有助于网络学习三维数据的复杂分布,从而捕捉三维物体的几何细节。

该部分的网络结构如图1判别器部分所示,它由四个三维卷积层组成,每个卷积层都有一组的滤波器,其步长为2

判别器通过缩小真实3D形状与预测3D形状之间的Wasserstein距离来优化网络参数。因此,判别器损失函数L

其中,y∈{0,1},y

3.PSAAN的优化器

优化器主要是对生成的3D形状Y

该部分的网络结构如图1优化器部分所示。首先将Y

其中,Y

优化器旨在优化每个局部块的细节特征,使融合后的整体预测结果与真实的3D形状接近。因此,优化器的损失函数L

L

其中,β是权重系数,y∈{0,1},y

综上所述,本发明提出的PSAAN包含一个生成器网络、一个判别器网络和一个优化器网络,对应损失函数分别定义为公式(3),(4)和(6)。在训练过程中,可利用Adam算法对损失函数进行优化,其优化顺序为:先对优化函数(4)、(3)交替优化20次,然后对优化函数(6)优化10次。测试过程中,依次使用生成器及优化器获得单帧深度图像的3D高精度重建模型。

本发明使用公开的ModelNet40数据库生成了训练和测试数据集。具体操作如下:对于每个CAD模型,本发明创建了一个虚拟深度相机,分别在俯仰角、偏航角和翻滚角方向均匀采样了5个视角,并生成这125个视角下的深度图像。通过上述方式,本发明获得了深度图像和对应的完整3D形状,然后利用虚拟相机参数将深度图像和对应的完整3D形状转换为体素网格。每个体素网格被表示为二值化张量:1表示体素被占用,0表示体素未被占用。

本发明使用了最常用的3D体素交并比(Intersection-over-Union,IoU)评估三维重建结果的性能。IoU表示预测的三维体素网格与真实的体素网格之间的相似性,其定义如下:

其中,I(·)是指示符函数,(i,j,k)是一个三维体素网格的索引,(y

本发明做了相关实验,将提出的PSAAN与传统三维重建方法和基于深度学习模型的三维重建方法进行了比较。传统重建方法主要指Kazhdan等人提出的泊松表面重建(Poisson Surface Reconstruction,PSR)方法,基于深度学习模型的重建方法主要包括Varley等人提出的3D-CNN重建方法,Yang等人提出的3D-RecAE,3D-RecGAN重建方法,Xie等人提出的Pix2Vox重建方法和Wu等人提出的3D-VAE-GAN重建方法。分别从单类别、多类别和跨类别三个方面进行了实验,然后利用IoU对上述方法和PSAAN进行了比较。接下来将详细介绍实验结果。

(1)单类别对象重建的实验。在三个不同类别上分别进行了训练和测试,其网络配置相同,对比结果如表1所示。

表1

(2)多类别对象重建的实验。具体操作为:在第1组中,网络在椅子和高脚凳类别上训练和测试;在第2组中,网络在椅子、高脚凳和马桶类别上训练和测试,对比结果如表2所示。

表2

(3)交叉类别实验。具体操作为:在第1组中,网络在椅子类别上训练,在高脚凳、马桶、沙发、桌子和电视柜类别上进行测试;在第2组中,网络在高脚凳类别上训练,在椅子、马桶、沙发、桌子和电视柜类别进行测试;在第3组中,网络在马桶类别上进行训练,在椅子、高脚凳、沙发、桌子和电视柜类别上进行测试,对比结果如表3所示。

表3

从表1,表2和表3中可以看出PSAAN对重建任务相对最优。这是因为PSAAN采用了胶囊编码器,注意力解码器和细节优化器。具体来说,通过胶囊编码器可以学到对象部件之间的分层位姿关系,保持对象的空间位置信息,这为对象的重建提供更准确,更有价值的线索。换句话说,用胶囊封装了特征图中相应位置的特征,然后通过可学习的姿态矩阵将这些底层特征映射到高层语义特征,并且为了使所有底层特征预测出语义一致的高层特征,使用动态路由算法学习了一组系数,对其底层特征的预测进行了线性加权。与传统方法相比,这种胶囊编码的方式对对象的潜在表示具有更好的表达能力。另外,通过注意力解码器可以学习到对象局部区域之间的依赖性,使网络自适应地调整局部区域在重建中的权重,从而提高对象的重建质量和精确度。最后,通过优化器可以优化对象的局部细节,与传统利用三维卷积优化的方法相比,使用了二维卷积层,减少了参数,降低了计算的复杂度。

综上所述,提出的PSAAN优于传统的重建方法和基于深度学习的主流重建方法,即它在单帧深度图像的情况下,就能够以更高的精度恢复对象的3D形状。

以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

相关技术
  • 基于对抗网络的单帧深度图像三维模型重建方法及装置
  • 基于深度学习的单帧图像三维模型表面重建方法
技术分类

06120112585082