基于稀疏采样的环拍图像到任意视点图像生成方法及系统

文献发布时间：2023-06-19 16:09:34

技术领域

本发明涉及新视点图像合成技术领域，具体涉及基于稀疏采样的环拍图像到任意视点图像生成方法及系统。

背景技术

给定场景的一组姿势图像，新视图合成的目标是在任意新视点生成同一场景的照片般逼真的图像。也就是说，基于有限角度稀疏采样得到的环拍图像数据，我们可以通过神经渲染技术，在360度任意新相机视角条件下合成图像。但对于此类任务，其最主要的挑战是来自于场景的三维结构观测比较稀疏，需要在仅有的几个观测视角下合成出新视角的图像，同时还需要补全新视角下被遮挡或者没有在观测中被包含的部分。

在经典计算机视觉中，人们主要基于多视角立体视觉来实现物体或场景几何重建，用反射变换来构建基于图像的渲染效果。但在稀疏观测或者欠观测的情况下，这种方法得到的结果会具有孔洞，或是留下较为明显的人工凿斧痕迹。而在神经渲染中，可以通过少量的已有视角观测结果来学习出场景，再利用可差分的渲染器生成新视角下的照片般逼真的图像，能够显著改善传统场景几何重建中产生的孔洞、明显痕迹等问题。另外，在对物体拍摄时，也会因为物体的几何形状而不可避免的出现一些拍摄死角的问题，这对获取物体的任意视角图像带来了一定的阻碍，而基于神经渲染的新视点图像生成有效的解决了此类问题。

发明内容

为此，本发明提供一种基于稀疏采样的环拍图像到任意视点图像生成方法及系统，以解决现有新视点图像合成方法存在的物体存在拍摄死角，对获取物体的任意视角图像带来阻碍的问题。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提出了一种基于稀疏采样的环拍图像到任意视点图像生成方法，所述方法包括：

基于稀疏采样获取物体或场景的不同视角的环拍图像，相邻视角的图像之间具有一定的重合区域，随机选择一个目标视图，然后采样N个邻近的与目标视图具有不小于预设角度重合区域的视图作为源视图来构建源视图集与目标视图对，建立训练集，根据所述训练集得到有效工作集；

基于所述训练集对所述物体或场景进行稀疏重建，得到全局三维点云，根据所述三维点云得到图像的位姿信息；

基于所述工作集以及图像的位姿信息对预先构建的神经网络模型进行训练，所述神经网络模型包括图像特征提取网络模型和神经渲染网络模型，所述神经渲染网络模型包括体积密度预测模块和颜色预测模块，分别用于预测输出的新视图的密度和颜色；

利用训练好的神经渲染网络模型渲染生成指定观察轨迹下的多张新视点图像。

进一步地，根据所述训练集得到有效工作集，具体包括：

选择N个源视图中与目标视图具有最大重合区域的视图子集作为工作集。

进一步地，根据所述三维点云得到图像的位姿信息，具体包括：

所述全局三维点云中包含了图像所有像素点在空间中的包括3D空间位置和2D观看方向的5D位置信息，即为图像的位姿信息。

进一步地，基于所述工作集以及图像的位姿信息对预先构建的神经网络模型进行训练，具体包括：

将以工作集为单位的数据送入图像特征提取网络，来提取图像的2D特征，输出一组特征图；

将提取到的特征图与图像位姿信息输入神经渲染网络，该网络包含体积密度预测模块与颜色预测模块，两个模块均采用多层感知机结构MLP作为基本单元，具体处理流程为：

通过体积密度预测模块中的第一MLP单元对所有源视图中提取到的2D图像特征的局部和全局信息进行聚合，得到多视图的感知特征；

将多视图感知特征输入至体积密度预测模块中的第二MLP单元完成新视图密度特征的预测；

将多视图的图像位姿与得到的多视图感知特征同时送入颜色预测模块，得到5D点所对应源视图中图像颜色的混合权重，并以此预测出新视图中所对应的图像像素颜色。

进一步地，基于所述工作集以及图像的位姿信息对预先构建的神经网络模型进行训练，具体还包括：

采用均方误差损失来表示目标图像C与渲染图像

其中，r表示图像的单个像素颜色，R为图像的所有像素颜色值集合；

使用所述损失函数对模型进行迭代训练，当损失函数值不再下降时，停止训练。

进一步地，利用训练好的神经网络模型渲染生成指定观察轨迹下的多张视点图像，具体包括：

生成指定观察路径下多个新视点图像的位姿信息，将该路径中的新视点图像位姿输入到训练好的神经渲染网络，即可渲染生成对应新视点图像位姿下的RGB图像。

进一步地，所述方法还包括：

通过插值法在每相邻的两张源视图的图像位姿之间按照平均步长进行插值生成新视点图像位姿，插值的步长通过最终要渲染得到的图像数量来确定。

进一步地，所述方法还包括：

将得到的指定观察轨迹下的多张新视点图像合称为视频。

根据本发明实施例的第二方面，提出了一种基于稀疏采样的环拍图像到任意视点图像生成系统，所述系统包括：

训练集构建模块，用于基于稀疏采样获取物体或场景的不同视角的环拍图像，相邻视角的图像之间具有一定的重合区域，随机选择一个目标视图，然后采样N个邻近的与目标视图具有不小于预设角度重合区域的视图作为源视图来构建源视图集与目标视图对，建立训练集，根据所述训练集得到有效工作集；

图像位姿获取模块，用于基于所述训练集对所述物体或场景进行稀疏重建，得到全局三维点云，根据所述三维点云得到图像的位姿信息；

模型训练模块，用于基于所述工作集以及图像的位姿信息对预先构建的神经网络模型进行训练，所述神经网络模型包括图像特征提取网络模型和神经渲染网络模型，所述神经渲染网络模型包括体积密度预测模块和颜色预测模块，分别用于预测输出的新视图的密度和颜色；

图像生成模块，用于利用训练好的神经渲染网络模型渲染生成指定观察轨迹下的多张新视点图像。

本发明具有如下优点：

本发明提出的一种基于稀疏采样的环拍图像到任意视点图像生成方法及系统，借鉴神经渲染的优势，通过给定邻近的源视图，使用体积渲染以新颖的相机位姿合成目标视图，并估计该视图的颜色和体积密度，从多个源视图动态绘制外观信息。对于新视点合成的应用场景，基于深度卷积神经网络并结合经典的体渲染技术，能够基于有限角度稀疏采样得到的环拍图像数据，来渲染生成360度任意视角下渲染的2D图像，从而进行任意观察轨迹下的视频合成，本发明方法不仅可以有效解决物体的拍摄死角问题，而且可以大大减少物体或场景拍摄的成本。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种基于稀疏采样的环拍图像到任意视点图像生成方法的流程示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提出了一种基于稀疏采样的环拍图像到任意视点图像生成方法，该方法包括：

S100、基于稀疏采样获取物体或场景的不同视角的环拍图像，相邻视角的图像之间具有一定的重合区域，随机选择一个目标视图，然后采样N个邻近的与目标视图具有不小于预设角度重合区域的视图作为源视图来构建源视图集与目标视图对，建立训练集，根据训练集得到有效工作集；

S200、基于训练集对物体或场景进行稀疏重建，得到全局三维点云，根据三维点云得到图像的位姿信息；

S300、基于工作集以及图像的位姿信息对预先构建的神经网络模型进行训练，神经网络模型包括图像特征提取网络模型和神经渲染网络模型，神经渲染网络模型包括体积密度预测模块和颜色预测模块，分别用于预测输出的新视图的密度和颜色；

S400、利用训练好的神经渲染网络模型渲染生成指定观察轨迹下的多张新视点图像。

本实施例提出的一种基于稀疏采样的环拍图像到任意视点图像的生成方法，该方法基于可学习的多视图图像渲染框，从多个源视图中快速提取外观信息，并预测空间中的颜色和密度，从而合成新视点图像。稀疏采样是指对物体的拍摄方式，例如环绕物体一圈是360度，每隔一度拍一张可以拍360张，而这里为了减少拍摄成本，可以通过稀疏采样的方式每隔20度对物体进行拍摄，则只需拍摄18张图片。具体实施步骤如下：

1.获取图像数据的训练集，该训练集包含对单个物体或单个场景进行稀疏拍摄得到的多张不同视角图像，每相邻两个视角图像之间至少要有15度的重合部分，视角范围应涉及到720度球状的任意角度，则对于每个物体或场景，应至少采集576张图像；

2.对于图像的训练集，基于一个物体或场景的多个视图，通过随机选择一个目标视图，然后采样N个附近的与目标视图具有不小于15度重合区域的视图作为源视图来构建源视图集与目标视图对，即每个目标视图对应N个源视图；

3.基于训练集中单个物体或场景的多个视图，通过三维重建函数库colmap对该物体或场景进行稀疏重建，得到全局三维点云，该点云主要包含了图像所有像素点在空间中的5D位置信息(即3D空间位置和2D观看方向)，即图像的位姿信息pose；

4.基于神经网络模型，分别设计图像特征提取网络模型与神经渲染网络模型，以实现任意新视点图像的生成对图像密度和颜色信息的预测。其中，图像特征提取网络采用常见的卷积神经网络结构ResNet，神经渲染网络采用常见的点云神经网络结构PointNet；

5.在训练集的单个物体或场景的所有视图中选择少量源视图作为渲染新视图的“工作集”；

6.对于有效“工作集”的获得，通常会识别空间附近的候选视图，然后选择N个视图中与目标视图具有最大重合区域的视图子集作为有效“工作集”；

7.将训练集中以“工作集”为单位的数据送入图像特征提取网络，来提取图像的2D特征，输出一组特征图；

8.将提取到的特征图与图像位姿信息pose送入神经渲染网络，该网络主要包含了体积密度预测模块与颜色预测模块，两个模块均采用多层感知机结构MLP作为基本单元，具体处理流程为：

8.1首先通过体积密度预测模块中的MLP对所有源视图中提取到的2D图像特征的局部和全局信息进行聚合，得到多视图的感知特征；

8.2然后将多视图感知特征送入体积密度预测模块中的另一个MLP单元完成新视图密度特征的预测；

8.3接着，将多视图图像位姿pose与8.1中得到的多视图感知特征同时送入颜色预测模块，得到5D点(3D空间位置和2D观察方向)所对应源视图中图像颜色的混合权重，并以此预测出新视图中所对应的图像像素颜色；

9.采用均方误差损失来表示目标图像C(ground truth)与新预测图像

这里，r表示图像的单个像素颜色，R为图像的所有像素颜色值集合；

10.通过最小化步骤9中的均方误差损失函数对图像特征提取网络与神经渲染网络同时进行迭代训练；

11.当损失函数值不再下降时，停止训练，输出图像特征提取网络模型与神经渲染网络模型；

12.基于源视图的位姿信息，设计新的渲染路径并生成该路径下新视点图像的位姿信息。对于新渲染路径的形式，包括但不限于原始图像观察路径、物体圆环观察路径、螺旋状观察路径等形式。这里以提到的第一种观察轨迹为例进行渲染路径生成的说明，主要包括以下步骤：

(1)基于从训练集中得到原始的多张视图，利用通用的三维重建函数库colmap对多张视图进行稀疏重建，并计算出每个视图的位姿信息pose；

(2)通过插值法在每相邻的两张源视图之间按照平均步长进行插值生成新视点图像位姿，插值的步长通过最终要渲染得到的图像数量来确定。例如，如果要通过18张源视图渲染出360张新的图像，则平均步长可以通过以下公式计算得到：

stride＝(pose2–pose1)/20

其中，pose1与pose2分别表示相邻两张源视图的位姿，20是根据最终要得到的图像数量除以源视图的图像数。

(3)将所有通过插值得到的图像位姿按源视图的拍摄顺序保存到列表中，生成新的渲染路径。

13.将新渲染路径中的图像位姿输入到训练好的神经渲染模型，即可渲染生成对应新视点图像位姿下的RGB图像；

14.通过FFMpeg工具将渲染生成的图像按顺序合成为视频，即可得到指定观察轨迹下的新视点视频。

实施例2

与上述实施例1相对应的，本实施例提出了一种基于稀疏采样的环拍图像到任意视点图像生成系统，所述系统包括：

图像位姿获取模块，用于基于所述训练集对所述物体或场景进行稀疏重建，得到全局三维点云，根据所述三维点云得到图像的位姿信息；

图像生成模块，用于利用训练好的神经渲染网络模型渲染生成指定观察轨迹下的多张新视点图像。

本发明实施例提供的一种基于稀疏采样的环拍图像到任意视点图像生成系统中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

完整全部详细技术资料下载