掌桥专利:专业的专利平台
掌桥专利
首页

一种基于点云初始化和深度监督的稀疏网格辐射场表示方法

文献发布时间:2023-06-19 19:28:50


一种基于点云初始化和深度监督的稀疏网格辐射场表示方法

技术领域

本发明涉及一种场景辐射场的表示技术,准确的说,是一种基于点云初始化和深度监督的稀疏网格辐射场表示方法,该辐射场可以用于新视角的渲染。

背景技术

三维空间的感知与交互研究,是一直以来的研究热点。不论是机器人定位、建图、导航等任务,还是虚拟现实AR、VR、MR等XR任务,都离不开对环境的感知和交互。特别是最近几年,XR已经站上了市场风口,2022年11月1日,工信部等五部门印发《虚拟现实与行业应用融合发展行动计划(2022—2026年)》提出,到2026年,我国虚拟现实产业总体规模超过3500亿元,虚拟现实终端销量超过2500万。XR的全称为“Exteneded-Reality”,即拓展现实,是虚拟现实(Virtual-Reality)、增强现实(Augmented Reality)和混合现实(Mixed-Reality)等多种形式的统称。XR需要通过软硬件的结合打造出一个虚拟的人机交互环境。要实现人机交互环境,核心步骤主要为两步:环境感知和环境交互。首先要完成对环境的三维重建,即实现环境主动感知;然后要在已知环境中进行交互,即环境交互式渲染。目前存在的辐射场存在一下问题:

1.基于多层感知机的神经辐射场往往需要很长的训练时间,效率较低;

2.目前使用纯视觉图像进行监督,往往导致几何需要很大数量的图片才能被正确学习;

3.基于体素网格的辐射场往往需要较大的内存。本发明为三维场景提供了一种高效的辐射场表示方法,克服了上述问题,并且可以用于新视角的渲染,能帮助XR应用更好的发展。

发明内容

为了解决现有辐射场存在的上述问题,本发明通过一下途径来分别解决对应问题,本发明的发明核心思路在于以下四点:1.基于体素的辐射场表征;2.几何初始化与稀疏网格;3.基于稀疏网格的采样方式实现;4.深度监督(几何约束)。本发明是通过以下技术方案来实现的:

本发明公开了一种基于点云初始化和深度监督的稀疏网格辐射场表示方法,包括:

获得至少2张以上的相机色彩图像;

获得2张相机深度图像,并将深度图像生成为三维点云;

将所有获得的相机图像利用相机参数(包括内参和外参),将每个像素生成射线,得到所有像素的射线集合;

将三维点云输入到占用网络,生成占用网格,每个网格顶点存储该点的占用概率(0-1),并利用该占用网格作为体素辐射场的几何初始化先验,将体素辐射场中的体素网格稀疏化,得到稀疏体素辐射场;

对所有射线进行采样,采样中使用稀疏体素网格作为辅助,优化采样策略,只对稀疏网格中非空白部分进行采样,对一个采样点利用三线性插值对相邻体素顶点进行插值采样,得到每个点的几何参数和色彩参数;

将射线上的所有采样点进行体素渲染,分别得到RGB色彩图像和深度图像;

利用采集得到的色彩图像和深度图像与渲染得到的RGB色彩图像和深度图像建构损失函数(色彩约束和几何约束);

利用损失函数进行梯度传递,优化体素辐射场的参数,直至所有参数收敛,最终得到当前场景的稀疏体素辐射场表示。

作为进一步地改进,本发明所述的稀疏体素辐射场,具体为:

稀疏体素从稠密体素网格中稀疏化得到,稀疏体素只保留场景中被物体占用的部分空间,目的在于能够大大减少不必要的信息存储成本,同时,在每个体素上,存储信息包括1维的几何信息和3维以上的色彩信息,体素网格和存储的几何信息、色彩信息共同组成了稀疏体素辐射场。

作为进一步地改进,本发明所述的使用稀疏体素网格作为辅助,优化采样策略具体为:

对于空间中经过稀疏体素场的一条射线,射线采样时会跳过空间中所有空白网格,只在稀疏网格中进行采样。所述方法能够大大减少采样数量,同时保证采样质量。

作为进一步地改进,本发明所述的利用采集得到的色彩图像和深度图像与渲染得到的RGB色彩图像和深度图像建构损失函数,具体为:

对辐射场渲染的RGB色彩图像和真实拍摄的色彩图像计算平方误差构成色彩约束,对辐射场渲染的深度图像和真实拍摄的深度图像计算平方误差构成深度约束,具体公式如下:

作为进一步地改进,本发明所述的利用占用网格作为体素辐射场的几何初始化先验,具体为:

利用所采集的深度图像,通过图像参数生成三维点云,再将三维点云通过占用网络生成占用概率网格,进而,设定占用概率阈值,将占用概率网格中小于阈值的网格进行删除,从而得到权利要求2中所描述的稀疏体素辐射场。另外,在初始化时,利用占用概率网格中的占用概率值作为几何密度初值。

相比于现有的神经辐射场表示方法,本发明的有益效果在于:

1)由于真实场景往往大部分是空白的,因此本发明使用稀疏网格来表征场景,降低了内存成本;

2)由于通过体素渲染的方式隐式学习几何结构需要很大数量的图像,因此本发明利用已经完成三维重建作为几何约束,加强几何学习能力;

3)本发明利用已经完成的三维重建,作为初始化的指导,在网格生成阶段就降低参数量,提升优化效率并降低存储成本;

4)由于稀疏网格中避免了射线采样中的无效采样,因此大大减少了每条所需的采样数量,因此本发明在训练和渲染时都有显著的提升速度,针对基于多层感知机的神经辐射场提速1000倍,针对基于体素网格的辐射场提速5倍。渲染时,本发明的速度可以达到20Hz,接近实时。

5)由于本发明利用了场景的三维点云作为几何先验,因此本发明可以用更少的图像,恢复出目标效果。避免的大量数据采集,提升场景重建效率。

附图说明

图1是本发明的介绍的使用点云对网格进行稀疏初始化示意图;

101代表场景的三维点云;102代表将场景中的三维点云根据最大包围框放进稠密网格;103代表利用三维点云对稠密网格进行稀疏化后得到稀疏网格;

图2是本发明的应用于渲染时的示意图;

204表示稀疏网格辐射场;201表示当前相机所在位置;202表示当前射线的正视方向;203表示最终得到的渲染图片(包括色彩图和深度图);

图3是本发明的在实际训练和渲染时候的算法应用流程图。

具体实施方式

本发明公开了一种基于点云初始化和深度监督的稀疏网格辐射场表示方法:

首先,本发明使用了基于体素的场景表示形式,即用体素网格来表示场景,避免了多层感知机的使用,避免冗杂的网络参数和计算,提升速度。同时,本发明在体素网格时利用了球谐波系数作为颜色参数,对同一个点,能有效的建模视角不同时观察到的色彩不同的情况。

其次,本发明结合了场景已有的三维重建信息(如点云和深度图)。如图1所示,101作为场景完成重建的三维点云,将场景点云与稠密体素网格102对齐,本发明利用三维点云作为初始化指导,将空间中无点云的网格进行剔除,最终使用如103所示的稀疏网格进行后续训练。

进一步的,在利用网格渲染图像时,如图2所示。201是当前相机所在位置,202代表当前像素的射线方向,沿着当前像素方向对空间中的点进行采样,把所有采样点的颜色和距离进行加权求和,即可得到当前像素点的颜色和深度信息,把所有的像素点进行采样,则可以得到如203所示在当前位置下相机的彩色图和深度图。由于如204所示的体素网格是稀疏的,只需要对射线经过的网格区域进行采样,一般来说,一条射线的经过的网格数量较少,因此,这种基于稀疏网格的采样方式能够大大加训练的收敛速度,并且在渲染时,得益于稀疏网格的快速加速,也能使本发明提出的辐射场能以实时的速度进行渲染。

最后,把当前辐射场渲染的色彩图与深度图与数据集中提供的真实彩色图与深度图进行对比,分别计算RGB误差和几何误差,并对误差进行梯度计算,将梯度传递到每个体素顶点,对体素的几何参数和色彩参数进行优化,最终如图3所示,色彩约束与几何约束协同对本发明的辐射场进行有效训练,最终使该辐射场能够渲染具有真实感的场景图像和结构。

下面通过具体实施案例对本发明的技术方案作进一步地说明:

步骤一:本发明使用传感器分别对色彩图像和深度图像进行采集,将采集到的色彩图像记为I

步骤二:利用定位好的色彩图像和深度图像,结合相机的内参和外参,首先将色彩图像和深度图像的每个像素转换为相机坐标系下的射线,然后使用相机的外参,将每条射线在世界坐标系下进行表示,得到所有图像像素对应的世界坐标系下的射线集合。

步骤三:将P

步骤四:利用占用概率网格G

步骤五:将步骤二种的所有的射线进行采样,其中采样的最近点和最远点根据场景预先设定,一般来说,射线的最近点为当前射线的原点,最远点则根据射线和场景网格的交点获得。在射线采样的过程中,使用步骤四中得到的稀疏体素网格进行辅助加速,当前采样点所在位置对应网格不落在稀疏体素网格范围内,则跳过当前采样点。因此,利用稀疏体素网格,可以避免采样过程中的无效采样,能够在保证采样质量的前提下,大大提速采样过程。对于落在稀疏体素网格内的采样点,将每个采样点对其网格顶点进行三线性插值得到采样点的参数(占用概率和色彩参数)。其中三线性插值的是通过当前点到体素顶点的距离来计算当前点和每个顶点的权重关系,一般来说距离越近权重越大,最后再使用这些权重,将体素顶点的参数进行加权求和,从而得到当前采样点的参数。

步骤六:将步骤五种所有的采样点进行在体素渲染,假设某条射线共有效采样了k点,记第i个点占用概率o

对所有像素对应的射线均进行体素渲染,则可以生成预测图像和预测深度图像。

步骤七:将步骤六种预测得到的图像和步骤一中实际采集的图像构建误差(色彩误差和深度误差),其中色彩误差代表了每个像素上RGB三通道的差异值,深度误差代表了每个像素上深度的差异值,这些误差分别对应了场景中的纹理信息和几何信息,色彩误差和深度误差的计算公式如下:

Loss=Loss

步骤八:将误差函数进行梯度反向传播,用于更新稀疏网格辐射场中的参数。在求解所有误差的梯度时,一种方法是通过利用Pytorch等能够进行自动求导的库进行自动求解,另一种方法则是通过理论推导每个损失项对每个体素参数的一阶导数,再利用优化方法对所有体素参数进行修正。

步骤九:当稀疏网格辐射场完成参数训练后,以为着当前辐射场已经能够用于表征当前场景,此时若给定一个全新的相机位姿和相机内参,本发明可以使用步骤二、步骤五和步骤六,对任意全新位姿和相机内参的相机图像进行渲染,从而能够实现在场景中任意视角获得图像渲染结果。

以上例举的仅是本发明的优选实施方式,本发明并不限于以上实施例,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围内。

相关技术
  • 一种基于自适应特征选择的监督式稀疏表示轴承故障分类方法
  • 一种基于压缩感知的点云数据稀疏表示方法
技术分类

06120115921654