掌桥专利:专业的专利平台
掌桥专利
首页

基于射线引导和表面优化的神经辐射场三维重建方法

文献发布时间:2024-04-18 19:58:26


基于射线引导和表面优化的神经辐射场三维重建方法

技术领域

本发明属于三维重建技术领域,更具体地说,涉及一种基于射线引导和表面优化的神经辐射场三维重建方法。

背景技术

三维重建是计算机视觉和计算机图形学领域的重要研究方向,旨在从图像和传感器数据中恢复三维物体的形状和结构信息。随着科技的发展,传统的显示表示方法产生的结果无法满足人们对重建结果的精度要求,所以三维重建的研究重心已从传统的显示表示方法转向更轻量级的隐式表示方法,其中最具代表性的是神经辐射场(Neural RadianceFields,简称NeRF)的提出。

神经辐射场是利用相机位姿对场景发射多条射线,使用多层感知器(MLP)网络对射线上的点进行体密度和辐射值建模,再通过体渲染方法计算单条射线的颜色,最终生成单个视角的渲染图像并且合成新视角图像。虽然神经辐射场的出现让三维重建能产生照片级的重建结果,但其有两个十分明显的不足。一方面在训练时需要对每个像素单独渲染,并且在渲染时要在射线上采样多个点,这带来了巨大的计算量。而对于一张图像来说,并不是每个像素点都包含需要重建的物体,对那些没有物体的像素进行渲染浪费了许多训练时间。另一方面,由于MLP网络容量问题导致NeRF在训练时缺乏额外的表面约束,容易因为过拟合导致几何-辐射模糊性。Zihan Zhu等人提出的NICE-SLAM使用深度图作为神经表面重建的几何监督有效的解决了几何-辐射模糊性问题,但其采用的逐像素优化的方法耗时较长,并且没有考虑相邻像素深度的关系,导致重建表面出现坑洼。

目前针对NeRF的训练时间过长和物体表面坑洼现象的解决方法不多,因此急需相应的研究。

发明内容

针对以上问题,本发明一种基于射线引导和表面优化的神经辐射场三维重建方法,提出射线引导模块和分块表面优化模块。射线引导模块是使用显示的稀疏体素表示物体的粗糙模型,以引导射线只瞄准物体所在的位置,减少射线数量,从而在不影响重建质量的前提下减少计算量。分块表面优化模块是使用真实深度图作为几何监督优化表面重建,在体渲染时计算每条射线的深度值,将同一区域内渲染深度值之和与该区域内深度图中深度值之和的差值作为神经表面重建的监督信号,用微小的计算代价增加物体表面重建的细节,同时解决几何-辐射模糊性问题。

基于本发明的一个方面,一种基于射线引导和表面优化的神经辐射场三维重建方法,包括如下步骤:

S1、将图片输入到由神经网络构成的编码器中获取图片特征,使用小型多层感知器Small MLP作为解码器解码出符号距离场SDF的特征向量集;

S2、根据符号距离场SDF的特征向量集生成稀疏体素,并在体素的每个顶点存储特征向量;

S3、使用三线性插值计算体素内任意一点的特征向量,使粗糙体素能够表达连续的物体几何信息,生成神经辐射场;

S4、将生成的神经辐射场放入NeRF渲染器内进行射线投射;

S5、对射线进行筛选,对筛选后的射线进行点采样,使用多层感知器对采样点进行体密度、辐射值的预测;

S6、使用体渲染渲染出每条射线的最终颜色和最终深度;

S7、计算最终颜色和最终深度与真实值的损失,并不断优化该损失,直至训练完成。

进一步地,步骤S1具体步骤为:

将n张已知相机参数

其中,d表示空间

进一步地,步骤S2的具体步骤为:

根据特征向量集

其中,V表示稀疏体素,F表示体素生成的神经网络,(.,.)表示特征连接;得到稀疏体素后对每个体素的八个顶点建立索引,将特征向量存储在顶点中,以便后期查询,相邻的体素还能够共享定点信息;在顶点中建立特征索引的公式如下所示:

其中,z表示特征向量,j表示顶点体素的顶点编号与索引号,V表示稀疏体素,

进一步地,步骤S3的具体步骤为:

使用三线性插值的方法在空间中进行插值来获得除体素顶点以外的特征向量,使离散的稀疏体素变成连续的表示,从而生成神经辐射场;三线性插值的公式如下所示:

其中,P(x)表示在点x处三线性插值的结果,ReLU表示激活函数,tri表示三线性插值函数,使用先插值后激活的操作,能够使低分辨率的体素表达更精细的物体表面,根据插值结果得到完整的物体几何信息生成神经辐射场,为后续的射线引导做准备。

进一步地,步骤S4的具体步骤为:

将生成的神经辐射场放入NeRF渲染器内进行射线投射,定义射线从图像的像素点开始,根据相机参数将像素在相机坐标系下的坐标转换为世界坐标系下的坐标并指定射线方向,射线方向生成公式如下所示:

r=G(K

其中,r表示射线,G表示射线生成函数,K

进一步地,步骤S5的具体步骤为:

对生成的射线进行点采样,由于图像的每个像素都会生成射线,但对于图像来说并非每个像素都包含需要重建的物体,所以要对射线进行一定的筛选。使用射线-体素相交检测方法来确保射线上有物体存在;方法分为两种情况,若射线方向与体素相交,则先在射线上进行均匀的点采样,再在物体表面S附近进行密集的点采样,得到采样点使用MLP网络预测点的体密度和辐射值;若射线方向与体素不相交,则跳过该射线,不进行点采样及渲染;预测采样点的体密度和辐射值的公式如下:

(σ,c)=MLP(x,θ,φ)(6)

其中,σ表示体密度,c表示辐射值,x表示采样点,θ表示观察方位角,φ表示观察极视角。

进一步地,步骤S6的具体步骤为:

使用体渲染方法将射线上采样点的体密度和辐射值加权求和计算每条射线的最终渲染颜色与最终渲染深度值,体渲染公式如下所示:

α

ω

其中,α

进一步地,步骤S7的具体步骤为:

将渲染的得到的最终渲染颜色和最终渲染深度与真实值进行损失优化,对于每个像素单独优化以后,再将同一区域的深度值之和进行损失优化,以增加像素之间的关联性;进行优化的损失函数如下所示:

L=L

其中,L

根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明的基于射线引导和表面优化的神经辐射场三维重建方法中的步骤。

根据本发明的又一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明的基于射线引导和表面优化的神经辐射场三维重建方法中的步骤。

相比于现有技术,本发明至少具有如下有益效果:本发明提供一种基于射线引导和表面优化的神经辐射场三维重建方法,在保持精细重建质量的情况下加快训练速度,并且能解决重建时由于物体表面约束不足导致重建质量下降的问题,主要贡献有:

1.提出射线引导模块对采样射线进行过滤,只对经过所需重建物体的射线进行采样,从而在不影响重建质量的前提下加快训练速度;

2.提出分块表面优化模块,对不同区域的深度值进行损失优化,增加块内同性及块间异性,增加物体表面重建细节。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。

图1为本发明的总体流程图。

具体实施方式

如图1所示,

以下采用具体实施例进一步说明本发明的方法的具体实施过程。

实施例1:一种基于射线引导和表面优化的神经辐射场三维重建方法,包括如下步骤:

S1、将图片输入到由神经网络构成的编码器中获取图片特征,使用小型多层感知器Small MLP作为解码器解码出符号距离场SDF的特征向量集;

S2、根据符号距离场SDF的特征向量集生成稀疏体素,并在体素的每个顶点存储特征向量;

S3、使用三线性插值计算体素内任意一点的特征向量,使粗糙体素能够表达连续的物体几何信息,生成神经辐射场;

S4、将生成的神经辐射场放入NeRF渲染器内进行射线投射;

S5、对射线进行筛选,对筛选后的射线进行点采样,使用多层感知器对采样点进行体密度、辐射值的预测;

S6、使用体渲染渲染出每条射线的最终颜色和最终深度;

S7、计算最终颜色和最终深度与真实值的损失,并不断优化该损失,直至训练完成。

进一步地,步骤S1具体步骤为:

将n张已知相机参数

其中,d表示空间

进一步地,步骤S2的具体步骤为:

根据特征向量集

其中,V表示稀疏体素,F表示体素生成的神经网络,(.,.)表示特征连接;得到稀疏体素后对每个体素的八个顶点建立索引,将特征向量存储在顶点中,以便后期查询,相邻的体素还能够共享定点信息;在顶点中建立特征索引的公式如下所示:

其中,z表示特征向量,j表示顶点体素的顶点编号与索引号,V表示稀疏体素,

进一步地,步骤S3的具体步骤为:

使用三线性插值的方法在空间中进行插值来获得除体素顶点以外的特征向量,使离散的稀疏体素变成连续的表示,从而生成神经辐射场;三线性插值的公式如下所示:

其中,P(x)表示在点x处三线性插值的结果,ReLU表示激活函数,tri表示三线性插值函数,使用先插值后激活的操作,能够使低分辨率的体素表达更精细的物体表面,根据插值结果得到完整的物体几何信息生成神经辐射场,为后续的射线引导做准备。

进一步地,步骤S4的具体步骤为:

将生成的神经辐射场放入NeRF渲染器内进行射线投射,定义射线从图像的像素点开始,根据相机参数将像素在相机坐标系下的坐标转换为世界坐标系下的坐标并指定射线方向,射线方向生成公式如下所示:

r=G(K

其中,r表示射线,G表示射线生成函数,K

进一步地,步骤S5的具体步骤为:

对生成的射线进行点采样,由于图像的每个像素都会生成射线,但对于图像来说并非每个像素都包含需要重建的物体,所以要对射线进行一定的筛选。使用射线-体素相交检测方法来确保射线上有物体存在;方法分为两种情况,若射线方向与体素相交,则先在射线上进行均匀的点采样,再在物体表面S附近进行密集的点采样,得到采样点使用MLP网络预测点的体密度和辐射值;若射线方向与体素不相交,则跳过该射线,不进行点采样及渲染;预测采样点的体密度和辐射值的公式如下:

(σ,c)=MLP(x,θ,φ)(6)

其中,σ表示体密度,c表示辐射值,x表示采样点,θ表示观察方位角,φ表示观察极视角。

进一步地,步骤S6的具体步骤为:

使用体渲染方法将射线上采样点的体密度和辐射值加权求和计算每条射线的最终渲染颜色与最终渲染深度值,体渲染公式如下所示:

α

ω

其中,α

进一步地,步骤S7的具体步骤为:

将渲染的得到的最终渲染颜色和最终渲染深度与真实值进行损失优化,对于每个像素单独优化以后,再将同一区域的深度值之和进行损失优化,以增加像素之间的关联性;进行优化的损失函数如下所示:

L=L

其中,L

实施例2:

本实施例的计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1的基于射线引导和表面优化的神经辐射场三维重建方法中的步骤。

本实施例的计算机可读存储介质可以是终端的内部存储单元,例如终端的硬盘或内存;本实施例的计算机可读存储介质也可以是所述终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡,安全数字卡,闪存卡等;进一步地,计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。

本实施例的计算机可读存储介质用于存储计算机程序以及终端所需的其他程序和数据,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

实施例3:

本实施例的计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的基于射线引导和表面优化的神经辐射场三维重建方法中的步骤。

本实施例中,处理器可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等;存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据,存储器的一部分还可以包括非易失性随机存取存储器,例如,存储器还可以存储设备类型的信息。

本领域内的技术人员应明白,实施例公开的内容可提供为方法、系统、或计算机程序产品。因此,本方案可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本方案可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本方案是参照根据本方案实施例的方法、和计算机程序产品的流程图和/或方框图来描述的,应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合;可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。

本发明所述实例仅仅是对本发明的优选实施方式进行描述,并非对本发明构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的保护范围。

相关技术
  • 一种基于神经辐射场的燃气厂站三维重建方法及装置
  • 基于神经辐射场的三维重建方法、装置、设备及存储介质
技术分类

06120116490221