掌桥专利:专业的专利平台
掌桥专利
首页

一种基于神经辐射场的城市大场景重建方法

文献发布时间:2023-06-19 18:58:26


一种基于神经辐射场的城市大场景重建方法

技术领域

本发明涉及三维建模技术领域,具体是一种基于神经辐射场的城市大场景重建方法。

背景技术

城市大场景三维重建,即构建整个城市的三维模型,在数字城市建设、三维地形图绘制、城市国土规划和管理、虚拟旅游、街道空间分析等诸多领域中有着重要的意义。目前城市三维重建主要从两个途径获取图像信息,一个是机载或车载的LIDAR(LightDetectionAndRanging,激光雷达)数据,一个是无人机航拍图像数据。

传统三维重建大致流程为:稀疏点云重建、稠密点云重建、网格重建、纹理贴图、材质贴图。经验表明,以Photogrammetry为基础的建模工具强依赖于拍摄环境,对弱纹理和平滑区域的表面还原较差,通常依赖人工修复模型网格与纹理并赋予材质。传统三维建模工程通过摄影测量,采用网格模型加贴图方法,建模工程量大,建模出来的场景视觉效果较差。

神经辐射场即NeRF(NeuralRadianceField)是一种深度渲染方法,其主要特点是场景隐式表达和图像的容积渲染。不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达,NeRF将场景建模成一个连续的5D辐射场隐式存储在神经网络中,输入稀疏的多角度带pose的图像训练得到一个神经辐射场模型,根据这个模型可以渲染出任意视角下的清晰的照片。通俗来讲,就是构造一个隐式的渲染流程,其输入是某个视角下发射的光线的位置o,方向d以及对应的坐标(x,y,z),送入神经辐射场Fθ得到体积密度和颜色,最后再通过体渲染得到最终的图像。

NeRF效果好的主要原因,在于采用隐藏式表示3D场景。隐式表示(implicitscenerepresentation)通常用一个函数来描述场景几何,可以理解为将复杂的三维场景表达信息存储在函数的参数中。因为往往是学习一种3D场景的描述函数,因此在表达大分辨率场景的时候它的参数量相对于“显示表示”(explicitscenerepresentation)是较少的,并且隐式表示函数是种连续化的表达,对于场景的表达会更为精细。NeRF做到了利用”隐式表示“实现了照片级的视角合成效果,它选择了体积Volume作为中间3D场景表征,然后再通过体积渲染Volumerendering实现了特定视角照片合成效果。可以说NeRF实现了从离散的照片集中学习出了一种隐式的Volume表达,然后在某个特定视角,利用该隐式Volume表达和体渲染得到该视角下的照片。

NeRF可以做到对单一场景建模,同时引入包含天气、曝光等外观情况的潜在代码(latentcode),来重现复杂情景下的城市场景。通过训练并调整多个NeRF场景的不同气候天气、不同曝光情况,以及分离动态车辆物体,在推理过程中合成多个小场景,让通过神经辐射场实现城市大场景三维重建成为了可能。

1.传统三维建模工程通过摄影测量,采用网格模型加贴图的方法,建模工程量大,需要耗费大量的人力和资金。建模工具对弱纹理和平滑区域的表面还原较差。并且建模出来的场景视觉效果较差,实时渲染效果依赖于硬件。 城市级别的大场景三维重建,则需要构建整个城市的三维模型,其难度更是不言而而喻。

2.从三维重建的角度来看,NeRF还有几个较为明显的不足:一是训练速度较慢,单一场景建模时间通常需要2天以上。二是渲染的速度较慢,经典NeRF的推理速度为50s/帧,而实用的要求要达到30帧/s以上,差距为1500倍。三是只能用于静态场景,对背景中的动态物体无法处理。四是隐式表达不能导入图形学工具,不支持显示使用。NeRF只能还原拍摄场景的光照、天气,不能支持环境光照变化的场景应用。

3.NeRF可以实现单个房间或者建筑的小场景重建,但这些小场景都是有限的,不能扩展到城市规模的大场景重建。一方面是海量图像数据耗费大量的时间和计算资源,另一方面是NeRF应用于大型场景会导致显著的伪影,并且由于有限的模型容量会导致低质量的图像视觉保真度。

发明内容

本发明的目的在于提供一种基于神经辐射场的城市大场景重建方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种基于神经辐射场的城市大场景重建方法,包括以下步骤:S1、拍摄城市中每个场景、不同位置的图像数据,并收集相机位姿参数;S2、优化相机姿态,通过姿态正则化偏移以方便对齐图形;S3、使用GLO方法生成并优化可以处理光照和天气等变化的外观代码;S4、将相机的曝光信息输入到模型的外观预测部分;S5、使用语义分割模型把移动物体分离出来加掩膜;S6、使用MLP框架分别训练多个场景的神经辐射场;S7、渲染,从每个视点融合多个神经辐射场,同时结合可控的外观潜在代码生成不同天气、光照的城市场景。

作为本发明再进一步的方案:所述步骤S1中,所述拍摄城市中每个场景、不同位置的图像数据包括:每个十字路口放置一个神经辐射场,覆盖十字路口本身和相连街道的75%,直到它汇聚到下一个路口,从而让每两个相邻神经辐射场之间有50%的重叠。

作为本发明再进一步的方案:所述步骤S6中所述使用MLP框架分别训练多个场景的神经辐射场包括:第一MLPfσ、第二MLPfc和可见性网络fv,第一MLPfσ预测了空间中一个位置x的密度σ,该网络输出一个特征向量,同时与射线方向d、曝光状况和一个外观嵌入连接起来;然后将这些输入到第二个MLPfc中,从而输出该点的颜色;可见性网络fv来预测空间中的一个点是否在训练视图中可见,从而在推理过程中剔除部分不可见场景。

与现有技术相比,本发明的有益效果是:本发明通过使用多个分块的神经辐射场,改进了基于神经渲染的三维重建和渲染技术,实现了对城市级大场景进行三维重建。 本发明的关键技术在于引入了外观嵌入、姿态优化、可控曝光、语义分割模型以及外观潜在代码,来对齐相邻NeRF之间的外观以便它们可以无缝地组合,同时自由的改变环境条件。用户可以从任意视点观测到不同天气、光照下照片级的城市场景图像。本专利从数百万张图像中构建了数个分块的神经辐射场,能够渲染整个城市。

附图说明

图1为一种基于神经辐射场的城市大场景重建方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

请参阅图1,一种基于神经辐射场的城市大场景重建方法,包括以下步骤:

S1、通过街景小车拍摄城市中每个场景、不同位置的图像数据,并收集相机位姿参数;为保证目标区域的全部覆盖,本发明在每个十字路口放置一个神经辐射场,覆盖十字路口本身和相连街道的75%,直到它汇聚到下一个路口,从而让每两个相邻神经辐射场之间有50%的重叠,使得场景外观对齐更简单。本发明在每个以十字路口为中心的神经辐射场,采集了上万张图像数据。在这个过程中,每块神经辐射场的大小是可变的,必要时可以引入新的块作为链接。

S2、优化相机姿态,通过姿态正则化偏移以方便对齐图形;本专利通过学习正则化的姿态偏移,在神经辐射场的训练过程中一起优化这些偏移,从而使得后续图像的对齐有更好的效果。

S3、使用GLO方法生成并优化可以处理光照和天气等变化的外观代码;由于不同部分的数据图像是在不同的环境条件下被采集到的,本专利通过使用GLO技术来生成场景图像的外观嵌入(appearance embedding),它可以处理光照和天气等变化,而且可以实现不同天气的插值。这使得神经辐射场可以解释不同天气和光照等外观变换的条件。在此之外,本专利可以通过操控这些外观嵌入代码,使得在训练数据中对不同环境条件进行插值,比如白天和夜晚、阴天和晴天。

S4、将相机的曝光信息输入到模型的外观预测部分;本发明将相机的曝光信息输入到模型的外观预测部分,可以让神经辐射场补偿视觉差异。本发明的模型以曝光为条件,有助于解释训练数据中出现的曝光变化,同时可以在推理过程中改变输出场景图像的外观条件。

S5、使用语义分割模型把移动物体分离出来加掩膜;由于移动物体违背了场景几何不变性的假设,本发明通过语义分割把移动物体分割出来加掩膜,从而在训练时忽略掉动态物体。

S6、使用MLP框架分别训练多个场景的神经辐射场;在训练过程中,本专利主要使用了三个MLP(Multi-Layer Perception 多层感知器),第一个MLPfσ预测了空间中一个位置x的密度σ,该网络输出一个特征向量,同时与射线方向d、曝光状况和一个外观嵌入连接起来。然后将这些输入到第二个MLPfc中,从而输出该点的颜色。此外,本专利还训练了一个可见性网络fv来预测空间中的一个点是否在训练视图中可见,从而在推理过程中剔除部分不可见场景。

S7、渲染,从每个视点融合多个神经辐射场,同时结合可控的外观潜在代码生成不同天气、光照的城市场景。本专利首先在相邻的神经辐射场之间选择一个三维的匹配位置,通过对它给定一个外观条件来匹配其余块的神经辐射场。当基于多个块的神经辐射场渲染场景时,本发明使用外观匹配来获得整个城市场景的一致外观。

需要说明的是,上述实施例只是针对本申请的技术方案和技术特征进行具体、清楚的描述。而对于本领域技术人员而言,属于现有技术或者公知常识的方案或特征,在上面实施例中就不作详细地描述了。

另外,本申请的技术方案不只局限于上述的实施例,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,从而可以形成本领域技术人员可以理解的其他实施方式。

技术分类

06120115758728