掌桥专利:专业的专利平台
掌桥专利
首页

一种大规模城市街区三维场景渲染与目标精细空间定位方法

文献发布时间:2024-04-18 20:01:30


一种大规模城市街区三维场景渲染与目标精细空间定位方法

技术领域

本发明涉及计算机应用、城市大数据技术领域,具体涉及一种大规模城市街区三维场景渲染与目标精细空间定位方法。

背景技术

城市在人类生活中扮演着至关重要的角色。根据联合国的统计数据,目前全球有超过57%的人口在城市中定居。城市不仅提供了工作机会,给大量的人口提供了居住和教育的基础设施,还是文化、经济和社会创新中心,推动着人类社会的不断发展与繁荣。联合国于2015年提出了面向2030年的可持续发展目标评估框架,其中包含17个关键可持续发展目标,而可持续城市与社区的发展是其中最重要的组成部分之一。

计算机应用技术特别是以深度学习为核心的人工智能、云计算和大数据等技术领域迅猛发展,为大规模城市精细感知提供了有力的技术支撑。这些前沿技术使我们能够更加精确的感知城市内的基础设施,不仅为城市规划、交通管理等领域的运行管理、决策提供了基础信息,广泛的技术应用也有助于更深入地了解城市的现状和未来发展趋势,进而推动城市迈向更加可持续的未来。

受计算能力、存储容量和模型精度的制约,传统的感知技术在处理城市街区立体精细场景时很难满足城市规划、交通管理、环境保护等领域对可见即可得城市街区影像信息获取的需求。此外,随着城市化的不断推进,我们迫切需要一种直观的方式对城市街区影像目标进行高精度空间定位,满足精细城市感知对于高质量三维信息的要求。然而,传统方法尚未解决城市环境感知中遇到的上述问题。

神经渲染模型,即Neural Radiance Fields(NeRF,神经辐射场),该方法旨在利用深度神经网络对多个视角的二维影像数据进行建模,实现对三维场景的几何结构和表面反射性质的预测,从而得到任意观测角度的三维场景。NeRF以其卓越的三维场景渲染质量和对真实世界场景的多视角还原能力而被广泛关注。该模型为解决基于多视角城市街区影像的立体场景渲染以及像素级目标空间定位问题提供了一种创新的解决方案。因此,本发明面向城市规划与交通管理等应用领域中对可见即可得的三维可视化场景与目标精细定位的需求,提出了一种以NeRF技术为基础的大规模城市三维场景建模与街区目标精细空间定位的方法。该方法解决了城市街区高分辨率影像数据规模庞大、计算复杂度高以及场景动态性等挑战,实现了大规模城市街区的分区域多视角精细建模,并能够对街区影像中的目标进行像素级精细空间定位。

现有技术具有以下技术缺陷:

(1)现有的数据采集方式需要复杂的采集设备和流程,操作繁琐,对人力资源的需求较高,数据采集过程受到复杂城市环境的影响,数据采集效率低;

(2)现有的场景渲染方式处理大规模场景时存在性能问题,渲染速度慢,难以满足城市规划、交通管理、环境保护等领域对可见即可得城市街区影像的需求;

(3)现有的街区目标精细空间定位方式存在空白,难以提供高精度的目标定位信息,无法满足城市规划和其他领域对高质量三维信息的需求。

发明内容

本发明提供了一种大规模城市街区三维场景渲染与目标精细空间定位方法,旨在通过分块渲染街景空间,动态合并渲染模型的方式满足城市街区精细感知对可见即可得街区三维场景可视化的需求。本发明创新性地提出了使用NeRF渲染过程中的采样点体积密度大小实现像素级精细定位的方式,填补了神经辐射场渲染模型在街区目标精细空间定位方面的空白。该发明能够为城市规划、交通管理、环境保护等领域的决策制定和管理者提供任意视角可见即可得的三维场景模型和街区目标像素级空间定位,实现数据驱动的城市规划和管理决策,从而促进可持续城市与社区目标的实现。

本发明提出一种大规模城市街区三维场景渲染与目标精细空间定位方法,包括以下步骤:

S1,使用多模式传感器收集全面的街景信息,并对采集的数据进行同步、校正、标定、惯导预积分和位姿优化;

S2,使用三维空间网格剖分技术与空间冗余估算技术相结合的方法对作业区进行剖分,并将数据分割为多个独立的训练场景;

S3,借助能够获取像素三维空间位置的NeRF模型,对多个场景集进行并行渲染;

S4,根据动态给定视点的需求,对需进行动态合并的场景进行挑选;

S5,获取相关NeRF场景对于动态给定视点各自渲染结果像素级空间位置信息;

S6,对经过筛选的场景进行外观匹配和位置颜色信息融合,达到精细空间定位的目的。

本发明具有以下有益技术效果:

(1)本发明数据采集所需设备主要是基于视觉相机、位置和运动传感器,数据收集流程操作简单、人工使用要求低,数据成本低,降低了复杂城市环境对数据采集过程的影响,数据采集效率高。

(2)本发明利用三维空间网格剖分技术将大规模城市街区场景划分为多个渲染网格,使用分块渲染,动态合并的方式解决渲染大规模场景问题,满足城市规划、交通管理、环境保护等领域对可见即可得城市街区影像的需求。

(3)本发明使用神经网络预测射线采样点体积密度,并根据其物理意义,直观的实现像素级精细定位,填补了神经辐射场渲染模型在街区目标精细空间定位方面的空白。

附图说明

图1为一种大规模城市街区三维场景渲染与目标精细空间定位方法的工作流程图;

图2为三维空间网格剖分示意图;

图3为单个NeRF场景训练过程流程。

具体实施方式

本发明所述一种大规模城市街区三维场景渲染与目标精细空间定位方法,包括以下步骤:

S1,使用多模式传感器采集作业区的数据,包括多视角影像数据、惯导轨迹和GNSS定位等;利用数据块的时钟信息实现多源数据的时间同步、校正和标定,通过多传感器数据融合和SLAM(Simultaneous Localization and Mapping,同时定位与制图)算法,对多视角影像数据采集的轨迹、单帧影像的外方位元素和图像中心点的空间位置进行解算;

S2,根据作业区的空间投影坐标估算作业区的三维空间范围和外包三维矩形,采用三维空间网格剖分技术与空间冗余估算技术相结合的方法对作业区进行空间剖分,并根据剖分结果对数据进行分割;

S3,使用改进后可以获取像素三维空间位置的NeRF模型并行渲染剖分后的子作业区,生成多个NeRF渲染场景,并对场景模型进行索引存储;

S4,根据动态给定视点,采用半径过滤和可见性预测网络动态筛选相关NeRF渲染场景,并获取可见性最高的基准NeRF渲染场景;

S5,使用相关NeRF渲染场景各自的体积密度预测网络,获取各自渲染射线上体积密度最高的采样点,解算其空间位置,用于表示当前像素所代表的空间位置;

S6,对相关NeRF渲染场景进行外观匹配,为每个像素RGB值附加最高密度采样点的空间位置信息,通过插值平滑合并相关NeRF渲染场景,最终获得带有像素级空间位置信息的3D渲染街景效果。

本发明所述一种大规模城市街区三维场景渲染与目标精细空间定位方法,利用多个传感器采集街景数据,并对采集的数据进行时间同步、校正、标定和惯导预积分等处理。随后,使用三维空间网格剖分技术,获得多个可以单独渲染的空间。接着,使用带有场景外观编码和相机曝光信息编码改进后的NeRF模型,对多个场景进行并行渲染,以获得高质量的3D场景信息。最后,在渲染的基础上,我们使用体积密度最大的点的位置近似表示像素点所代表的真实空间位置,为每个像素添加精确的位置信息,最终实现了街景渲染目标的精细空间定位。

如图1所示,本发明提供了一种大规模城市街区三维场景渲染与目标精细空间定位方法,包括以下关键步骤:S1,使用多模式传感器收集全面的街景信息,并对采集的数据进行同步、校正、标定、惯导预积分和位姿优化;S2,使用三维空间网格剖分技术与空间冗余估算技术相结合的方法对作业区进行剖分,并将数据分割为多个独立的训练场景;S3,借助改进后可以获取像素三维空间位置的NeRF模型,对多个场景集进行并行渲染,其具体渲染流程如图2所示。S4,根据动态给定视点的需求,对需进行动态合并的场景进行挑选;S5,获取相关NeRF场景对于动态给定视点各自渲染结果像素级空间位置信息;S6,对经过筛选的场景进行外观匹配和位置颜色信息融合,达到精细空间定位的目的。以下是每个步骤的具体实施方式。

该种大规模城市街区三维场景渲染与目标精细空间定位方法所述的步骤S1包括以下步骤:S11,选择合适的街区或城市区域进行数据采集,以确保所选区域在目标应用中具有代表性。为了追求可持续发展和有效的城市规划,更有价值的做法是选择那些具有重要意义的区域进行采集;S12,精心规划详细的采集路线,以确保搭载多个传感器的车辆能够全面捕捉目标环境的信息。这种多角度的采集方式有助于获取更完整、更具立体感的街景数据;S13,选用适当的传感器设备,以确保捕捉到的数据能够真实反映环境。这有助于提升神经渲染模型的效果和定位的准确性,从而使最终结果更加真实可信;S14,特别设置相机的姿态,确保影像的目标大多是我们关注的信息,这有助于减少模型的参数;S15,确定采集的时间和天气条件,为正式的数据采集做好准备。确保采集时的天气和光线条件有利于获取清晰、准确的街景影像数据;S16,利用数据采集过程中的时钟信息对采集到的多传感器数据进行处理,包括时间同步、数据校正以及多传感器标定。这一过程旨在使数据纯净且可用,确保其可以用于进一步的分析和处理。时间同步是为了保持数据的时间一致性,校正操作用于修复数据中的误差和偏差,多传感器标定则有助于建立不同传感器之间的坐标转换关系,以确保它们的数据能够协同工作;S17,对采集的时序影像进行特征点匹配,以检测出场景中变化较大的关键帧。这些关键帧的时间戳用于对惯导数据进行分段,同时利用惯导数据的预积分技术,获得了关键帧之间的相对空间位置和姿态参数。这些参数是后续步骤中定位和场景渲染的关键信息;S18,分析时序影像之间同名特征点的几何关系,并结合惯导预积分得到的相对空间位置和姿态参数,对所有影像的位置和姿态参数进行优化。这一优化过程有助于提高数据的准确性和一致性,确保后续处理能够基于可靠的数据;S19,解算出经过优化后的影像数据采集轨迹、所有影像的外方位信息以及影像中心的空间位置。这些信息是用于后续训练神经网络模型和街景目标精细空间定位的基础数据。

该种大规模城市街区三维场景渲染与目标精细空间定位方法所述的步骤S2包括以下步骤:S21,根据作业区的空间投影坐标估算作业区三维空间范围和外包三维矩形,并获取作业区内每个十字路口点的空间投影坐标作为渲染网格中心;S22,使用三维空间网格剖分技术与空间冗余估算技术相结合的方法对作业区进行剖分,每个渲染网格以一个十字路口为中心,并估算每个渲染网格与相邻渲染网格所需的空间冗余度,以便后续外观匹配和插值合并步骤的顺利进行,如图2所示;S23,根据三维剖分的结果,将采集到的数据分割成多个子数据集,每个子数据集对应一个子作业区,为并行渲染剖分后的区域做好数据准备。

该种大规模城市街区三维场景渲染与目标精细空间定位方法所述的步骤S3如图3所示,包括以下步骤:S31,对经过输入的图像进行像素随机采样,以获取图像的相机视角。从相机坐标系原点出发,向像素方向生成射线。这个过程为后续的渲染提供了视角信息和连续采样基础;S32,在射线上连续采样点并使用真实世界坐标对采样点进行位置编码,以支持后续网络的训练和渲染过程;S33,同时使用两个全连接神经网络进行训练。第一个网络fa用于预测采样点的体积密度,将采样点的位置编码作为输入,同时监督第二个网络fb的训练。第二个网络fb专注于预测视点的可见性,它的输入包括相机视角位置编码和采样点的位置编码;S34,将场景外观编码、相机曝光信息编码、相机视角位置编码和第一个网络的输出特征传入第三个全连接神经网络fc,用于预测采样点的RGB值。通过结合体积密度信息,对像素进行渲染,实现最终的3D场景渲染效果;S35,通过不断训练和优化网络的权重,我们训练出最终模型,根据动态给定视点便可渲染得到3D场景。这些步骤的有机组合为渲染过程奠定了坚实的基础,确保了最终结果的质量和准确性。

该种大规模城市街区三维场景渲染与目标精细空间定位方法所述的步骤S4包括以下步骤:S41,获取动态给定视点与各个NeRF场景体素中心之间的距离,以判断给定视点是否位于当前NeRF场景的范围之内。通过这一筛选过程,我们能够辨别出包含给定视点的NeRF场景,为接下来的可见性预测和动态合并提供准确的输入;S42,将视点的信息输入到经过训练的全连接神经网络fb中,以进行可见性预测。这个预测过程能够确定已经筛选过的NeRF场景是否能够为给定视点产生有意义的输出结果;S43,在经过两轮筛选后,我们最终获得了待进行动态合并的NeRF场景,并知道了可见性最高的基准NeRF场景,为后续合并提供基础。

该种大规模城市街区三维场景渲染与目标精细空间定位方法所述的步骤S5包括以下步骤:S51,利用相关NeRF场景事先训练好的全连接神经网络fa,根据给定的视点,对所有射线采样点的体积密度进行预测,为后续获得像素所代表的空间位置做准备;S52,从预测的体积密度中选取具有最大值的采样点,根据物理意义,体积密度较大的点在空间上越接近真实物体,因此被选取的点代表着街景中的真实物体位置;S53,通过解算所有像素产生的射线上体积密度最大的采样点的位置,确定了该像素所代表的街景目标的真实空间位置。这一系列步骤的有机组合使得精细空间定位过程能够在神经渲染场景中高效而准确地实现。

该种大规模城市街区三维场景渲染与目标精细空间定位方法所述的步骤S6包括以下步骤:S61,根据S43选择的基准NeRF场景,确定一个在这多个待合并NeRF场景中都可见的3D点,这一点需要保证对多个待合并NeRF场景的可见性都相当高,以实现精确的外观匹配;S62,固定神经网络的权重值,渲染匹配3D点的RGB值,并求当前NeRF场景对于基准NeRF场景渲染结果的L2误差,使用L2误差优化非基准NeRF场景的外观编码,以最终达到通过控制外观编码实现外观匹配的目的;S63,迭代使得误差最小,获得的外观编码使得所有NeRF场景在外观上能对齐基准NeRF场景,达到外观匹配的目的,确保了所有待合并的场景在外观上呈现出相似效果;S64,将所有外观匹配后的NeRF场景渲染结果加上S5的位置信息,达到精细空间定位的目的;S65,带空间位置的渲染结果在2D空间上进行插值,这一插值过程包含权重信息,用于在不同的NeRF场景之间产生平滑的过渡。最终,实现了动态合并的3D街景效果。

综上所述,该种大规模城市街区三维场景渲染与目标精细空间定位方法在多个关键步骤中展现出显著的优势。首先,通过全方位的多视角街景数据采集,该方法确保了对目标环境的全面覆盖,为后续渲染提供了丰富的数据基础。并通过时间同步、校正、标定、惯导预积分和位姿优化等数据处理,进一步提高了数据的准确性和一致性,建立了可靠的数据基准。然后,采用NeRF并行渲染多个场景,充分利用了计算资源,提高了渲染效率,同时通过动态筛选和合并NeRF场景,优化了场景的真实感和连续性。同时,该方法通过外观匹配技术解决了不同场景之间的外观不一致问题,使得合并后的场景具有更好的一致性。更为重要的是,通过巧妙的运用体积密度所代表的真实物理意义,获得了像素级的空间位置信息,最终实现了高精度的空间定位。

总之,该发明方法在大规模城市环境渲染领域有效地克服了传统方法的限制,满足了各个领域对可见即可得城市影像的需求,促进了城市发展和可持续性目标的实现,为城市规划、交通管理和环境保护等领域的决策制定者提供了高质量的三维信息。从数据准确性到计算效率,从外观一致性到场景连续性,从定位的方式到像素级的精确性,该方法在多个方面展现了其优越性,助力城市向更加可持续的未来发展迈出了坚实的一步。

相关技术
  • 环境监测用实验室废液收集方法
  • 一种环境监测用实验室用废液收集装置
技术分类

06120116557998