一种三维场景语义感知方法、系统、设备与介质

文献发布时间：2024-04-18 20:01:23

技术领域

本发明涉及三维视觉技术领域，尤其涉及一种三维场景语义感知方法、系统、设备与介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着机器人技术在工业、服务业和日常生活中的应用越来越广泛，对机器人三维场景感知的需求也在不断增加。对于整个机器人系统来说，场景感知是其与外界信息交互的关键节点，具有至关重要的地位，它不仅可作为决策层先验，还是自主导航、人机交互等任务的基础。因此，机器人三维场景语义感知方法显得尤为重要。

当前三维场景语义感知方法主要通过单一的点云数据或RGB图像进行场景语义感知，现有技术采集的点云数据在复杂环境下存在较多的缺陷，对于这些缺陷造成的环境信息缺失，现有方法大多是通过拟合、插值的方法进行补充的，得到的信息只是对环境信息的估计，而不是真实准确的信息。现有点云数据利用技术不能满足复杂条件下环境实时精确感知的要求。RGB图像包含丰富的颜色和纹理，但对于空间信息无法精准提供，故当通过单一的点云数据或RGB图像进行场景语义感知时，不能保证场景语义感知结果的准确性。

发明内容

本发明为了解决上述问题，提出了一种三维场景语义感知方法、系统、设备与介质，同时利用三维场景的点云数据和RGB图像对三维场景进行语义感知，提高了三维场景语义感知的准确性。

为实现上述目的，本发明采用如下技术方案：

第一方面，提出了一种三维场景语义感知方法，包括：

获取三维场景的点云数据和RGB图像；

根据点云数据，获得点云的距离图像和体素图像；

分别从点云数据、点云的距离图像、体素图像和RGB图像中，提取点云特征、距离特征、体素特征和图像特征；

通过图像特征分别对体素特征和距离特征进行图像增强，获得图像增强的体素特征和图像增强的距离特征；

将图像增强的体素特征和图像增强的距离特征分别与体素特征和距离特征进行对应融合，获得体素-图像融合特征及距离-图像融合特征；

将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接，获得多模态融合特征；

通过多模态融合特征对三维场景进行语义分割，获得三维场景的语义感知结果。

第二方面，提出了一种三维场景语义感知系统，包括：

多模态数据获取模块，用于获取三维场景的点云数据和RGB图像；

多模态特征获取模块，用于根据点云数据，获得点云的距离图像和体素图像；分别从点云数据、点云的距离图像、体素图像和RGB图像中，提取点云特征、距离特征、体素特征和图像特征；

多模态特征融合模块，用于通过图像特征分别对体素特征和距离特征进行图像增强，获得图像增强的体素特征和图像增强的距离特征；将图像增强的体素特征和图像增强的距离特征分别与体素特征和距离特征进行对应融合，获得体素-图像融合特征及距离-图像融合特征；将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接，获得多模态融合特征；

场景语义感知模块，用于通过多模态融合特征对三维场景进行语义分割，获得三维场景的语义感知结果。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种三维场景语义感知方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种三维场景语义感知方法所述的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明充分利用点云精确的三维位置信息和RGB图像丰富的颜色和纹理信息，获得更具有鲁棒性的场景语义分割效果，从而提升机器人语义感知的性能。

2、本发明基于最近邻简化的点云特征提取方法从点云数据中提取点云特征，通过最近邻搜索算法和香农信息熵公式求得的最优邻域来确定点的曲率，可以得到更加合适的曲率值，以此进行点云简化，能够降低点的数据密度，减少计算开销，同时又能够尽可能保留有效信息，保证特征的精度和有效。

3、本发明分别从点云数据、点云的距离图像、体素图像和RGB图像中，提取点云特征、距离特征、体素特征和图像特征；通过图像特征分别对体素特征和距离特征进行图像增强，获得图像增强的体素特征和图像增强的距离特征；将点云特征、图像增强的体素特征和图像增强的距离特征进行加权融合和残差连接，获得多模态融合特征；将RGB图像的图像特征作为点云的自然补充，充分利用了RGB图像丰富的语义信息。同时，对点云的三个视图的特征进行自适应的融合，可以有效结合三种视图的优势，获得更完整和细粒度的空间信息。多模态的数据相辅相成，能够产生更好的语义分割效果。当用该多模态融合特征进行三维场景的语义分割时，能够提高机器人对场景语义信息的获取能力，使其具备更稳健的场景感知能力，提高机器人三维场景语义感知的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例公开方法的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

在该实施例中，公开了一种三维场景语义感知方法，如图1所示，包括：

S1：获取三维场景的点云数据和RGB图像。

机器人进入三维场景时，由机器人搭载的激光雷达发射激光束并测量其返回时间，生成一系列点的三维坐标，形成三维场景的点云数据。通过机器人搭载的RDB摄像头获取三维场景的RGB图像。

S2：根据点云数据，获得点云的距离图像和体素图像。

本实施例将点云数据进行球面投影，获得点云的距离图像。将三维点云数据通过映射到球面上，以实现球面上的二维表示。

根据点云数据构建体素空间；对体素空间进行体素网格划分；将每个点云数据与最近的体素中心点进行关联，获得点云的体素图像。

具体的，根据点云数据的最大值和最小值构建体素空间；将三维的体素空间划分为规则的体素网格。体素作为一种立方体形状的三维体元，类似于像素在二维图像中的概念。体素网格表示为一个三维数组，其中每个元素表示一个体素。对于每个点云数据，使用最近邻搜索算法，将每个点云数据与最近的体素中心点进行关联，获得点云的体素图像。

S3：分别从点云数据、点云的距离图像、体素图像和RGB图像中，提取点云特征、距离特征、体素特征和图像特征。

优选的，分别采用距离特征提取网络、体素特征提取网络和图像特征提取网络，从相应的点云的距离图像、体素图像和RGB图像中提取距离特征

基于最近邻简化的点云特征提取方法，从点云数据中提取点云特征

S31：确定每个点云数据

对于点云数据集合

S32：以最优邻域中数据

以点云数据

S33：将拟合抛物面中曲率大于等于设定曲率阈值的点作为简化点云，将曲率小于设定阈值的点作为移除点云。

在对抛物面进行拟合，获得拟合抛物面后，进一步可以获得拟合抛物面的最佳平均曲率值为

S34：提取简化点云特征和移除点云的拟合特征；将简化点云特征和移除点云的拟合特征进行合并获得点云特征。

将简化点云集合

S4：通过图像特征分别对体素特征和距离特征进行图像增强，获得图像增强的体素特征和图像增强的距离特征；将图像增强的体素特征和图像增强的距离特征分别与体素特征和距离特征进行对应融合，获得体素-图像融合特征及距离-图像融合特征。

获得图像增强的体素特征和图像增强的距离特征的过程包括：

通过校准矩阵对图像特征进行校准，获得校准后图像；

将校准后图像像素与图像特征进行对比，确定校准后图像中像素的偏移量；

通过校准后图像中像素的偏移量对图像特征进行采样，获得采样后的图像特征；

将体素特征和距离特征分别作为查询条件，将采样后的图像特征作为键和值，对体素特征和采样后的图像特征、距离特征和采样后的图像特征分别进行多头交叉注意力操作，获得图像增强的体素特征和图像增强的距离特征。

具体的，对于每个图像像素，首先根据校准矩阵，对图像特征进行校准。对于每个点坐标

通过对图像特征和校准后图像中对应点的像素坐标之间作差，计算得到校准后图像中像素的偏移量。每个像素的偏移量为一个二维向量，包括水平方向和垂直方向上的偏移值。通过下式，利用学习到的偏移来采样L个图像特征

将体素特征

将图像增强的体素特征

对于距离特征，采用与获得图像增强的体素特征相同的操作，并将体素特征替换为距离特征，获得距离-图像融合特征

S5：将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接，获得多模态融合特征。

在将点云特征、体素-图像融合特征和距离-图像融合特征进行加权融合和残差连接之前，将体素-图像融合特征

S6：通过多模态融合特征对三维场景进行语义分割，获得三维场景的语义感知结果。

对于步骤S6中得到的多模态融合特征，将其输入到由多个全连接层组成的分类器中，该分类器的作用是为每个像素分配一个预测的语义标签，从而实现对三维场景的语义分割。通过此过程，机器人对三维场景进行语义分割，实现对三维场景的语义感知。

三维点云数据一般是由激光雷达等设备扫描获取的空间点的信息，其中的每个点都对应着真实空间中的一个测量点。三维点云包含丰富的几何和尺度信息，并且不易受遮挡和光照影响。因此，三维点云可以帮助机器人更好的理解周围的环境。三维点云语义分割是对点云中的每个点分配一个对应的语义标签，在机器人、自动驾驶和增强现实等众多领域中得到了广泛应用，也是机器人进行三维场景语义感知中不可或缺的关键部分。

对于场景信息，不同的模态有各自的优缺点。点云可提供准确的深度信息，并且可在点、体素和距离等不同的视图中处理。其中，点视图保持了原始点信息的完整性，但由于点的排列是无序的，邻近点索引复杂度高，效率低，计算开销大；体素视图将点云转化为体素单元，能够保留规则的结构，但难以反映点云密度变化，且可能丢失局部细节；距离视图比较稠密紧凑，便于高效处理，但会破坏原始三维信息；RGB图像包含丰富的颜色和纹理，但对于空间信息无法精准提供。多模态多视图的场景数据是互相辅助的。因此，充分利用多模态的综合信息有利于获得更加具有鲁棒性的场景语义感知。

综上所述，本实施例公开的一种三维场景语义感知方法通过融合多种模态的数据，来获取更丰富、更准确的环境信息。这种方法可以帮助机器人更好地理解环境中的物体、人体、场景布局等信息，为机器人提供更全面、更准确的环境感知能力，从而有助于实现更智能、更安全的机器人行为，具有广泛的应用前景。

故本实施例公开的一种三维场景语义感知方法，基于多模态特征融合，充分利用点云精确的三维位置信息和RGB图像丰富的颜色和纹理信息，获得更具有鲁棒性的场景语义分割效果。基于最近邻简化的点云特征提取能够降低点云密度，减少计算开销，同时保留有效信息，保证特征的精度和有效。基于注意力机制的多模态特征融合有效结合不同模态和视图的优势，获得更完整和细粒度的空间信息。多模态的数据相辅相成，产生更好的语义分割效果，从而提升机器人语义感知的性能。

实施例2

在该实施例中，公开了一种三维场景语义感知系统，包括：

多模态数据获取模块，用于获取三维场景的点云数据和RGB图像；

场景语义感知模块，用于通过多模态融合特征对三维场景进行语义分割，获得三维场景的语义感知结果。

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种三维场景语义感知方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种三维场景语义感知方法所述的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：山东省凯麟环保设备股份有限公司;

上一篇：建筑结构的位移感测装置、位移感测方法及存储介质
下一篇：一种半导体湿法制程用多腔室独立压力控制装置