一种三维语义地图构建方法

文献发布时间：2023-06-19 12:21:13

技术领域

本发明属于地图构建技术领域，更具体地，涉及一种三维语义地图构建方法。

背景技术

SLAM(Simultaneouslocalizationand mapping，同步定位与即时构图)是通过传感器获取场景三维信息的一种技术，其能根据场景信息对自身进行定位以及环境区分。SLAM包括激光SLAM和视觉SLAM，激光SLAM中获取场景数据的传感器为激光雷达，一般用于航天及汽车工业，其精度高但成本也很高，视觉SLAM中通过相机获取场景图像数据，其成本较低，一般用于无人机、机器人自主导航领域。

在无人机、机器人领域，传统的地图不能满足其多样化的应用需求，随着深度传感器的发展，目前在无人机、机器人自主导航领域还广泛应用语义地图。语义地图通常包括空间属性信息，例如建筑物的平面结构，房间分布等，以及包括语义属性信息，如各个房间属性和功能，以及房间内的物体类别和位置信息等。语义地图构建的目标是精确地在地图上标记语义信息。

如中国专利CN111080659A公开了一种基于视觉信息的环境语义感知方法，包括：利用Kinect V1.0相机采集环境图像信息，得到配准后的彩色图及深度图；基于配准后的彩色图及深度图，通过ORB_SLAM2过程，根据每帧中提取的ORB特征点解算相机三维位姿，得到相机位姿信息；对每帧图像进行语义分割，生成语义颜色信息；同步根据输入的深度图和相机的内参矩阵生成点云；将语义颜色信息注册到点云中，得到局部语义点云结果；利用相机位姿信息与局部语义点云结果进行融合，得到新的全局语义点云信息；将融合后的全局语义点云信息用八叉树地图进行表示，得到最终的三维八叉树语义地图。但是在实施过程中发现，因其采用ORB特征提取，地图构建的速度不够快，会严重影响无人机或机器人的反应速度及运动轨迹的控制精度，使用体验不好。

发明内容

本发明为克服上述现有技术中的至少一个缺陷，提供一种三维语义地图构建方法，其基于GPU多线程处理，能够提高地图构建速度，实现实时地图构建。

为解决上述技术问题，本发明采用的技术方案是：

提供一种三维语义地图构建方法，包括：

可基于GPU(图形处理器)并行处理的配准图像线程、局部地图与全局地图线程、语义地图线程、融合线程、全局线程；

配准图像线程用于获取场景的彩色图像及深度图像，并对所述彩色图像及深度图像进行预处理，得到配准图像；

局部地图与全局地图线程用于根据配准图像与深度图像求解多帧图像之间的位姿，利用位姿、彩色图像、深度图像进行三维重建得到局部地图与全局地图；语义地图线程用于利用PSP Net(Pyramid Scene Parsing Network，金字塔场景解析网络)对多个配准图像进行语义分割，得到二维语义图像；

融合线程用于将二维语义图像分别与局部地图、全局地图融合，得到局部语义地图、全局语义地图；

全局线程用于对局部语义地图、全局语义地图进行匹配，得到全局一致性稠密语义地图。

本方案中通过基于GPU的多线程，同时对场景图像进行位姿求解、语义分割、图像融合及匹配等计算处理，使得SLAM系统实时性更强、地图构建速度更快，同时，在三维图像上融合语义信息，丰富地图的表现形式，以使无人机、机器人等无人移动平台设备可通过更多的维度理解场景地图，进而更加精准地控制运动轨迹，提高无人移动平台的性能。

优选地，上述的配准图像线程具体包括：

对包括红外摄像头及彩色摄像头的深度相机进行标定，获取深度相机的内参以及外参；

分别利用深度相机中的红外摄像头、彩色摄像头获取多帧场景的深度图像与彩色图像；

根据外参与内参对深度图像与彩色图像进行配准，得到多帧配准图像。

优选地，上述的局部地图与全局地图线程包括：

对多帧配准图像进行块划分，得到多个图像块，其中相邻图像块之间存在帧堆叠；

使用基于GPU加速的SIFT(尺度不变特征变换)提取算法对每个图像块内的配准图像进行特征提取得到特征点，并选取一帧配准图像的坐标系作为世界坐标系；

根据GMS匹配算法对特征点进行匹配并滤除误匹配点，将块内关联性较好的保存为局部图像关联匹配M

根据位姿及配准图像线程中得到的深度图像与彩色图像，对场景进行三维稠密重建，得到局部地图与全局地图。

优选地，上述的SIFT提取算法中特征点的幅值具体表示为：

方向具体表示为：

其中，A(x,y)为特征点的幅值大小，x与y为特征点在图像中的像素位置，I(x+1,y)、I(x-1,y)、I(x,y+1)、I(x,y-1)均为特征点在高斯差分金字塔中的相邻像素，θ(x,y)为特征点的指向方向。

优选地，上述的GMS匹配算法中的概率模型为：

特征点对的评估分数公式为：

其中，P为正确匹配与错误匹配的差异性，p

优选地，上述的根据外参与内参对深度图像与彩色图像进行配准具体包括：

将深度图像中所有像素点的坐标向红外摄像头坐标系转换；

将红外摄像头坐标系下所有点的坐标向世界坐标系转换；

将世界坐标系下所有点的坐标向彩色摄像头坐标系转换；

将彩色摄像头坐标系下所有点的坐标映射到归一化平面的彩色平面；

得到红外摄像头与彩色摄像头之间的变换矩阵。

优选地，上述的语义地图线程具体包括：

对配准图像进行特征提取得到特征层；

对特征层进行池化，生成金字塔池化特征；

对金字塔池化特征进行展平、上采样；

与特征层进行CONCAT(合并)，经过卷积神经网络得到局部语义地图、全局语义地图。

优选地，上述的局部地图与全局地图线程中利用TSDF模型进行局部地图、全局地图的融合具体公式为：

去融合构建具体公式为：

其中，D(v)为体素的符号距离值，W(v)为体素权重值，d

优选地，上述的融合线程中采用的融合模型为：

其中，C

优选地，上述的全局线程中对局部语义地图、全局语义地图进行匹配的具体公式为：

去融合：

准确度计算公式为：

其中，W

与现有技术相比，有益效果是：

本发明中通过基于GPU加速的SIFT算法特征提取，其相较于传统的ORB特征提取，提取速度更快、鲁棒性更好；另外基于GPU的多线程处理，可同时对配准图像进行语义分割及位姿计算、图像融合，且会逐一释放融合完成的图像，以使得GPU具有足够的内存对图像进行实时的融合渲染，实现实时地图构建，其融合三维图像与语义信息，提高了无人机、机器人等无人移动平台对环境的理解能力，使得无人移动平台移动更加精准、灵活，提高产品的性能。

附图说明

图1是本发明实施例三维语义地图构建方法的局部地图与全局地图线程的流程方框示意图；

图2是本发明实施例三维语义地图构建方法的局部地图与全局地图线程中块划分的流程方框示意图；

图3是本发明实施例三维语义地图构建方法的语义地图线程的流程方框示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

实施例：

如图1所示为一种三维语义地图构建方法，包括：

可基于GPU并行处理的配准图像线程、局部地图与全局地图线程、语义地图线程、融合线程、全局线程；

配准图像线程用于获取场景的彩色图像及深度图像，并对彩色图像及深度图像进行预处理，得到配准图像；其中，配准图像带有色彩；

局部地图与全局地图线程用于根据配准图像与深度图像求解多帧图像之间的位姿，利用位姿、彩色图像、深度图像进行三维重建得到局部地图与全局地图；

语义地图线程用于利用PSP Net对多个配准图像进行语义分割，得到二维语义图像；

融合线程用于将二维语义地图分别与局部地图、全局地图融合，得到局部语义地图、全局语义地图；

全局线程用于对局部语义地图、全局语义地图进行匹配，得到全局一致性稠密语义地图。

本实施例中的配准图像线程具体包括：

对包括红外摄像头及彩色摄像头的深度相机进行标定，获取深度相机的内参以及外参；其中深度相机可采用Kinect V2，具体地，通过Kinect V2拍摄棋盘格，对相机进行标定，获得相机的内参矩阵

分别利用深度相机中的红外摄像头、彩色摄像头获取多帧场景的深度图像与彩色图像；

根据外参与内参对深度图像与彩色图像进行配准，得到多帧配准图像。

本实施例中的局部地图与全局地图线程包括：

以十五帧图像作为单位，对多帧配准图像进行块划分，得到多个图像块，其中相邻图像块之间存在三帧堆叠；当然，每个图像块以及图像块之间的堆叠数量仅为一种参考的实施方式，不能理解为对本方案的限定。

根据GMS匹配算法对特征点进行匹配并滤除误匹配点，将块内关联性较好的保存为局部图像关联匹配M

另外，本实施例中高斯牛顿法求解位姿具体为：

构建非线性优化目标函数：

具体计算过程为：

R＝3N

F(X

其中，X为相机的位姿，X

再根据位姿及配准图像线程中得到的深度图像与彩色图像，对场景进行三维稠密重建，得到局部地图与全局地图。

本实施例中的SIFT提取算法中特征点的幅值具体表示为：

方向具体表示为：

本实施例中的GMS匹配算法中的概率模型为：

特征点对的评估分数公式为：

其中，P为正确匹配与错误匹配的差异性，p

本实施例中的根据外参与内参对深度图像与彩色图像进行配准具体包括：将深度图像中所有像素点的坐标向红外摄像头坐标系转换，具体公式为：

其中，Z

将红外摄像头坐标系下所有点的坐标向世界坐标系转换，具体公式为：

其中，

将世界坐标系下所有点的坐标向彩色摄像头坐标系转换，具体公式为：

其中，T

将彩色摄像头坐标系下所有点的坐标映射到归一化平面Z

其中，K

令z＝1，则配准图像的像素与深度图像的像素存在以下关系：

去掉两个相机的外参K

将上式展开化简后得到以下表达式：

其中，T

本实施例中的语义地图线程具体包括：

对配准图像进行特征提取得到特征层；

对特征层进行池化，生成金字塔池化特征；池化核的大小分别为1x1，2x2，3x3，6x6；

对金字塔池化特征进行展平、上采样；

与特征层进行进行CONCAT，经过卷积神经网络得到局部语义地图、全局语义地图；

其中，采用包含21个类别信息的VOC2007数据集对网络进行训练，PSP Net主干网络为MobileNet V2，训练Epoch(训练世代数量)数量为140，训练集与验证集比例为9：1，对前50个Epoch进行冻结训练，即冻结一部分训练权重加快训练速度。BacthSize设置为4，当Epoch＝51时开始解冻，训练所有权重。值得注意的是，本实施例中采用的参数均为参考的实施方式，不能理解为对本方案的限定，在具体实施过程中，可根据设备性能、训练精度等改变参数。

本实施例中的局部地图与全局地图线程中利用TSDF模型进行局部地图、全局地图的融合具体公式为：

去融合构建具体公式为：

其中，D(v)为体素的符号距离值，W(v)为体素权重值，d

本实施例中的融合线程中采用的融合模型为：

其中，C

为了利用局部语义地图完善全局语义地图的细节，本实施例中的全局线程中对局部语义地图、全局语义地图进行匹配，具体公式为：

去融合：

准确度计算公式为：

其中，W

本发明是参照本申请实施例的方法、设备(系统)、和计算机程序产品的流程图或方框图来描述的，应理解可由计算机程序指令实现流程图或方框图中的每一流程或方框、以及流程图或方框图中的流程或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：刘立林;罗志宇;
专利申请人：中山大学;

上一篇：航空重力仪器飞行高度质量评估方法及装置
下一篇：一种口罩料带对折、翻转装置