掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于图像处理技术领域,具体涉及一种基于AMVNet的LIDAR语义分割方法及系统。

背景技术

点云语义分割是自治系统的一项重要任务,特别是,对于自动驾驶汽车(AVs)来说,这项任务提供了有用的语义信息,可以从激光雷达点云构建清晰、高清晰度的地图。它还有助于识别和定位动态物体和可驾驶表面的感知模块,导致更好的车辆机动和路径规划。

现有技术存在的问题或者缺陷:目前RV方法促成了大多数最先进的结果,RV方法利用了稀疏点云以二维伪图像形式的紧凑表示,可以使用基于图像的语义分割网络对其进行有效分割。但是,随着激光雷达点数的增加,RV图像在一个像素内会有重叠的3D点投影,使其不具有代表性。而BEV方法不会有这个困难,因为点从俯视图投射,在俯视图中提取柱子表示来形成2D伪图像。但BEV中点云的非均匀性和稀疏性仍然是标准卷积运算的一个限制,导致通过两者获得的结果都差。

发明内容

针对上述的技术问题,本发明提供了一种语义分割效果好、可控性强、成本低的基于AMVNet的LIDAR语义分割方法及系统。

为了解决上述技术问题,本发明采用的技术方案为:

一种基于AMVNet的LIDAR语义分割方法,其特征在于:包括下列步骤:

S1、获取基于SemanticKITTI视觉基准的测程数据集,对获取的测程数据集进行预处理,预处理包括数据分割、归一化处理、数据扩充处理和数据缩放处理;

S2、对预处理后的测程数据集进行数据划分处理,包括训练集和测试集,训练集用于模型的训练,测试集用于测试模型效果;

S3、构建基于AMVNet和LiDAR语义分割模型,并采用训练集对LiDAR语义分割模型进行训练;

S4、采用训练完成LiDAR语义分割模型对待识别的测程数据集进行语义分割分析,得到对应的分析预测结果。

所述S1中的测程数据集是采用Velodyne HDL-64E传感器采集的,所述VelodyneHDL-64E传感器的水平角分辨率为0.08~0.35,所述Velodyne HDL-64E传感器的垂直光束为64束。

所述S1中数据扩充处理的方法为:分别对训练集数据进行90度、180度和270度旋转,对数据进行扩增;将扩充后的数据与原训练集混合,构建新的数据集;用于增加训练集数据量;所述训练集和测试集的比例为7:3。

所述S1中归一化处理的方法为:对每条数据进行Min-Max归一化,其公式如下:

其中,min(x)表示像素最小值,max(x)表示像素最大值。

所述S3中LiDAR语义分割模型的训练过程包括:

S3.1、先采用RV网络模型和BEV网络模型进行训练,得到初始类预测,BEV网络模型采用U-Net架构;

S3.2、对初始类预测进行训练获得采样点,采样是当多视图网络在类预测上不一致时,通过断言引导的方法来捕获不确定点,获得所有点的最终预测标签向量

其中,s(·,·)为余弦相似度评分,τ为不确定性阈值的设计参数,f

S3.3、从获取的不确定点中提取相关的特征供点头模型进行最终的标签预测,该点头模型将单个网络的归一化类分数与原始点数据进行连接,其公式如下:

p

S3.4、同时选择了相邻点的点级特征来作为附加的上下文,假设N(xi)是第i点的N个邻域点的集合,则邻域集特征定义为:

其中,点特征φ代表相邻点k与不确定点i的相对距离,n为超参数,将这些点特征和邻域集特征传递给点头模型,得到最终的分析预测结果,其公式为:

h

所述点头模型包括一个MLP、一个最大池化层和一个完全连接层;Si通过MLP和maxpooled独立处理,得到一个新的点特征,然后与pi连接,最终获得预测结果。

一种基于AMVNet的LIDAR语义分割系统,包括:

数据采集模块,用于获取基于SemanticKITTI视觉基准的测程数据集;

数据集处理模块,用于对获取的测程数据集进行预处理,预处理包括数据分割、归一化处理、数据扩充处理和数据缩放处理;

数据划分模块,用于对预处理后的测程数据集进行数据划分处理,包括训练集和测试集,训练集用于模型的训练,测试集用于测试模型效果;

模型构建模块,用于构建基于AMVNet和LiDAR语义分割模型,并采用训练集对语义分割模型进行训练;

语义分割分析模块,用于采用训练完成LiDAR语义分割模型对待识别的测程数据集进行语义分割分析,得到对应的分析预测结果。

本发明与现有技术相比,具有的有益效果是:

本发明采用多视图融合网络AMVNet对LiDAR进行语义分割,通过给定来自不同基于投影的网络的班级分数,我们对分数不一致进行断言引导的点采样,并将每个采样点的一组点水平特征传递给一个简单的点头,以改进预测。这种模块化和层次化的后期融合方法提供了拥有两个独立网络的灵活性,语义分割效果更佳,且开销较小。

附图说明

图1为本发明实施例一中的流程图;

图2为本发明实施例二中的系统流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一:

一种基于AMVNet的LIDAR语义分割方法,如图1所示,包括以下步骤:

获取基于SemanticKITTI视觉基准的测程数据集,对获取的测程数据集进行预处理,预处理包括数据分割、归一化处理、数据扩充处理和数据缩放处理。

具体地,构建基于KITTI视觉基准的测程数据集,其中包括德国某城市收集的22个序列的43551个LiDAR扫描;其中10个场景(19130次扫描)用于训练,1个场景(4071次扫描)用于验证,10个场景(20351次扫描)用于测试。数据集是使用Velodyne HDL-64E传感器采集的,水平角分辨率为0.08至0.35,垂直光束为64束。SemanticKITTI提供了多达28个类,但是使用一次扫描的正式评估使用了19个类的高级标签集。每次扫描大约有130K点。为了提高分割准确率,将行人、自行车手和摩托车手也作为其中的几个类别。

下面对测程数据集的预处理进行具体阐述:

数据扩充,分别对训练集数据进行90度,180度和270度旋转,对数据进行扩增。将进行变换后的数据与原训练集混合,构建新的数据集。此操作的目的在于增加训练集数据量,帮助模型提取更多的数据特征,减少位置特征对模型识别的影响,防止模型过拟合,提升模型分割准确率。

数据缩放,由于RV网络接受64×4096球面投影数据分割后得到的所有数据进行缩放,以便输入模型,将其按照大小比例全部调整为64×4096。

归一化处理,对每条数据进行Min-Max归一化,其公式如下:

其中,min(x)表示像素最小值,max(x)表示像素最大值。

对预处理后的测程数据集进行数据划分处理,包括训练集和测试集,训练集用于模型的训练,测试集用于测试模型效果。具体地,将数据集按照7:3的比例分为训练集和测试集,训练集用于模型的训练,测试集用于测试模型效果。

构建基于AMVNet和LiDAR语义分割模型,并采用训练集对语义分割模型进行训练;采用训练完成LiDAR语义分割模型对待识别的测程数据集进行语义分割分析,得到对应的分析预测结果。

上述基于AMVNet的LIDAR语义分割方法,收集来自SemanticKITTI的测程数据集,其中包括28个类别,对多种类别进行分割。完成数据收集后,对数据进行预处理,预处理包括数据分割,缩放,归一化等。将预处理后的数据输入搭建好的AMVNet网络模型中进行训练,待到模型损失函数不再下降,保存模型,完成模型构建。

本申请提出了一种基于断言的多视图融合网络(AMVNet)用于LiDAR的语义分割,该网络利用后期融合的方法聚合了单个基于投影的网络的语义特征。通过给定来自不同基于投影的网络的班级分数,我们对分数不一致进行断言引导的点采样,并将每个采样点的一组点水平特征传递给一个简单的点头,以改进预测。这种模块化和层次化的后期融合方法提供了拥有两个独立网络的灵活性,语义分割效果更佳,且开销较小。

上述基于AMVNet的LIDAR语义分割方法中,所述LiDAR语义分割模型的训练过程如下:

首先,将训练数据分别输入两个模型中,通过将训练数据输入到其中一个网络模型(RV)中,其中训练数据中每个像素都由3D坐标(x,y,z)、强度、范围和二进制掩码组成。二进制掩码表示某个激光雷达点是否占用该像素。当多个点投影到同一个像素上时,选择距离激光雷达传感器最近的点来表示该像素。其中RV网络模型通过使用一个resnet的骨干,带有跳跃连接和跨步卷积,通过对后期特征图的高度维进行低采样,以适应RV图像相对于宽度的较小高度,并使用交叉熵(CE)和Dice损失函数进行训练。同时为了学习学习物体在方位角方向上的空间关系,添加RNN层在RV网络模型的最后的特征图中,每个输出特征映射被沿着宽度和高度维度转换成一系列的单元格。序列长度为wt和ht;其中wt和ht分别为特征图的宽度和高度。通过使用隐含大小等于c的单向GRU来实现RNN层。对于每个输入单元,RNN层返回一个相同大小的输出单元。这些输出单元沿着宽度和高度维度堆叠,形成与前一层CNN输出维度相同的体积特征图。

之后,将训练数据输入到另一个网络模型(BEV)中,该网络使用U-Net架构,并输出给定极柱特征的体素级分割。通过两个网络模型的训练,获得初始类预测。

下一步,通过对初始类预测进行训练获得采样点,采样是当多视图网络在类预测上不一致时,通过断言引导的方法来捕获不确定点,其方法为通过给定一个有N个点的LiDAR扫描,定义点云为

其中,s(·,·)为余弦相似度评分,τ为不确定性阈值的设计参数,f

最后,从获取的不确定点中提取相关的特征供点头模型进行最终的标签预测,该点头模型将单个网络的归一化类分数与原始点数据进行连接,其公式如下:

p

同时选择了相邻点的点级特征来作为附加的上下文,假设N(xi)是第i点的N个邻域点的集合,则邻域集特征定义为:

其中,点特征φ代表相邻点k与不确定点i的相对距离,n为超参数,将这些点特征和邻域集特征传递给点头模型,得到最终的预测,其公式为:

h

点头模型包括一个MLP、一个最大池化层和一个完全连接层。Si通过MLP和maxpooled独立处理,得到一个新的点特征,然后与pi连接,最终获得预测结果。

最后,采用测试集对训练完成的模型进行测试,与其标签结果进行对比。模型测试完成后,保存模型。

实施例二:

一种基于AMVNet的LIDAR语义分割系统,如图2所示,包括:

数据采集模块,用于获取基于SemanticKITTI视觉基准的测程数据集;具体地,构建基于KITTI视觉基准的测程数据集,其中包括德国某城市收集的22个序列的43551个LiDAR扫描;其中10个场景(19130次扫描)用于训练,1个场景(4071次扫描)用于验证,10个场景(20351次扫描)用于测试。数据集是使用Velodyne HDL-64E传感器采集的,水平角分辨率为0.08至0.35,垂直光束为64束。SemanticKITTI提供了多达28个类,但是使用一次扫描的正式评估使用了19个类的高级标签集。每次扫描大约有130K点。为了提高分割准确率,将行人、自行车手和摩托车手也作为其中的几个类别。

数据集处理模块,用于对获取的测程数据集进行预处理,预处理包括数据分割、归一化处理、数据扩充处理和数据缩放处理。具体地,下面对测程数据集的预处理进行具体阐述:

数据扩充,分别对训练集数据进行90度,180度和270度旋转,对数据进行扩增。将进行变换后的数据与原训练集混合,构建新的数据集。此操作的目的在于增加训练集数据量,帮助模型提取更多的数据特征,减少位置特征对模型识别的影响,防止模型过拟合,提升模型分割准确率。

数据缩放,由于RV网络接受64×4096球面投影数据分割后得到的所有数据进行缩放,以便输入模型,将其按照大小比例全部调整为64×4096。

归一化处理,对每条数据进行Min-Max归一化,其公式如下:

其中,min(x)表示像素最小值,max(x)表示像素最大值。

数据划分模块,用于对预处理后的测程数据集进行数据划分处理,包括训练集和测试集,训练集用于模型的训练,测试集用于测试模型效果。具体地,将数据集按照7:3的比例分为训练集和测试集,训练集用于模型的训练,测试集用于测试模型效果。

模型构建模块,用于构建基于AMVNet和LiDAR语义分割模型,并采用训练集对语义分割模型进行训练;语义分割分析模块,用于采用训练完成LiDAR语义分割模型对待识别的测程数据集进行语义分割分析,得到对应的分析预测结果。

上述基于AMVNet的LIDAR语义分割系统,提出了一种基于断言的多视图融合网络(AMVNet)用于LiDAR的语义分割,该网络利用后期融合的方法聚合了单个基于投影的网络的语义特征。通过给定来自不同基于投影的网络的班级分数,我们对分数不一致进行断言引导的点采样,并将每个采样点的一组点水平特征传递给一个简单的点头,以改进预测。这种模块化和层次化的后期融合方法提供了拥有两个独立网络的灵活性,语义分割效果更佳,且开销较小。

上述基于AMVNet的LIDAR语义分割系统中,所述LiDAR语义分割模型的训练过程如下:

首先,将训练数据分别输入两个模型中,通过将训练数据输入到其中一个网络模型(RV)中,其中训练数据中每个像素都由3D坐标(x,y,z)、强度、范围和二进制掩码组成。二进制掩码表示某个激光雷达点是否占用该像素。当多个点投影到同一个像素上时,选择距离激光雷达传感器最近的点来表示该像素。其中RV网络模型通过使用一个resnet的骨干,带有跳跃连接和跨步卷积,通过对后期特征图的高度维进行低采样,以适应RV图像相对于宽度的较小高度,并使用交叉熵(CE)和Dice损失函数进行训练。同时为了学习学习物体在方位角方向上的空间关系,添加RNN层在RV网络模型的最后的特征图中,每个输出特征映射被沿着宽度和高度维度转换成一系列的单元格。序列长度为wt和ht;其中wt和ht分别为特征图的宽度和高度。通过使用隐含大小等于c的单向GRU来实现RNN层。对于每个输入单元,RNN层返回一个相同大小的输出单元。这些输出单元沿着宽度和高度维度堆叠,形成与前一层CNN输出维度相同的体积特征图。

之后,将训练数据输入到另一个网络模型(BEV)中,该网络使用U-Net架构,并输出给定极柱特征的体素级分割。通过两个网络模型的训练,获得初始类预测。

下一步,通过对初始类预测进行训练获得采样点,采样是当多视图网络在类预测上不一致时,通过断言引导的方法来捕获不确定点,其方法为通过给定一个有N个点的LiDAR扫描,定义点云为

其中,s(·,·)为余弦相似度评分,τ为不确定性阈值的设计参数,f

最后,从获取的不确定点中提取相关的特征供点头模型进行最终的标签预测,该点头模型将单个网络的归一化类分数与原始点数据进行连接,其公式如下:

p

同时选择了相邻点的点级特征来作为附加的上下文,假设N(xi)是第i点的N个邻域点的集合,则邻域集特征定义为:

其中,点特征φ代表相邻点k与不确定点i的相对距离,n为超参数,将这些点特征和邻域集特征传递给点头模型,得到最终的预测,其公式为:

h

点头模型包括一个MLP、一个最大池化层和一个完全连接层。Si通过MLP和maxpooled独立处理,得到一个新的点特征,然后与pi连接,最终获得预测结果。

最后,采用测试集对训练完成的模型进行测试,与其标签结果进行对比。模型测试完成后,保存模型。

上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

相关技术
  • 一种基于AMVNet的LIDAR语义分割方法及系统
  • 一种基于LiDAR点云的电塔受灾风险评估方法及系统
技术分类

06120112985161