一种基于位置融合的高效点云分类方法及系统

文献发布时间：2023-06-19 18:58:26

技术领域

本发明属于人工智能技术领域，涉及一种基于位置融合的高效点云分类方法及系统，可用于多种生成点云的场景。

背景技术

在3D点云数据的深度学习推动了自动驾驶领域的快速发展。然而，点云数据具有无序性，且是一种非结构化的数据。这种不规则的数据同时具备了点之间的交互性，使得传统的二维卷积神经网络难以在点云领域上推广，使得处理三维点云是一项具有挑战性的任务。近年来在点云领域上出现了多种处理方法，使用最为广泛的是只基于点的方法。另外，深度学习中的注意力机制被广泛应用于深度学习的各个领域。由此导致出现了很多将注意力机制引入到点云领域的方法。这些方法的注意力机制的作用对象为点云中的点，提出了多种使用注意力方法的变形。虽然这些方法获得的效果较好，但是存在着计算需求过大的问题。注意力机制的计算方式将会导致计算复杂度与点云中被处理点数的平方成正比，这大大增加了计算量。由于点云中点数一般在一千甚至更大，使用注意力处理点云的方法往往导致计算过慢的问题。

点云数据存在非独立性以及点交互性的特点，这使得有效地学习点云局部特征很有必要。同时点云中的局部形状对于点云全局形状也是有贡献的，因此，适用于点云数据特点的、有效学习点云局部关系的分类方法对于点云数据具有重大意义。

发明内容

为了解决上述问题，本发明提供一种基于位置融合的高效点云分类方法，该方法使用点云的全局位置与局部位置信息融合的策略，同时将全局特征与局部特征融合，将二者分别看作权重以及元素，学习两者之间的关系，而不使用高计算需求的限制，分类准确率高；同时引入多尺度特征策略，这能够进一步扩大感受野，对点云形状进行学习，解决了现有技术中存在的问题。

本发明的另一目的是，提供一种基于位置融合的高效的点云分类系统。

本发明所采用的技术方案是，一种基于位置融合的高效点云分类方法，包括以下步骤：

S1，从输入的点云三维坐标中提取点云中的点的初始嵌入表示，获取点云中点的初始的全局位置信息与全局特征信息；

S2，通过使用最远点下采样，在不改变点云基本形状的前提下，将点云中的点的个数减少，并以下采样后的点为质心，以采样前的点为搜索空间，搜索以质心为中心的K近邻(K-NearestNeighbor，KNN)邻居，建立KNN局部关系图结构；

S3，通过KNN局部邻接关系，构建连接特征信息与连接位置信息的F矩阵与P矩阵，得到具有全局信息与局部信息的权重矩阵与元素矩阵；

S4，将F矩阵与P矩阵进行映射，映射到相同维度。并将二者做Hadamard积运算，得到新的F′矩阵，即新的特征矩阵并输入到S5中；

S5，将S4得到的F′矩阵利用线性变换函数与局部最大池化得到每个质心的新的全局特征表示，将此输送到下一阶段；

S6，接收到S5阶段的新的全局特征表示，并重复步骤S2、S3、S4、S5，得到不同采样个数的点的特征表示；

S7，将S6中得到的特征表示输入到映射函数中，并进一步再次输入到映射函数中，将两次得到的结果使用残差结构进行串联连接，得到点云中所有点的特征；

S8，为了进行点云分类，将S7中得到的所有点的特征使用最大池化层在点数的维度上进行池化，得到点云的全局特征表示；

S9，利用分类器基于全局特征表示进行点云分类识别。

进一步的，所述步骤S1中，使用一次线性、BatchNorm和ReLU层将输入的三维坐标转换为新的位置嵌入表示p，并将此复制给初始特征嵌入表示f；

进一步的，所述步骤S2中，定义初始点云集合中点的个数为N，下采样后阶段i的点的个数为N

S21，以同一个质心为中心，建立不同尺度大小的KNN图，并将不同尺度的特征串联起来，针对不同分辨率级别的特征使用不同维度的表示，以获得不同大小的感受野；

进一步的，所述步骤S3中，具体为：

S31，我们定义：点i的绝对位置为p

Δp

P矩阵由相对位置信息与绝对位置信息融合得到，点i的P矩阵块可以表示为如公式(1-4)所示：

其中，R

S32，F矩阵由相对特征信息与绝对特征信息融合得到，这二者我们分别定义为：f

Δf

点i的F矩阵块可以用如下公式(1-6)所示：

进一步的，所述步骤S4中，具体为：

S41，使用不同的映射函数α与β分别作用在矩阵P与矩阵F上，使得映射后的两个矩阵维度一致；

进一步的，所述不同的映射函数α与β均通过反向传播学习并优化。

S42，将映射后的矩阵P与矩阵F分别看作点云局部结构的权重矩阵与特征元素矩阵，特征更新使用两矩阵乘法来实现，如公式(1-7)所示：

F′＝α(P)⊙β(F)(1-7)

其中，“⊙”表示两个矩阵的按元素乘积，α(P)为点云中局域块的权重矩阵，通过融合权重得到新的F′特征表示，进行特征提取。

进一步的，所述步骤S5中，所述线性变换函数通过反向传播学习并优化。

进一步的，所述步骤S6中，为了获得多层次特征，采用重复步骤S2、S3、S4、S5的策略，其中不同的是采样后的点数为上一次步骤S2、S3、S4、S5中点集中点个数的一半。

进一步的，所述步骤S7中，先后使用两个可学习、可训练的线性映射函数，为了避免过拟合与过度学习，采用残差结构连接；

进一步的，所述步骤S8中，利用点云的无序性以及点之间的交互性，将S7得到的特征矩阵，使用最大池化得到点云的全局特征，如公式(1-8)所示：

其中，MaxPooling

进一步的，所述步骤S9中，分类器，用于基于位置信息融合的高效的点云学习与特征提取，得到最终的分类结果。

一种基于位置融合的高效的点云分类系统，采用上述基于位置融合的高效点云分类方法，包括：

嵌入层模块，用于从输入的点云三维坐标中提取初始的嵌入表示，并将该表示赋值给位置嵌入表示与特征嵌入表示；

特征提取层模块，用于将得到的位置信息与特征信息按照上述方法中使用的特征提取方法来进行信息融合，具体地，包括：点云下采样、KNN构建点云局域关系、采用多尺度方法连接特征，根据KNN邻接关系将相对位置信息与绝对位置信息融合，得到P矩阵；相应的，将相对特征信息与绝对特征信息拼接，得到F矩阵。按照对应关系，进行特征更新，并使用最大池化做特征聚合操作，得到新的质心的特征表示；

映射层模块，将得到的特征表示输入到映射函数中，并使用残差结构进行串联拼接操作，得到更全面的特征表示；

池化层模块，使用全局最大池化操作，将已有的所有的质心的特征输入到最大池化中，得到点云的全局表示；

分类器模块，是用于基于点云三维坐标与位置融合进行点云分类识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例基于位置信息融合的高效的点云分类的方法流程图。

图2是本发明实施例点云局部区域的符号定义的示意图。

图3是本发明实施例基于KNN局部关系的对于质心i矩阵P结构图。

图4是本发明实施例基于KNN局部关系的对于质心i矩阵F结构图。

图5是本发明实施例基于点云位置信息融合的高效的点云分类识别系统。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于位置融合的高效点云分类方法，该方法可有效替代使用注意力机制的点云处理方法，同时对计算需求低，如图1所示，包括以下步骤：

S1，从包含点云的三维坐标中使用嵌入层得到点云的初始嵌入表示，可用公式(1)表示：

embedding＝E(x，y，z) (1)

其中，x，y，z表示输入的点云的三维坐标，即点云集

S2，对于局部特征的提取阶段，点集的数量将逐渐减少。我们使用最远点采样(FPS)算法对点集进行下采样以获得多层次特征。我们将si定义为阶段i中点集的数量。不同阶段中下采样后阶段i的点的个数为N

由于原始点云数据之间没有明显的拓扑关系，因此，在下采样之后，通过原始点云集合上KNN获得局部邻域。对于每个采样点，KNN在采样之前从点云中找到固定数量的相邻点。邻域由空间距离定义。

S3，为了避免使用单个全局位置信息p

Δp

来表示点之间的局部邻域信息。相应地，相对特征信息Δf

S31，对于相同质心的点，使用不同尺度大小的KNN建立邻居关系。具体地，将k设置为8，16，32，并将不同尺度的8个邻居、16个邻居、32个邻居的特征信息与位置信息分别串联。

实施例中，基于多尺度的特征信息根据尺度的不同通道数不同。邻居数为8、16、32时，设置特征信息的通道数分别为512、256、128。

S32，对于点i的F矩阵块可以用如下公式(5)所示：

点i的P矩阵块可以表示为如公式(6)所示：

上述公式(5)与公式(6)中的R

S4，来自前一模块的矩阵F和矩阵P被输入到不同的映射可训练函数α和β中。我们将α(P)视为β(F)的相应权重，以增强表达能力。

S41，使用不同的映射函数α与β分别作用在矩阵P与矩阵F上，使得映射后的两个矩阵维度一致；

进一步的，所述不同的映射函数α与β均通过反向传播学习并优化。

S42，将映射后的矩阵P与矩阵F分别看作点云局部结构的权重矩阵与特征元素矩阵，特征更新使用两矩阵乘法来实现，如公式(7)所示：

F′＝α(P)⊙β(F) (7)

其中，“⊙”表示两个矩阵的哈达玛积，对于每个中心点，通过这种方式获得k个邻居的加权特征表示。

实施例中，在第一次下采样后实施该过程时，α函数与β函数均将P与F映射到512维，在第二次下采样后实施该过程时，α函数与β函数均将P与F映射到256维.

S5，由于点云的无序性以及变换不变性，对于聚合操作需使用对称聚合运算。我们选择局部最大池运算来聚集邻域中的特征，以获得点的新特征表示。

为了减小该过程的计算量，我们的这种方法可以替换点云中的注意力机制的复杂计算。并更加适用于点云数据的特性，同时相比于使用注意力的方法，在保持同样高精度的前提下，大大降低计算复杂度。

S6，为了扩大感受野，聚集更多的特征信息，进一步采取重复上述S2、S3、S4、S5的内容，获得不同尺度的特征信息。

S7，为了聚集来自不同层的信息，特征表示通过γ映射函数和δ映射函数。我们将两者的结果连接为点特征。可以表示如公式(8)所示：

S8，对上述步骤得到的特征信息使用全局最大池化得到全局特征表示。

S9，分类器，用于基于点云三维坐标的点云识别分类。

分类器使用Linear、BatchNorm和ReLU层、Dropout层操作获得最终分类结果。点云的类标签被确定为具有最大分数的类。

本发明实施例一种基于点云位置信息融合的高效的点云分类识别系统，如图5所示，采用上述基于点云位置信息融合的高效的点云分类识别方法，包括：

嵌入层模块，用于从输入的点云三维坐标中提取初始的嵌入表示，并将该表示赋值给位置嵌入表示与特征嵌入表示；

特征提取层模块，用于将得到的位置信息与特征信息按照上述方法中使用的特征提取方法来进行信息融合，具体地，包括：点云下采样、KNN构建点云局域关系、采用多尺度方法连接特征，根据KNN邻接关系将相对位置信息与绝对位置信息融合，相应的，将相对特征信息与绝对特征信息拼接，按照对应关系，作特征更新，并使用最大池化做特征聚合操作，得到新的质心的特征表示；

映射层模块，用于将前一阶段得到的特征表示输入到映射函数中，并使用残差结构进行串联拼接操作，得到更全面的特征表示；

池化层模块，使用全局最大池化操作，将已有的所有的质心的特征输入到最大池化中，得到点云的全局表示；

分类器模块，是用于基于点云三维坐标与位置融合进行点云分类识别。

本发明在一个数据集上与当前最先进的使用Transformer与注意力机制应用到点云学习的神经网络之一的点Transformer网络(PointTransformer)进行了比较。在最广泛比较之一的ModelNet40数据集上，本发明最佳的识别准确率达93.7％，与PointTransformer精度相同；参数量方面，本发明的参数量只有0.3M，为Point Transformer参数量的十分之一；FLOPs方面，本发明的FLOPs为1.30G，远远小于Point Transformer的FLOPs。和已有的基于注意力机制的点云分类识别方法相比，本发明可以直接学习点云的局部结构，避免了注意力机制的超大计算量，学习到的局部结构可以更好地显式地表示点云的形状信息，并且可以没有Query，Key，Value矩阵的复杂运算，更有利于高效的点云分类识别。使用多尺度的特征连接，在扩大感受野的同时避免了计算量的增大以及质心移位的操作，比使用普通注意力机制的点云分类更有优越性，更加适合点云数据。

本发明用于点云分类识别，以点云三维坐标作为输入，无需点云的法向量、颜色等其他信息的补充，就能够在本发明的网络下形成初始的嵌入表示，便于后期的点云特征学习。采用本发明的方法进行识别点云，例如可以应用于自动驾驶，也可以应用于增强现实、机器人等，应用范围广泛。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：孙玉宽;刘云铭;陈婷;汪剑鸣;
专利申请人：天津工业大学;

上一篇：一种3D打印机刮刀用供气及冲洗装置
下一篇：一种大型发电机的定子自动绕线装置