用于基于图的全景分割的方法和系统

文献发布时间：2024-04-18 19:58:26

本专利申请要求2021年3月17日提交的主题为“用于基于图的全景分割的方法和系统”的美国专利申请序列号17/204,930的优先权，在此通过引用将其全部内容并入本文。

技术领域

本发明涉及点云处理，尤其涉及用于基于图的点云全景分割的方法和系统。

背景技术

在自主驾驶、自主制造、检测和医疗诊断等各领域中，感知是各种智能/自主系统不可或缺的部分。近年来，人工智能广泛应用于感知，让计算机学习使用数字图像或点云来解释和理解视觉世界。使用摄像头生成的图像或激光雷达(light detection andranging，LiDAR)传感器生成的三维(three dimensional，3D)点云，计算机能够使用深度学习对模型进行学习以准确“感知”环境(即，对图像或点云中的物体进行识别和分类)，并且智能/自主系统可以对在环境中“感知”的事物做出反应。

计算机还可以使用分割方法处理2D图像或3D点云来感知周围场景，周围场景是2D图像或3D点云中的环境。分割方法旨在为图像的每个像素生成标签，或者为点云的每个点生成标签，其中点云的每个点对应于图像或点云(例如，汽车或行人)中识别的类别(例如，物体类)。具有相同标签的多个像素/点表示用于识别类别描述的物体(例如，树、人或自行车)的掩码(片段)。虽然一些分割方法可以检测和识别“完整”片段，例如自行车、汽车或建筑物；但是其它分割方法也可以检测和识别“完整”片段的各部分(例如自行车的车座、车轮和踏板)，而不是识别整辆自行车。在图像或点云中识别哪些事物取决于分割方法用于识别哪些类别。

传统上，有两种分割方法：语义分割方法和实例分割方法。语义分割方法使用对应的语义标签标记图像的像素或点云的3D点，其中语义标签指示在图像或点云中检测到的类别。例如，在图像或点云中检测到的所有汽车用一个语义标签标记，天空用另一个语义标签标记，行人、建筑物也是如此。因此，每个类别都有一个语义标签。实例分割方法识别由图像或点云中的类别表示的物体的每个实例，然后使用实例标签标记物体的每个实例的点(例如，场景中的每辆汽车、每辆自行车或每栋建筑物均具有相应的实例标签)。因此，语义分割方法使用表示其类别的语义标签标记图像的每个像素或点云的每个点，而实例分割方法更多地使用实例标签标记每个类别表示的物体的实例的点。实现语义分割和实例分割的方法所使用的方法和技术显著不同。

最近出现的另一种分割类型是全景分割。全景分割对于自主车辆特别有用。它是语义分割方法与实例分割方法的有机结合。它可以定义stuff类别或things类别。stuff类别经过如上所述标记用于语义分割，things类别经过如上所述标记用于实例分割。全景分割方法的用户决定哪些类别是things和stuff。通常，things类别的实例是成功实施部署全景分割的任务所必需的且重要的实例。例如，在自主车辆的情况下，行人、动物、自行车很重要；因此，这些类别是things。建筑物、天空、路缘的实例不那么重要；因此，这些类别是stuff。对于自主车辆来说，知道有建筑物可能很重要，但是知道每栋建筑物的边界(建筑物的实例)并不是很重要。

已知的全景分割方法通常同时应用语义分割方法和实例分割方法。Det2Seg中描述了一种这样的全景分割方法，该方法在“Zuo,C.等人，“Det2Seg：从3D点云进行道路物体分割的两阶段方法(Det2Seg:A Two-Stage Approach for Road Object Segmentationfrom 3D Point Clouds)”，2019IEEE视觉通信与图像处理国际会议(VisualCommunications and Image Processing，VCIP)，澳大利亚悉尼，2019年”中提出。在Det2Seg中，除了语义分割之外，还应用了实例分割的两个阶段，即粗粒度阶段和细粒度阶段。粗粒度阶段使用复杂的深度学习模型。

Det2Seg需要复杂的深度学习模型进行实例分割。复杂的深度学习模型在计算系统上实现和运行的计算成本通常很高，这限制了上述两阶段方法实时执行全景分割。

因此，希望提供用于点云全景分割的改进方法和系统。

发明内容

本文描述了用于基于图的点云全景分割的方法和系统。示例性实施例描述了应用于具有things语义标签的点以生成图的方法和系统，所述图包括节点和边，所述节点和边提供给用于节点分类或边分类的图卷积神经网络(graph convolutional neuralnetwork，GCNN)。节点分类预测所述点的实例标签，边分类预测用于向所述点分配实例标签的边属性，输出具有实例标签和语义标签的点。具有实例标签和语义标签的点与仅具有语义标签的点(即具有stuff语义标签的点)相组合生成点云，所述点云包括具有语义标签的点以及具有实例标签和语义标签的点。为了识别实例标签，利用语义分割方法的语义标签，而不依赖复杂的深度学习模型；因此，需要的计算量少于复杂的深度学习模型的计算量。

根据一个方面，本发明提供了一种用于基于图的全景分割的方法。所述方法包括：从第一类别接收具有语义标签的点云的点，并从第二类别接收多个统一聚类特征向量；每个统一聚类特征向量从所述点云中的点聚类中提取。所述方法从所述多个统一聚类特征向量构造包括节点和边的图。所述图的每个节点为统一特征向量，所述图的每个边指示所述图的每两个节点之间的关系并表示为邻接矩阵。所述邻接矩阵指示每两个节点之间是存在还是不存在边。所述方法将所述节点和所述邻接矩阵馈送至图卷积神经网络，所述图卷积神经网络用于预测每个节点的实例标签或每个边的属性。每个边的所述属性用于将所述实例标签分配给每个节点。所述方法将所述第一类别的具有语义标签的点与所述第二类别的具有实例标签的点相组合，以生成标记的点云，所述标记的点云包括同时具有语义标签和实例标签的点。

每个统一聚类特征向量代表多个聚类的集合。另外，每个统一聚类特征向量从点云的多个点中提取。此外，所述方法从所述多个统一聚类特征向量构造图，使得所述图的节点与所述统一特征向量相关联，并且所述图的边表示为邻接矩阵。所述邻接矩阵指示每两个节点之间是存在还是不存在边。所述方法将所述节点和所述邻接矩阵馈送至用于预测的所述图卷积神经网络，以确定实例片段。最后，所述方法将实例片段与语义片段相组合，以确定用于所述基于图的全景分割的全景片段。

在所述方法的一些示例方面，所述邻接矩阵的元素是使用每两个节点之间的至少一个相似性距离确定的。在一些示例方面，所述至少一个相似性距离为之间的余弦相似性和欧几里得距离。在所述方法的一些示例方面，所述邻接矩阵的所述元素是使用准则确定的，所述准则是：如果两个节点之间的所述余弦相似性大于预定阈值并且所述两个节点之间的所述欧几里得距离小于另一个预定阈值，则存在所述边。

在所述方法的一些示例方面，所述图卷积神经网络用于节点分类以预测所述图的每个节点的实例标签，所述点云的每个点都用其各自节点的所述实例标签标记以形成所述实例片段之一。

在所述方法的一些示例方面，所述图卷积神经网络用于边分类以预测每两个节点之间的所述边的属性。所述图中使用至少一个边作为网连接在一起的所述节点分配有实例标签。此外，所述点云的每个点都用其各自节点的所述实例标签标记以形成所述实例片段之一。

在所述方法的一些示例方面，使用可学习的稀疏卷积运算和PointNet模型中的至少一种从点云的多个点中提取每个统一聚类特征向量，所述可学习的稀疏卷积运算和所述PointNet模型中的所述至少一个将所述聚类的所述多个点映射到1×k向量，其中，k是超参数。在所述方法的一些示例方面，所述统一聚类特征向量包括每个聚类的质心值，生成大小为1×(k+3)的统一聚类特征向量。

在所述方法的一些示例方面，所述点云的每个点至少包括所述点的空间坐标和语义标签，其中，所述点的所述语义标签由语义分割方法确定。

在所述方法的一些示例方面，所述多个聚类是使用k均值聚类、围绕中心点划分聚类和基于密度的聚类(density-based clustering，DBSCAN)中的至少一种确定的。

在一些示例方面，本发明描述了一种使用图卷积神经网络进行基于图的全景分割的系统，所述系统包括：存储器，用于存储指令；一个或多个处理器，耦合至所述存储器并用于执行所述指令，以使所述系统：从第一类别接收具有语义标签的点云的点；从第二类别接收多个统一聚类特征向量，每个统一聚类特征向量从所述点云中的点聚类中提取；从所述多个统一聚类特征向量构造包括节点和边的图。所述图的每个节点为统一特征向量，所述图的每个边指示所述图的每两个节点之间的关系并表示为邻接矩阵。所述邻接矩阵指示每两个节点之间是存在还是不存在边。将所述节点和所述邻接矩阵馈送至图卷积神经网络，所述图卷积神经网络用于预测每个节点的实例标签或每个边的属性。每个边的所述属性用于将所述实例标签分配给每个节点。将所述第一类别的具有语义标签的点与所述第二类别的具有实例标签的点相组合，以生成同时具有语义标签和实例标签的点。

在所述系统的一些示例方面，所述邻接矩阵的元素是使用每两个节点之间的至少一个相似性距离确定的。在所述系统的一些示例方面，所述至少一个相似性距离为之间的余弦相似性和欧几里得距离。在所述系统的一些示例方面，所述邻接矩阵的所述元素是使用准则确定的，所述准则是：如果两个节点之间的所述余弦相似性大于预定阈值并且所述两个节点之间的所述欧几里得距离小于另一个预定阈值，则存在所述边。

在所述系统的一些示例方面，所述图卷积神经网络用于节点分类以预测所述图的每个节点的实例标签，所述点云的每个点都用其各自节点的所述实例标签标记以形成所述实例片段之一。

在所述系统的一些示例方面，所述图卷积神经网络用于边分类以预测每两个节点之间的所述边的属性。所述图中使用至少一个边作为网连接在一起的所述节点分配有实例标签。此外，所述点云的每个点都用其各自节点的所述实例标签标记以形成所述实例片段之一。

在所述系统的一些示例方面，使用可学习的稀疏卷积运算和PointNet模型中的至少一种从点云的多个点中提取每个统一聚类特征向量，所述可学习的稀疏卷积运算和所述PointNet模型中的所述至少一个将所述聚类的所述多个点映射到1×k向量，其中，k是超参数。在所述系统的一些示例方面，所述统一聚类特征向量包括每个聚类的质心值，生成大小为1×(k+3)的统一聚类特征向量。

在所述系统的一些示例方面，所述点云的每个点至少包括所述点的空间坐标和语义标签，其中，所述点的所述语义标签由语义分割方法确定。

在所述系统的一些示例方面，所述多个聚类是使用k均值聚类、围绕中心点划分聚类和基于密度的聚类(density-based clustering，DBSCAN)中的至少一种确定的。

附图说明

图1示出了可用于实现本文公开的方法和系统的示例性处理系统的框图；

图2是本发明的一个示例提供的示例性实例分割子系统的框图；

图3是本发明的一个示例提供的实例分割子系统的一些组件的输出的说明性示例；

图4是本发明的一个示例提供的解释统一聚类特征向量的图表示的假设性示例；

图5是本发明的一个示例提供的用于训练实例分割的示例性方法的流程图；

图6是本发明的一个示例提供的用于图表示和GCNN以确定全景分割的示例性推理方法的流程图。

不同附图中可以使用相同的附图标记来表示相同的组件。

具体实施方式

本发明是参考附图进行的，附图中示出了实施例。但是，可以使用许多不同的实施例，因此描述不应解释为局限于本文中阐述的实施例。相反，提供这些实施例是为了使得本发明彻底和完整。

示例性实施例描述了用于基于图的点云全景分割的方法和系统。所述方法和系统包括识别点云中每个点的语义标签，然后只有属于things类别的一些所述识别的语义标签才会考虑用于实例分割。对每个片段things的点进行聚类，为具有相同语义标签的点的每个聚类确定统一聚类特征向量。所述统一聚类特征向量用于生成包括节点和边的图，其中，每个统一聚类特征向量是所述图的节点。所述图的所述边描述每两个节点之间的关系。每两个节点之间存在边表示为邻接矩阵。示例性实施例描述了使用用于节点分类的GCNN来预测每个节点的实例标签的方法和系统。对于节点分类，使用基于每两个节点之间的相似性度量的准则确定所述邻接矩阵。在推理过程中，所述GCNN预测每个节点的实例标签。所述方法和系统将所述实例标签分配给每个节点的相应点。其它示例性实施例描述了使用用于边分类的GCNN来预测每个节点的属性的方法和系统。对于边分类，使用相似性度量的值确定所述邻接矩阵。在推理过程中，所述GCNN预测所述图的每两个节点之间是否存在边。所述方法和系统将实例标签分配给由边连接的节点，并进一步将所述实例标签分配给每个节点的相应点。将仅具有语义标签的点(即stuff类别的点)与具有语义标签和实例标签的点(即things类别的点)相组合生成标记的点云，所述标记的点云包括具有语义标签的点以及具有语义标签和实例标签的点，是所述基于图的全景分割的输出。

图1是示例性简化处理系统100的框图，处理系统100可用于实现本文公开的实施例。下面描述的示例性处理系统100或其变体可用于实现全景分割系统102。其它处理系统可以适用于实现本发明中描述的实施例，并且可以包括与下文讨论的组件不同的组件。虽然图1示出了每个组件的单个实例，但在处理系统100中可以有每个组件的多个实例(例如，当处理系统100用于实现基于图的全景分割系统102时)。

处理系统100可以包括一个或多个处理设备104，例如处理器、微处理器、图形处理器(graphics processing unit，GPU)、张量处理器(tensor processing unit，TPU)、专用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)、专用逻辑电路或其组合。处理系统100可以可选地包括一个或多个输入/输出(input/output，I/O)接口106，以实现与一个或多个可选输入设备108和/或输出设备110的连接。处理系统100可以包括一个或多个网络接口112，用于与其它处理系统进行有线或无线通信。所述一个或多个网络接口112可以包括用于网络内和/或网络间通信的有线链路(例如以太网线)和/或无线链路(例如一个或多个天线)。

处理系统100还可以包括一个或多个存储单元114，存储单元114可以包括大容量存储单元，例如固态驱动器、硬盘驱动器、磁盘驱动器和/或光盘驱动器。在一些示例性实施例中，存储单元114可以包括数据库116，用于存储训练数据集，所述训练数据集可以用于训练基于图的全景分割系统102的部分，如下面进一步详细描述的。虽然图1示出了存储单元114包括数据库116，但在替代实施例中，数据库116可以包括在一个或多个远程存储单元中，所述远程存储单元可以通过网络接口112远程访问。在由处理设备104使用之前，数据库116可能需要加载到存储器118中。

处理系统100可以包括一个或多个非瞬时性存储器118，存储器118可以包括易失性或非易失性存储器(例如，闪存、随机存取存储器(random access memory，RAM)和/或只读存储器(read-only memory，ROM))。非瞬时性存储器118可以存储待由处理设备104执行的指令，例如以执行本发明中描述的示例性方法。存储器118可以存储其它软件(例如，待由处理设备104执行的指令)，例如操作系统和其它应用程序/功能。在一些示例中，一个或多个数据库116可以由外部存储器(例如，与处理系统100进行有线或无线通信的外部驱动器)提供，或者可以由瞬时性或非瞬时性计算机可读介质提供。非瞬时性计算机可读介质的示例包括RAM、ROM、可擦除可编程ROM(erasable programmable ROM，EPROM)、电可擦除可编程ROM(electrically erasable programmable ROM，EEPROM)、闪存、CD-ROM或其它便携式存储器。在一些示例中，基于图的全景分割系统102可以是软件，所述软件包括存储在存储器118中且可由处理设备100执行的机器可读指令。基于图的全景分割系统102包括语义分割子系统120、实例分割子系统122和融合子系统124。子系统120、122和124中的每一个可以是软件，所述软件包括存储在存储器118中且可由处理设备100执行的机器可读指令。在一些示例中，语义分割子系统120、实例分割子系统122和融合子系统124中的一个或多个可以实现依赖机器学习执行推理任务的方法。在一些示例中，基于图的全景分割系统102可以实现为单个硬件组件(例如，片上系统，所述片上系统包括执行语义分割子系统120、实例分割子系统122和融合子系统124的功能的组件)。在其它示例中，多个芯片(每个芯片执行基于图的全景分割系统102的组件的任务)由各自不同的硬件组件(例如，处理系统100内的单独芯片)执行。

可以存在总线126，总线126提供处理系统100的各组件之间的通信，包括处理设备104、可选I/O接口106、网络接口112、存储单元114和/或存储器118。总线126可以是任何合适的总线架构，包括存储器总线、外围总线或视频总线。

在图1中，可选输入设备108(例如，键盘、鼠标、麦克风、集成到显示设备中的触摸屏，所述显示设备可以包括用户界面(user interface，UI)和/或小键盘)和可选输出设备110(例如，可以包括UI的显示设备、扬声器和/或打印机)显示为在处理系统100的外部。在其它示例中，输入设备108和/或输出设备110中的一个或多个可以是处理系统100的内部组件。输入设备108可以包括具有显示屏和UI导航设备(例如，触摸屏输入设备、鼠标或手持控制器)的显示设备。输出设备110还可以包括具有显示屏和UI导航设备的显示设备，用于显示基于图的全景分割系统102的生成结果。

全景分割系统102将实例标签分配给属于things类别物体的图像的像素或点云的点，识别things类别表示的物体的每个实例，而将语义标签分配给属于stuff类别表示的物体的图像的像素或点云的点，忽略stuff类别的物体实例。例如，如果汽车属things类别，建筑物属stuff类别，基于图的全景分割系统102可以将实例标签分配给每辆汽车的像素或点，生成由每个实例标签表示的掩码。汽车的每个实例的实例标签是唯一的；因此，全景分割系统102为汽车的每个实例生成唯一的掩码。此外，基于图的全景分割系统102还可以将语义标签分配给属于stuff类别表示的物体的图像的像素或点云的点，而可以不将实例标签分配给所述图像的像素或所述点云的点。建筑物的所有实例的语义标签是相同的；因此，全景分割系统102可以为所有建筑物生成一个掩码。通常，基于图的全景分割系统102的用户定义stuff的类别和things的类别。在下文中，示例性实施例考虑点云的3D点(点)；然而，这不应被视为限制，而是仅用于说明。

基于图的全景分割系统102包括语义分割子系统120和实例分割子系统122。语义分割子系统120使用语义标签标记每个点，为things和stuff中的所有类别(例如，道路、建筑物、树木、汽车、行人)生成掩码。语义分割子系统120可以实现准确性各不相同的众多方法，包括“Cheng、Ran等人，“2-S3Net：基于主动特征融合与自适应特征选择的稀疏点云语义分割网络(2-S3Net:Attentive Feature Fusion with Adaptive Feature Selection forSparse Semantic Segmentation Network)”，arXiv预印本，arXiv:2102.04530(2021)”中提出的方法。应理解，语义分割子系统120实现的该方法是示例，不是限制，并且仅用于说明。接受点云作为输入并使用语义标签标记点云的点的各种语义分割方法可以由语义分割子系统120实现。

实例分割子系统122用于使用things的实例标签标记属于things类别的点；实例标签对于属

图2是示例性实施例提供的示例性实例分割的框图。实例分割子系统122执行多个模块，包括过滤模块202、聚类模块、嵌入模块206和图表示模块208。实例分割子系统122还包括图卷积神经网络(graph convolutional neural network，GCNN)210。实例分割子系统122接收来自语义分割子系统120的输出，即具有语义标签的点云的点。它还可以接收用于训练GCNN 210的标记数据集。每个标记数据集包括多个标记点云。每个标记点云包括多个点，其中，所述多个点中的每个点标记有真实语义标签和实例标签以训练GCNN 210。

并非点云的所有点都会由实例分割子系统122处理；只有属things类别的具有语义标签的点才会在实例分割子系统122进行处理。过滤操作202具有things类别及其表示语义标签(例如，树类别具有语义标签1，汽车类别具有语义标签2)的列表。过滤模块202用于仅选择things类别的具有语义标签的点供聚类模块204处理，聚类模块204将具有相同语义标签的点划分为点聚类。所述点聚类馈送至嵌入模块206，嵌入模块206用于从每个点聚类中提取统一聚类特征向量。所述统一聚类特征向量馈送至图表示208以创建节点和边的图。包括节点和边的所述图馈送至图卷积网络(graph convolutional network，GCNN)210，以预测节点的实例标签或边的属性，用于确定由所述边连接的所述节点的实例标签。

图3是示例性实施例提供的实例分割子系统122的一些组件的输出的说明性示例。例如，具有语义标签的点302包括标签1和2，1指的是树，2指的是汽车。这些片段没有实例标签，使得汽车的两个片段302仅具有语义标签2。过滤202仅保留things类别304，用于嵌入206中的进一步处理。

参考图2，聚类模块204用于基于相似性度量将从过滤模块202接收的点划分聚类。聚类模块204对每个语义标签的多个点应用聚类操作。聚类模块204对具有内部相似性的点进行分组。示例性实施例应用不同类型的聚类方法。例如，使用马氏距离的k均值聚类、围绕中心点划分(partition around medoids，PAM)聚类或基于密度的聚类(density-basedclustering，DBSCAN)，其中，DBSCAN是一种非参数方法。聚类模块204将每多个点分组为一个聚类。每个点聚类可以具有与其它聚类不同的点数。在图3的图示中，聚类204的输出是聚类点306；每个模式对应于点聚类308(仅标记了其中的两个)。聚类模式是表示每个点聚类的聚类标签。这个阶段的点具有语义标签和聚类标签。可以观察到点聚类308具有不同的大小。换言之，不同数量的点形成每个点聚类308。聚类204实现的方法应用于点云中的每个语义标签。在将聚类点306馈送至图表示208和GCNN 210之后，输出包括具有语义标签和实例标签的点，显示为掩码310(下文将详细描述)。

在图2中，嵌入模块206将每个聚类的多个点编码为统一1xk维特征向量，其中，k是存储在存储器110中的超参数。示例性实施例可以使用可学习的稀疏卷积运算，例如“Choy、Christopher、JunYoung Gwak和Silvio Savarese，“《4D时空卷积神经网络：Minkowski卷积神经网络》(4d Spatio-Temporal Convnets:Minkowski Convolutional NeuralNetworks)”，《IEEE/CVF国际计算机视觉与模式识别会议汇刊》(Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition)，2019年”中的Minkowski卷积神经网络。其它示例性实施例可以使用PointNet模型，如“Qi、Charles R.等人，“《PointNet：用于3D分类和分割的点集的深度学习》(Pointnet:Deep Learning onPoint Sets for 3D Classification and Segmentation)”，《IEEE国际计算机视觉与模式识别会议汇刊》(Proceedings of the IEEE conference on computer vision andpattern recognition)，2017年”中的PointNet模型。应当理解的是，这两种方法是示例，并不是限制，并且仅用于说明。编码n×m矩阵并提取该n×m矩阵的统一聚类特征向量的其它嵌入206方法可以是适用的。该n×m矩阵表示点聚类，它包括构成该点聚类的n个点，其中，每个点具有m个元素。在此处理阶段，点聚类中的每个点可以有五个参数(m)：法x、y、z坐标、强度值和语义标签。因此，无论点聚类中有多少点，嵌入模块206的输出都是大小为1×k的特征向量，即统一聚类特征向量。

示例性实施例可以将统一聚类特征向量与每个点聚类的三个质心值(x维度质心值、y维度质心值和z维度质心值)相连接，使得统一聚类特征向量的大小为1×(k+3)。应理解，下文中适用于大小为1×k的统一聚类特征向量的任何方法也适用于附加质心数据后的统一聚类特征向量，即，大小为1×(k+3)的统一聚类特征向量。应理解，其它数据也可以与统一聚类特征向量连接。所述质心值连接只是示例而非限制，并且仅用于说明。

图表示模块208接收嵌入模块206的输出(即每个点聚类的统一特征向量)，并输出包括节点和边的图；其中，每个节点是点聚类的统一特征向量，每个边用邻接矩阵表示。所述邻接矩阵是描述所述图中两个节点之间的边连接的方阵。

图4是解释图表示模块208执行的操作的假设性示例。图表示模块208接收一组统一聚类特征向量402，一组统一聚类特征向量402包括n个统一聚类特征向量(402-1、402-2、402-3、……、402-n)。一组统一聚类特征向量402为图410的节点404(404-1、404-2、404-3、404-n)，其中，每个统一聚类特征向量(402-1、402-2、402-3、……、402-n)为图410中的节点(404-1、404-2、404-3、……、404-n)。边406(其中之一被标记)可以连接节点(404-1、404-2、……)。连接节点的边在邻接矩阵408中表示，邻接矩阵408指示节点404之间的关系。所述图表示模块将图410馈送至GCNN 210进行训练。示例性实施例描述了用于在用于节点分类的监督学习算法中训练GCNN 210来预测节点404的实例标签的方法和系统。在此类示例性实施例中，每个节点404使用实例标签标记。点使用其各自节点的实例标签标记。

示例性实施例描述了用于在用于边分类的监督学习算法中训练GCNN 210以预测边406的属性的方法和系统。在此类示例性实施例中，GCNN 210预测连接节点404的边406的属性。通过至少一个边406相互连接的节点404被分组并使用该组的实例标签标记。与该组中的每个节点404相关联的统一特征向量的点使用该组的所述实例标签标记。

GCNN 210接收输入X，其是n×k矩阵，其中，n是点聚类的数量，也是统一聚类特征向量402的数量，k是每个统一聚类特征向量的大小。它还接收邻接矩阵406A(边406信息)。

节点分类

示例性实施例描述了使用监督学习算法来训练GCNN 210进行节点分类以预测每个节点404的实例标签的方法和系统。存储在数据库116中的训练数据集包含同时具有语义标签和实例标签的标记点云。因此，每个节点404的目标实例标签在GCNN 210的训练期间是已知的。

GCNN 210是多层卷积神经网络，其处理图(例如，图数据)并可以理解为包括第一层(通常称为输入层)、多个隐藏层和最终层(通常称为输出层)的神经网络。此处的“多个”没有特殊的度量。

GCNN 210的每一层的处理可能相对较简单。简单地说，每一层的操作H

其中，f是函数，H

所述邻接矩阵是对称的。当训练GCNN 210进行节点分类时，邻接矩阵406可以填充1和0，属性值为1表示有连接，属性值为0表示无连接。由于没有自环，因此邻接矩阵408的对角线的值为0。

使用相似性度量确定连接两个节点404的边406是否存在。示例性实施例使用欧几里得距离和余弦相似性作为所述相似性度量。每个节点404为统一聚类特征向量402。按如下等式计算所述图中每两个节点之间的所述余弦相似性度量：

其中，A

可以使用如下等式计算两个节点404之间的所述欧几里得距离：

其中，A

如果两个节点404各自的统一聚类特征向量之间的余弦相似性cos(θ)大于预定阈值Th

示例性实施例可以施加自环边，即将1加到节点404的边406，其自身包括在等式(1)的计算中。示例性实施例可以执行归一化方法，这种方法将输入数据更改为通用尺度以在训练期间更快地收敛。归一化方法可以是批归一化、层归一化、组归一化或其它归一化方法。在一些示例中，所述激活函数是线性函数，例如二元阶跃、整流线性单元(rectifiedlinear unit，ReLU)、漏泄ReLU、恒等、随机ReLU；而在其它示例中，所述激活函数是非线性函数，例如sigmoid、阶跃、tanh、swish、平方根倒数单元(inverse square root unit，ISRU)、softplus、非线性平方、线性平方根倒数、指数线性单元以及其它类型的非线性函数。

GCNN 210的训练调整每层l的参数(权重W

输出是矩阵Y，指示每个节点404成为训练数据集中目标实例标签的实例标签之一的可能性。在训练过程中，从训练数据集中获取目标(真实)实例标签，其中，训练数据集中的点云的每个点都具有实例标签。在训练过程中，每个节点404具有其点的实例标签。在推理过程中，GCNN 210预测每个节点的实例标签，并且点使用其各自预测节点的实例标签标记。

边分类

示例性实施例使用监督学习算法来训练GCNN 210进行边分类以预测每个边406的属性是为1(存在连接)还是为0(不存在连接)。换言之，GCNN 210判定两个节点404之间的边406是否存在。在训练过程中，图410的节点404的表示方式与上述节点分类中图410的节点404的表示方式相同(即，每个节点为统一聚类特征向量402)。表示为邻接矩阵408的边406具有每两个节点404的余弦相似性值(如在等式(2)中计算的)和欧几里得相似性值(如在等式(3)中计算的)。按如上所述训练GCNN 210，其中，节点404和邻接矩阵408用作输入。GCNN210的输出是矩阵Y，指示节点404及其各自的预测边406；Y与邻接矩阵408的格式相同。将输出Y与真实邻接矩阵408进行比较，指示从训练数据集中获取的节点404之间的关系。目标输出是真实邻接矩阵408。它与输出Y进行比较。此外，确定并反向传播所述交叉熵损失，以更新所述权重。

在推理过程中，GCNN 210预测每两个节点404之间的每个边406的属性。通过所述GCNN预测的边406连接在一起的节点404分配有实例标签。点使用其各自节点的实例标签标记。

图5是一个示例性实施例提供的用于训练实例分割的示例性方法的流程图。实例分割方法500接收标记有语义标签的点云的点，对于实例分割122考虑things类别的所述点，并过滤掉stuff类别的所述点502。方法500应用聚类方法以将所述点云划分为聚类。每个点聚类包括多个点，并且每个点至少具有其空间坐标和该点的语义标签504。点聚类可以具有不同数量的点；因此，方法500将所述点云中的n个聚类中的每个点聚类的所述多个点编码为大小为1×k的统一聚类特征向量，生成总共n个统一聚类特征向量506。

然后，方法500将所述统一聚类特征表示为包括节点和边的图，使得每个统一聚类特征向量402是所述图的节点404，并且将所述图的边406(表示所述节点之间的关系)表示为邻接矩阵508。对于节点分类，使用基于每两个节点之间的相似性度量的准则确定所述邻接矩阵。对于边分类，使用相似性度量的值确定所述邻接矩阵。

节点404(携带所述统一聚类特征向量的数据)和邻接矩阵408被馈送以训练GCNN210，从而预测节点的实例标签或边的属性，这取决于训练GCNN 210是进行节点404分类还是进行边406分类。通过训练，GCNN 210可以更新GCNN 210的权重和偏置，以学习预测每个节点404的目标实例标签或每个边的目标属性，这取决于训练GCNN 210是进行节点404分类还是进行边406分类510。GCNN 210预测每个节点404的实例标签或每个边406的边属性。每个节点的所述实例标签或每个边的所述边属性分别与训练数据集中的真实节点404实例标签或边406属性进行比较，这取决于训练GCNN 210是进行节点404分类还是进行边406分类。在GCNN 210经过最佳训练之前，计算并反向传播损失，更新GCNN 210的所述权重和所述偏置。

图6是示例性实施例提供的用于图表示和GCNN进行基于图的全景分割的示例性推理方法的流程图。在训练过程中，GCNN 210获知适当的权重和偏置。GCNN 210在经过最佳训练时可以用于执行给定的推理任务。示例性实施例描述了一种方法600，方法600用于执行推理以对节点404进行分类，预测其实例标签。其它示例性实施例描述了一种方法，该方法用于执行推理以对边406进行分类，预测节点404之间的边406的属性。预测类型取决于GCNN210通过训练是用于进行节点404分类还是用于进行边406分类。推理方法600接收things类别的点的每个聚类的统一聚类特征向量402以及stuff类别的具有语义标签的点602，并在框604处将每个统一聚类特征向量402表示为图410的节点404。方法600在框606处确定描述图410的所述边的邻接矩阵408。如上所述，确定邻接矩阵408用于进行节点404分类或边406分类。对于节点分类，使用基于每两个节点之间的相似性度量的准则确定所述邻接矩阵。对于边分类，使用相似性度量的值确定所述邻接矩阵。所述方法使用经过训练的权重和偏置将GCNN 210的所述输入(节点和邻接矩阵)传播到所述输出。

如果GCNN 210用于对节点404进行分类，则GCNN 210预测每个节点404的实例标签。然后，方法600对具有相同实例标签的所有节点404进行分组，并将预测的实例标签分配给它们各自的点云。

如果GCNN 210用于对边406进行分类，则GCNN 210预测每两个节点之间的所述边的所述属性。推理中的GCNN 210对每个边406进行分类以确定其是否存在608。通过GCNN210预测的边406连接在一起的节点404分配有实例标签。与每个节点404相关联的点使用其各自节点的实例标签标记。

本发明公开的方法可以由处理系统100执行的子系统模块、例程或软件的子例程执行。用于执行所述方法的所述步骤的软件的编码也在本领域普通技术人员关于所述方法的可理解范围内。用于基于图的全景分割的所述方法包含的步骤可以多于或少于所示和描述的步骤，并且这些步骤可以按照不同的顺序执行。可由处理系统100的处理器执行的计算机可读指令可以存储在所述处理系统的存储器118或计算机可读介质中。需要强调的是，除非另有说明，否则所述方法的所述步骤不需要按照所示的确切顺序执行；同样地，所述方法的各个步骤可以并行执行，而不是按顺序执行。

可以理解的是，本发明所述的用于基于图的全景分割的方法一旦实现，就可以由处理系统100以全自动方式执行，由于这无需手动交互，因此方便用户使用。

所属领域的技术人员应当理解，为了描述的方便和简洁，上述系统、装置和单元的具体工作过程，可以参考上述方法实施例中的相应过程，在此不再赘述。

在所描述的几个实施例中，应理解，所公开的系统和方法可以通过其它方式实现。例如，所描述的系统实施例仅为示例。此外，可以将单元或组件组合或集成到另一系统中，或可以忽略或不执行部分特征。此外，所显示或讨论的相互耦合或直接耦合或通信连接可以通过一些接口实现。系统或单元之间的间接耦合或通信连接可以以电子、机械或其它形式实现。

本发明可以在不脱离权利要求书的主题的情况下以其它特定形式体现。所描述的示例性实施例在所有方面均被视为仅是说明性的而非限制性的。可以对上述一个或多个实施例中的选定特征进行组合，以创建未明确描述的替代实施例，适合此类组合的特征均理解为落入本发明的范围内。

还公开了所公开范围内的所有值和子范围。此外，虽然本文所公开和示出的系统、设备和过程可以包括特定数量的元件/组件，但是可以修改这些系统、设备和组件以包括更多或更少此类元件/组件。例如，虽然所公开的任何元件/组件可以为单个数量，但是可以修改本文所公开的实施例以包括多个此类元件/组件。本文所述的主题意在涵盖和包括技术上的所有合适更改。

作为分离部件描述的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，可以位于一个地方，或者也可以分布在多个网络单元上。可以根据实际需求选择其中的部分或者全部单元来实现实施例方案的目的。

另外，示例性实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

当这些功能以软件功能单元的形式实现并作为独立的产品销售或使用时，它们可以存储在存储介质中，包括若干指令用于指示计算机设备(可以是个人计算机、服务器或网络设备)执行本申请实施例中描述的方法的全部或部分步骤。上述存储介质包括任何可以存储程序代码的介质，例如通用串行总线(universal serial bus，USB)闪存盘、可移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁盘或光盘等等。

以上所述仅为具体实现方式，而非旨在限制保护范围。本领域技术人员在技术范围内可轻易想到的任意变化或替代均属于保护范围。因此，保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载