掌桥专利:专业的专利平台
掌桥专利
首页

一种基于稀疏专家混合模型的点云处理方法与系统

文献发布时间:2024-04-18 19:58:26


一种基于稀疏专家混合模型的点云处理方法与系统

技术领域

本发明实施例涉及计算机视觉技术领域,尤其涉及一种基于稀疏专家混合模型的点云处理方法与系统。

背景技术

点云是由大量的三维点坐标组成的数据集,用于表示物体或场景的空间几何结构。通过对点云进行处理和分析,可以实现点云在三维建模、场景理解、非接触测量和医学图像处理等领域中的应用。对点云进行处理的传统方式是采用密集型网络结构将点云数据转换为图像或体素表示形式,然后应用卷积神经网络(CNN)等模型进行处理。但是使用上述传统的密集型网络结构在增加模型容量时会显著提高计算量,且会降低通用模型的效率、增加计算成本。

因此,目前在点云领域出现了一些专门针对点云数据的深度学习模型,例如稀疏混合专家模型(Mixture of Experts,MoE)通过引入专家网络和门控网络能够更好地利用点云数据的局部和全局特征,但是现有的稀疏MoE架构应用至点云领域中时存在以下问题:

(1)稀疏MoE架构为了降低计算复杂性和存储需求,通常需要对点云进行下采样,从而减少点的数量。但是下采样可能会导致丢失关键的点云局部信息。

(2)由于点云数据的数据稀疏性、高维度性、训练样本不足等问题,导致在数据量较小的点云领域中难以有效训练MoE网络、使得点云处理效果较差。

发明内容

有鉴于此,本发明实施例提供一种基于稀疏专家混合模型的点云处理方法与系统、电子设备及计算机存储介质,以至少部分解决上述问题。

根据本发明实施例的第一方面,提供了一种基于稀疏专家混合模型的点云处理方法,包括通过点云分词器将原始点云映射为高维特征;将高维特征输入至主干网络中;通过主干网络对高维特征进行多次特征提取,得到目标点云特征;根据下游任务的下游任务头对目标点云特征进行解码,得到对应下游任务的预测信息。

在一种实现方式中,通过点云分词器将原始点云映射为高维特征,包括通过最远点采样算法在原始点云中采样N个点;将N个点中的每个点作为中心对邻近点进行聚合,生成N组点云;通过多层感知机网络将N组点云中每组点云的点云信息映射至高维特征空间,得到每组点云的点云信息的高维特征。

在另一种实现方式中,主干网络包括两个Transformer Block子网络、一个MoEBlock子网络及一个MoMSE Block子网络。

在另一种实现方式中,通过主干网络对高维特征进行多次特征提取,得到目标点云特征,包括以下步骤:

步骤a:

(1)基于两个Transformer Block子网络的第一多头自注意力模块和第一前馈神经网络模块,对高维特征进行两层更新,得到更新的高维特征;

(2)通过一个MoE Block子网络中的第二多头自注意力模块,对更新的高维特征进行再次更新,得到进一步更新的高维特征;

(3)通过一个MoE Block子网络中的分发模块,对进一步更新的高维特征进行均匀分组及权重计算,得到n组进一步更新的高维特征及n组进一步更新的高维特征中每个进一步更新的高维特征的权重值;

(4)通过一个MoE Block子网络中的第二前馈神经网络模块对n组进一步更新的高维特征进行再次更新,得到一个MoE Block子网络输出的n组输出高维特征,其中,针对n组进一步更新的高维特征中的每组进一步更新的高维特征,第二前馈神经网络模块的架构一致、参数不一致。

步骤b:

(1)将步骤a得到的n组输出高维特征分别输入至一个MoMSE Block子网络;

(2)通过一个MoMSE Block子网络中的第三多头自注意力模块和第三前馈神经网络模块依次对n组输出高维特征进行更新,得到更新后的n组输出高维特征,其中,针对n组输出高维特征,第三多头自注意力模块和第三前馈神经网络模块的架构一致、参数不一致;

(3)基于步骤a得到的权重值,对特征提取过程中所有的高维特征进行加权求和,并将每个高维特征保持在特征提取过程中的初始位置处。

步骤c:将步骤a、b重复进行三次,以得到目标点云特征。

根据本发明实施例的第二方面,提供了一种基于稀疏专家混合模型的点云处理系统,包括映射模块,用于通过点云分词器将原始点云映射为高维特征;输入模块,用于将高维特征输入至主干网络中;提取模块,用于通过主干网络对高维特征进行多次特征提取,得到目标点云特征;解码模块,用于根据下游任务的下游任务头对目标点云特征进行解码,得到对应下游任务的预测信息。

根据本发明实施例的第三方面,提供了一种电子设备,包括处理器、存储程序的存储器。其中,程序包括指令,指令在由处理器执行时使处理器执行如第一方面的方法的步骤。

根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的方法。

综上,在本发明实施例的方案中,通过点云分词器将原始点云映射为高维特征,通过主干网络对高维特征进行多次特征提取,得到目标点云特征,根据下游任务的下游任务头对目标点云特征进行解码,得到对应下游任务的预测信息,本发明方案在具有相同容量的模型中计算效率更高,训练得到的模型对点云的感知能力和理解能力更强,避免关键的点云局部信息丢失,进而提高了预测准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本发明一实施例的基于稀疏专家混合模型的点云处理方法的步骤流程图。

图2为本发明另一实施例的基于稀疏专家混合模型的点云处理方法的整体框架图。

图3为本发明另一实施例的基于稀疏专家混合模型的点云处理系统的结构框图。

图4为根据本发明另一实施例的一种电子设备的结构示意图。

具体实施方式

为了对本申请实施例的技术特征、目的和效果有更加清楚的理解,现对照附图说明本申请实施例的具体实施方式。

在本文中,“示例性地”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。

为使图面简洁,各图中只示意性地表示出了与本申请相关的部分,它们并不代表其作为产品的实际结构。另外,为使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个或多个,或仅标示出了其中的一个或多个。

另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。

为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

参见图1为本发明一实施例的基于稀疏专家混合模型的点云处理方法的步骤流程图,主要包括:

步骤S110,通过点云分词器将原始点云映射为高维特征。

应理解,在点云处理中,原始点云通常是由大量的离散点组成的,每个点包含位置信息和其他属性。点云分词器的作用是将原始点云划分为多个组,将相邻的点聚合在一起形成组,以减少点云数据的复杂性,提取出一些局部区域的特征。

步骤S120,将高维特征输入至主干网络中。

步骤S130,通过主干网络对高维特征进行多次特征提取,得到目标点云特征。

通过主干网络对高维特征进行多次迭代的计算和优化,可以提取出更具有表征性和判别性的点云特征,为后续的下游任务提供更好的输入。

步骤S140,根据下游任务的下游任务头对目标点云特征进行解码,得到对应下游任务的预测信息。

下游任务头是根据具体的应用需求设计的模块,例如分类、分割、目标检测或配准等任务。该步骤利用已经经过优化的点云特征作为输入,通过相应的解码网络结构,将目标点云特征映射为下游任务所需的预测信息。

综上,在本发明实施例的方案中,通过将原始点云转化为高维特征、进行多次特征提取和优化,以及根据具体的下游任务进行解码和预测这些步骤的协同作用,可以实现对点云数据的高效处理和更精准的任务完成,使得本发明方案在具有相同容量的模型中计算效率更高,训练得到的模型对点云的感知能力和理解能力更强,避免关键的点云局部信息丢失,预测准确率更高。

在一种实现方式中,通过点云分词器将原始点云映射为高维特征,包括通过最远点采样算法在原始点云中采样N个点;将N个点中的每个点作为中心对邻近点进行聚合,生成N组点云;通过多层感知机网络将N组点云中每组点云的点云信息映射至高维特征空间,得到每组点云的点云信息的高维特征。

在另一种实现方式中,主干网络包括两个Transformer Block子网络、一个MoEBlock子网络及一个MoMSE Block子网络。

在另一种实现方式中,参见图2,通过主干网络对高维特征进行多次特征提取,得到目标点云特征,包括以下步骤:

步骤a:

(1)基于两个Transformer Block子网络的第一多头自注意力模块和第一前馈神经网络模块,对高维特征进行两层更新,得到更新的高维特征;

(2)通过一个MoE Block子网络中的第二多头自注意力模块,对更新的高维特征进行再次更新,得到进一步更新的高维特征;

(3)通过一个MoE Block子网络中的分发模块,对进一步更新的高维特征进行均匀分组及权重计算,得到n组进一步更新的高维特征及n组进一步更新的高维特征中每个进一步更新的高维特征的权重值;

(4)通过一个MoE Block子网络中的第二前馈神经网络模块对n组进一步更新的高维特征进行再次更新,得到一个MoE Block子网络输出的n组输出高维特征,其中,针对n组进一步更新的高维特征中的每组进一步更新的高维特征,第二前馈神经网络模块的架构一致、参数不一致。

步骤b:

(1)将步骤a得到的n组输出高维特征分别输入至一个MoMSE Block子网络;

(2)通过一个MoMSE Block子网络中的第三多头自注意力模块和第三前馈神经网络模块依次对n组输出高维特征进行更新,得到更新后的n组输出高维特征,其中,针对n组输出高维特征,第三多头自注意力模块和第三前馈神经网络模块的架构一致、参数不一致;

(3)基于步骤a得到的权重值,对特征提取过程中所有的高维特征进行加权求和,并将每个高维特征保持在特征提取过程中的初始位置处。

步骤c:将步骤a、b重复进行三次,以得到目标点云特征。

示例性地,结合图1和图2对本发明方法的实施步骤进行具体描述,对给定的一个原始点云P和下游任务T,实施步骤包括:

1、首先通过点云分词器(Point Tokenizer)将点云映射为高维特征:

使用最远点采样算法(Farthest Point Sampling,FPS)在原始点云P中采样N个点,并以其中的每个点作为中心聚合其邻近点,形成N个组,即生成N组点云;

使用一个基于深度学习的多层感知机网络(Multi-layer perceptron,MLP)将每个组的点云信息映射至高维特征空间,得到每个组的点云信息的高维特征。

2、然后将高维特征输入至主干网络中,通过主干网络对高维特征进行多次特征提取,得到目标点云特征:

应当说明,主干网络包括两个Transformer Block子网络、一个MoE Block子网络及一个MoMSE Block子网络;

输入主干网络的高维特征在经过两层标准Transformer Block的更新后,将其输入至MoE模块中,MoE模块包括一个MoE Block子网络及一个MoMSE Block子网络;

两层标准Transformer Block的更新具体为:基于两个Transformer Block子网络的第一多头自注意力模块MHSA

MoE模块中:

通过一个MoE Block子网络中的第二多头自注意力模块MHSA

通过一个MoE Block子网络中的分发模块Router,对进一步更新的高维特征进行均匀分组及权重计算,得到n组进一步更新的高维特征及所述n组进一步更新的高维特征中每个进一步更新的高维特征的权重值;

通过一个MoE Block子网络中的第二前馈神经网络模块FFN

将前述步骤得到的n组输出高维特征分别输入至一个MoMSE Block子网络,通过一个MoMSE Block子网络中的第三多头自注意力模块MHSA

基于前述步骤得到的权重值,对特征提取过程中所有的高维特征进行加权求和,并将每个高维特征保持在特征提取过程中的初始位置处,即处理完成后的每个高维特征都放回其在图2中原本的位置;

重复进行三次前述步骤,得到经过充分优化的点云特征即:目标点云特征。

3、得到目标点云特征后,使用不同的下游任务的下游任务头(Head)即可将目标点云特征进行解码成对应所述下游任务的预测信息。

综上,在本发明实施例的方案中,通过将原始点云转化为高维特征、进行多次特征提取和优化,以及根据具体的下游任务进行解码和预测这些步骤的协同作用,可以实现对点云数据的高效处理和更精准的任务完成,使得本发明方案在具有相同容量的模型中计算效率更高,结合局部和全局的几何结构信息进行表征学习,使模型对点云的感知能力和理解能力更强,避免了关键的点云局部信息丢失,预测准确率更高。

参见图3为本发明另一实施例的基于稀疏专家混合模型的点云处理系统的结构框图,包括:

映射模块310,用于通过点云分词器将原始点云映射为高维特征。

输入模块320,用于将高维特征输入至主干网络中。

提取模块330,用于通过主干网络对高维特征进行多次特征提取,得到目标点云特征。

解码模块340,用于根据下游任务的下游任务头对目标点云特征进行解码,得到对应下游任务的预测信息。

综上,在本发明实施例的方案中,通过将原始点云转化为高维特征、进行多次特征提取和优化,以及根据具体的下游任务进行解码和预测这些步骤的协同作用,可以实现对点云数据的高效处理和更精准的任务完成,使得本发明方案在具有相同容量的模型中计算效率更高,训练得到的模型对点云的感知能力和理解能力更强,避免关键的点云局部信息丢失,预测准确率更高。

本实施例的系统用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的系统中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。

根据本发明实施例的另一方面,提供了一种电子设备,参见图4,现将描述可以作为本申请的服务器或客户端的电子设备400的结构框图,其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

该电子设备400可以包括:处理器(processor)402、通信接口(CommunicationsInterface)404、存储器(memory)406、以及通信总线408。

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它电子设备或服务器进行通信。

处理器402,用于执行程序410,具体可以执行上述方法实施例中的相关步骤。

具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。

处理器402可能是处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。

存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行以下操作:通过点云分词器将原始点云映射为高维特征;将高维特征输入至主干网络中;通过主干网络对高维特征进行多次特征提取,得到目标点云特征;根据下游任务的下游任务头对目标点云特征进行解码,得到对应下游任务的预测信息。

此外,程序410中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。

需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。

本发明示例性实施例还提供一种存储有计算机程序的计算机存储介质,其中,计算机程序被处理器执行时实现本发明各实施例的方法。

上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

相关技术
  • 基于稀疏混合专家网络预训练的多模态遥感图像处理方法
  • 基于物体空间特征的稀疏点云处理方法、系统、设备及介质
技术分类

06120116488757