掌桥专利:专业的专利平台
掌桥专利
首页

利用2D预训练模型作为3D下游任务主干网络的方法及系统

文献发布时间:2023-06-19 18:37:28


利用2D预训练模型作为3D下游任务主干网络的方法及系统

技术领域

本申请实施例涉及人工智能技术领域,特别涉及一种利用2D预训练模型作为3D下游任务主干网络的方法及系统。

背景技术

目前3D通用大模型受到国内外越来越多的关注,该技术在自动驾驶,机器人等领域有非常大的价值。通用3D大模型中的核心技术就是研发一个具有丰富知识的3D预训练模型,利用该3D预训练模型,可以大大节省下游任务的部署时间,节约人工智能在行业中应用的开发成本。当然3D预训练的方法主要有两类:基于生成的方法以及基于对比学习的方法。

以上两类方法都需要大规模3D数据才能获得具有丰富知识的3D预训练模型。然而,3D数据的获取较为昂贵,3D数据稀少,获得具有丰富知识的3D预训练模型异常困难。因此,由于3D领域的数据量少,不足以训练一个具有丰富知识的预训练模型,需提出一种预训练模型以解决3D下游任务。

发明内容

本申请实施例提供一种利用2D预训练模型作为3D下游任务主干网络的方法及系统,解决现有的3D预训练的方法中由于3D领域的数据量少导致的难以获得具有丰富知识的预训练模型的问题。

为解决上述技术问题,第一方面,本申请实施例提供一种利用2D预训练模型作为3D下游任务主干网络的方法,包括:首先,将点云映射为高维特征;然后,设定若干个任务符号,将任务符号与高维特征拼接为一体,得到拼接数据;接下来,将拼接数据输入至2D预训练模型的主干网络中,对高维特征进行更新,得到更新的点云特征;基于更新的点云特征,对更新的点云特征进行解码,得到预测信息。

一些示例性实施例中,采用点云分词器将点云映射为高维特征,或,采用卷积神经网络将点云映射为高维特征。

一些示例性实施例中,将点云映射为高维特征,包括:首先,在原始点云中采样N个点,并以每个点作为中心聚合其邻近点,形成N个组;然后,将每个组的信息映射至高维特征空间,得到每个组的高维特征。

一些示例性实施例中,采用最远点采样算法在原始点云中采样。

一些示例性实施例中,采用基于深度学习的多层感知机网络将每个组的信息映射至高维特征空间。

一些示例性实施例中,采用下游任务头对更新的点云特征进行解码。

第二方面,本申请实施例提供了一种利用2D预训练模型作为3D下游任务主干网络的系统,包括依次连接的采样模块、拼接模块、数据更新模块以及解码模块;采样模块用于将点云映射为高维特征;拼接模块包括若干个任务符号;拼接模块用于将任务符号与高维特征拼接为一体,得到拼接数据;数据更新模块包括2D预训练模型,数据更新模块用于以拼接数据作为2D预训练模型的输入,对高维特征进行更新,得到更新的点云特征;解码模块包括下游任务头,下游任务用于根据更新的点云特征,对更新的点云特征进行解码,得到预测信息。

一些示例性实施例中,采样模块包括点云分词器,采用点云分词器将点云映射为高维特征;或,采样模块包括卷积神经网络,采用卷积神经网络将点云映射为高维特征。

另外,本申请还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述利用2D预训练模型作为3D下游任务主干网络的方法。

另外,本申请还提供了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述利用2D预训练模型作为3D下游任务主干网络的方法。

本申请实施例提供的技术方案至少具有以下优点:

本申请实施例提供一种利用2D预训练模型作为3D下游任务主干网络的方法及系统,该方法包括:首先,将点云映射为高维特征;然后,设定若干个任务符号,将任务符号与高维特征拼接为一体,得到拼接数据;接下来,将拼接数据输入至2D预训练模型的主干网络中,对高维特征进行更新,得到更新的点云特征;基于更新的点云特征,对更新的点云特征进行解码,得到预测信息。本申请实施例提供的利用2D预训练模型作为3D下游任务主干网络的方法,将任务符号作为输入,输入至2D预训练模型的主干网络,且本申请不需要经过3D预训练就能够获得丰富的知识,以解决3D下游任务。此外,本申请提供的利用2D预训练模型作为3D下游任务主干网络的方法,仅需要训练一个点云分词器、任务符号以及下游任务头,就能实现利用2D预训练模型来解决3D下游任务节省了大量的预训练成本,节省了3D训练数据采集的成本。同时,该方法不需要进行3D预训练方法的研究,大大节省了研发的成本。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,除非有特别申明,附图中的图不构成比例限制。

图1为本申请一实施例提供的一种利用2D预训练模型作为3D下游任务主干网络的方法的流程示意图;

图2为本申请一实施例提供的一种利用2D预训练模型作为3D下游任务主干网络的方法的流程框架示意图;

图3为本申请一实施例提供的一种利用2D预训练模型作为3D下游任务主干网络的系统的流程示意图;

图4为本申请另一实施例提供的一种利用2D预训练模型作为3D下游任务主干网络的系统的流程示意图;

图5为本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

由背景技术可知,目前现有的利用2D预训练模型作为3D下游任务主干网络的方法由于3D领域的数据量少导致难以获得具有丰富知识的预训练模型的问题。

现有的3D预训练的方法主要包括两类,一是基于生成的方法,二是基于对比学习的方法。基于生成的方法主要是通过丢弃一部分原始3D数据,然后通过神经网络将丢失的部分进行补全。或者是将原始点云编码为高维特征,然后基于该特征解码为原始点云,在这个以补全和编码解码的过程,实现对主干网络进行预训练。基于对比学习的方法通过利用原始3D数据内部的局部和全局特征进行对比,在对比的过程中,利用结构信息的共性指导主干网络进行学习。以上两类方法都需要大规模3D数据才能获得具有丰富知识的3D预训练模型。然而,3D数据的获取较为昂贵,3D数据稀少,获得具有丰富知识的3D预训练模型异常困难。

为了解决这一问题,本申请提出利用具有丰富知识的2D预训练模型,来解决3D下游任务。本申请实施例提供一种利用2D预训练模型作为3D下游任务主干网络的方法,包括:首先,将点云映射为高维特征;然后,设定若干个任务符号,将任务符号与高维特征拼接为一体,得到拼接数据;接下来,将拼接数据输入至2D预训练模型的主干网络中,对高维特征进行更新,得到更新的点云特征;基于更新的点云特征,对更新的点云特征进行解码,得到预测信息。本申请通过提出一个利用具有丰富知识的2D预训练模型,来解决3D下游任务。本申请实施例提供的利用2D预训练模型作为3D下游任务主干网络的方法,一方面,可以不需要经过3D预训练就能够获得丰富的知识,以解决3D下游任务;另一方面,节省了大量的预训练成本,节省了3D训练数据采集的成本。同时,该方法不需要进行3D预训练方法的研究,大大节省了研发的成本。

下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。

参看图1,本申请实施例提供了一种利用2D预训练模型作为3D下游任务主干网络的方法,包括以下步骤:

步骤S1、将点云映射为高维特征。

步骤S2、设定若干个任务符号,将任务符号与高维特征拼接为一体,得到拼接数据。

步骤S3、将拼接数据输入至2D预训练模型的主干网络中,对高维特征进行更新,得到更新的点云特征。

步骤S4、基于更新的点云特征,对更新的点云特征进行解码,得到预测信息。

本申请实施例提供的利用2D预训练模型作为3D下游任务主干网络的方法,可直接应用于3D点云中基于深度学习的常见下游任务,如分类、分割、目标检测和配准等。

下面结合图2对本申请提供的利用2D预训练模型作为3D下游任务主干网络的方法进行具体说明。

如图2所示,给定一个点云P和下游任务T,主要的实施步骤如下:

首先,执行步骤S1,采用点云分词器(Point Tokenizer)将点云映射为高维特征。

具体而言,首先使用最远点采样(Farthest Point Sampling,FPS)算法在原始点云P中采样N个点,并以其中的每个点作为中心聚合其邻近点,形成N个组。随后使用一个基于深度学习的多层感知机网络(Multi-layer perceptron,MLP)将每个组的信息映射至高维特征空间,得到每个组的高维特征。

接下来,执行步骤S2:设定若干个任务符号(Task Token),将任务符号与高维特征拼接为一体,得到拼接数据。由于输入的数据为3D点云,而主干网络是在2D图像数据中进行预训练,为了减小数据模态差异带来的影响,本申请将一些可学习的任务符号(TaskToken)与步骤S1中得到的N个高维特征拼接在一起,在后续的步骤中达到动态调整点云特征的目的。

然后,执行步骤S3,将步骤S2中得到的拼接数据输入至2D预训练模型的主干网络中,完成对点云特征的更新。

最后,执行步骤S4,在得到步骤S3中的更新后的点云特征后,使用不同的下游任务头(Head)即可将更新后的点云特征解码成所需的预测信息。

在一些实施例中,采用点云分词器将点云映射为高维特征,或,采用卷积神经网络将点云映射为高维特征。也就是说,在步骤S1中可以采用点云分词器(Point Tokenizer),也可以采用卷积神经网络将点云映射为高维特征,点云分词器可使用卷积神经网络进行替换。

另外,任务符号(Task Token)可使用Prompts和Adapter等方法替代,本申请对此不做限定。

在一些实施例中,前面提到,步骤S1中将点云映射为高维特征,具体包括:首先,在原始点云中采样N个点,并以每个点作为中心聚合其邻近点,形成N个组;然后,将每个组的信息映射至高维特征空间,得到每个组的高维特征。

在一些实施例中,采用最远点采样算法在原始点云中采样。在步骤S1中,可以使用最远点采样(Farthest Point Sampling,FPS)算法在原始点云P中采样N个点,并以其中的每个点作为中心聚合其邻近点,形成N个组。

在一些实施例中,采用基于深度学习的多层感知机网络将每个组的信息映射至高维特征空间。在步骤S1中,在采用最远点采样算法在原始点云中采样,形成N个组之后,使用一个基于深度学习的多层感知机网络(Multi-layer perceptron,MLP)将每个组的信息映射至高维特征空间,得到每个组的高维特征。

在一些实施例中,采用下游任务头对更新的点云特征进行解码。在得到更新的点云特征之后,步骤S4中使用不同的下游任务头(Head)即可将更新的点云特征解码成所需的预测信息。

参看图3,本申请实施例提供了一种利用2D预训练模型作为3D下游任务主干网络的系统,包括依次连接的采样模块101、拼接模块102、数据更新模块103以及解码模块104;采样模块101用于将点云映射为高维特征;拼接模块102包括若干个任务符号1021;拼接模块102用于将任务符号1021与高维特征拼接为一体,得到拼接数据;数据更新模块103包括2D预训练模型1031,数据更新模块103用于以拼接数据作为2D预训练模型1031的输入,对高维特征进行更新,得到更新的点云特征;解码模块104包括下游任务头1041,下游任务1041用于根据更新的点云特征,对更新的点云特征进行解码,得到预测信息。

在一些实施例中,如图3所示,采样模块101包括点云分词器1011,采用点云分词器1011将点云映射为高维特征;或,如图4所示,采样模块101包括卷积神经网络1012,采用卷积神经网络1012将点云映射为高维特征。

本申请实施例提供的利用2D预训练模型作为3D下游任务主干网络的系统,包括点云分词器1011、任务符号1021、2D预训练模型1031和下游任务头1041,本申请通过提出一个利用2D预训练模型解决3D下游任务的系统框架,不需要经过3D预训练就能够获得丰富的知识,就可以解决3D下游任务。此外,本申请提出一个任务符号,将任务符号作为输入,输入至2D预训练模型的主干网络,以减小数据模态差异带来的影响。本申请将一些可学习的任务符号(Task Token)与N个高维特征拼接在一起,在后续的步骤中还能够达到动态调整点云特征的目的。

本申请实施例提供的利用2D预训练模型作为3D下游任务主干网络的方法及系统,一是节省了大量的预训练成本,二是节省了3D训练数据采集的成本,三是大大节省了研发的成本,由于该方法不需要进行3D预训练方法的研究,因此节省了研发成本。

另外,本申请实施例提供的利用2D预训练模型作为3D下游任务主干网络的方法,经过了实验验证,并证明了该方法不需要经过3D预训练,下游任务的精度就能获得比3D预训练模型更好的性能,且能够实现3D与2D模态进行对齐。

参考图5,本申请另一实施例提供了一种电子设备,包括:至少一个处理器110;以及,与至少一个处理器通信连接的存储器111;其中,存储器111存储有可被至少一个处理器110执行的指令,指令被至少一个处理器110执行,以使至少一个处理器110能够执行上述任一方法实施例。

其中,存储器111和处理器110采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器110和存储器111的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器110处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器110。

处理器110负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器111可以被用于存储处理器110在执行操作时所使用的数据。

本申请另一实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

由以上技术方案,本申请实施例提供一种利用2D预训练模型作为3D下游任务主干网络的方法及系统,该方法包括:首先,将点云映射为高维特征;然后,设定若干个任务符号,将任务符号与高维特征拼接为一体,得到拼接数据;接下来,将拼接数据输入至2D预训练模型的主干网络中,对高维特征进行更新,得到更新的点云特征;基于更新的点云特征,对更新的点云特征进行解码,得到预测信息。本申请实施例提供的利用2D预训练模型作为3D下游任务主干网络的方法,将任务符号作为输入,输入至2D预训练模型的主干网络,且本申请不需要经过3D预训练就能够获得丰富的知识,以解决3D下游任务。此外,本申请提供的利用2D预训练模型作为3D下游任务主干网络的方法,仅需要训练一个点云分词器、任务符号以及下游任务头,就能实现利用2D预训练模型来解决3D下游任务节省了大量的预训练成本,节省了3D训练数据采集的成本。同时,该方法不需要进行3D预训练方法的研究,大大节省了研发的成本。

即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解,上述各实施方式是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各自更动与修改,因此本申请的保护范围应当以权利要求限定的范围为准。

技术分类

06120115638210