掌桥专利:专业的专利平台
掌桥专利
首页

一种三维预训练大模型参数高效型微调方法及系统

文献发布时间:2024-04-18 19:58:53


一种三维预训练大模型参数高效型微调方法及系统

技术领域

本申请实施例涉及三维预训练模型技术领域,特别涉及一种三维预训练大模型参数高效型微调方法及系统。

背景技术

三维预训练大模型的流行已经颠覆了传统三维领域下游任务的学习方式,通过在大规模3D数据集上进行无监督预训练,迁移到下游任务后获得相当可观的性能表现。

目前主流的方法是在适配到下游任务的时候将大模型的所有参数在原有基础上重新进行训练,这将会导致昂贵的计算资源消耗。在二维图像和语言处理领域,一些参数高效微调(Parameter-Efficient Fine-tuning)技术已经被提出,通过微调部分参数以最小化下游任务的适配成本并取得不错的性能表现。

现有的针对三维预训练模型提出的参数高效微调技术,仅从提示调节的角度进行了设计,忽略了三维领域特有的知识和参数高效微调技术的多样性,在参数量相对较多的情况下性能并没有得到良好的提升。因此,目前针对三维预训练大模型的专有高效微调框架仍有待开发。

发明内容

本申请实施例提供一种三维预训练大模型参数高效型微调方法及系统,在有效提升预训练模型性能的同时大大减少了可学习参数数量。

为解决上述技术问题,第一方面,本申请实施例提供了一种三维预训练大模型参数高效型微调方法,该方法包括以下步骤:首先,对三维点云数据进行分块并编码,形成点云令牌序列;然后,以下游任务训练数据集中的3D特征作为先验知识,构建点云先验库;并以点云令牌序列作为预训练模型的输入,在预训练模型的编码器模块中,将可学习提示令牌添加至所述点云令牌序列前,采用无参数的注意力机制,并结合点云先验库中的先验知识对所述可学习提示令牌进行增强,得到强化后的提示令牌;接下来,通过几何感知适配器对所述强化后的提示令牌进行聚类,并通过自注意力机制进行局部特征交互后,得到调整后的令牌;最后,将调整后的令牌输入下游任务头,得到预测输出。

在一些示例性实施例中,对三维点云数据进行分块并编码,形成点云令牌序列,包括以下步骤:首先,从原始点云中采样,得到子点云;然后,基于空间位置信息,将所述子点云分割为多个点云块;最后,对每个点云块进行编码,获取点云块的表征,形成点云令牌序列。

在一些示例性实施例中,通过随机采样或最远点采样的方式,从原始点云中采样部分点,得到子点云。

在一些示例性实施例中,每个点云块中包括固定数量的点。

在一些示例性实施例中,预训练模型包括多个编码器模块,每个编码器模块包括依次连接的自注意力层、前馈网络以及几何感知适配器;自注意力层和所述前馈网络用于探索点云中的全局形状信息和长程依赖性,增强特征表示的能力;几何感知适配器用于与自注意力层的长程依赖性达到互补,汇聚局部几何信息并抓取细粒度的三维结构。

在一些示例性实施例中,编码器模块由变形器网络结构构成。

在一些示例性实施例中,通过最远点采样和K近邻的方式对所述强化后的提示令牌进行聚类。

在一些示例性实施例中,下游任务训练数据集通过对三维下游数据集划分得到;所述三维下游数据集为下游三维场景任务的数据集。

第二方面,本申请实施例还提供了一种三维预训练大模型参数高效型微调系统,包括预训练模型,预训练模型包括依次连接的三维令牌嵌入模块、点云先验提示模块、几何感知适配器模块以及下游任务头;其中,三维令牌嵌入模块用于对三维点云数据进行分块并编码,形成点云令牌序列;点云先验提示模块用于以下游任务训练数据集中的3D特征作为先验知识,构建点云先验库;并以点云令牌序列作为预训练模型的输入,在预训练模型的编码器模块中,将可学习提示令牌添加至所述点云令牌序列前,采用无参数的注意力机制,并结合点云先验库中的先验知识对所述可学习提示令牌进行增强,得到强化后的提示令牌;几何感知适配器模块用于对所述强化后的提示令牌进行聚类,并通过自注意力机制进行局部特征交互后,得到调整后的令牌;下游任务头用于根据调整后的令牌,得到预测输出。

在一些示例性实施例中,上述三维预训练大模型参数高效型微调系统还包括:数据处理模块、验证与应用模块;所述数据处理模块的输出端与所述预训练模型的输入端连接;所述验证与应用模块的输入端与所述预训练模型的输出端连接;数据处理模块用于获取三维下游数据集,并对所述三维下游数据集进行拆分,分别得到下游任务训练数据集、下游任务测试数据集;验证与应用模块用于对所述预训练模型输出的预测结果进行验证,并将预测结果应用于三维下游任务。

本申请实施例提供的技术方案至少具有以下优点:

本申请实施例提供一种三维预训练大模型参数高效型微调方法及系统,该方法包括以下步骤:首先,对三维点云数据进行分块并编码,形成点云令牌序列;然后,以下游任务训练数据集中的3D特征作为先验知识,构建点云先验库;并以点云令牌序列作为预训练模型的输入,在预训练模型的编码器模块中,将可学习提示令牌添加至所述点云令牌序列前,采用无参数的注意力机制,并结合点云先验库中的先验知识对所述可学习提示令牌进行增强,得到强化后的提示令牌;接下来,通过几何感知适配器对所述强化后的提示令牌进行聚类,并通过自注意力机制进行局部特征交互后,得到调整后的令牌;最后,将调整后的令牌输入下游任务头,得到预测输出。

本申请提出了一种三维预训练大模型参数高效微调方法及系统,使用极少可学习参数来微调点云预训练模型,从而在各种下游任务上达到优于完全微调的效果。本申请通过探索如何有效地将下游三维语义融入预训练模型来达到高效微调。针对点云稀疏和不规则的特点,本申请提出点云先验提示模块,在每个转换器块前,本申请会在输入点云特征之前添加一组可学习的提示令牌,将下游知识注入预训练模型中。此外,本申请还提出几何感知适配器模块,插入在预训练的自注意力层和前馈网络之后,与预训练注意力层的长程依赖性达到互补,汇聚局部几何信息并抓取细粒度的三维结构。该方法冻结大多数的预训练参数,结合三维领域的特有知识和局部特征交互,仅对新增的模块和任务头在下游任务进行微调,证明具有更高的效率和性能。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,除非有特别申明,附图中的图不构成比例限制。

图1为本申请一实施例提供的一种三维预训练大模型参数高效型微调方法的流程示意图;

图2为本申请一实施例提供的一种三维预训练大模型参数高效型微调系统的模块结构图;

图3为本申请一实施例提供的一种三维预训练大模型参数高效型微调方法的架构流程图;

图4为本申请一实施例提供的预训练模型的框架流程示意图;

图5为本申请一实施例提供的几何感知适配器模块示意图;

图6为本申请一实施例提供的点云先验提示模块示意图;

图7为本申请一实施例提供的模型定量实验结果示意图;

图8为本申请一实施例提供的模型定性实验结果示意图。

具体实施方式

由背景技术可知,现有的针对三维预训练模型提出的参数高效微调技术,仅从提示调节的角度进行了设计,忽略了三维领域特有的知识和参数高效微调技术的多样性,在参数量相对较多的情况下性能并没有得到良好的提升。

在二维图像和语言处理领域,通过微调部分参数以最小化下游任务的适配成本并取得不错的性能表现。但是,目前针对三维预训练大模型的专有高效微调方法及系统仍有待开发。在计算机视觉领域,三维预训练大模型的目的是通过使用大量不具备人工标注的三维物体进行预训练并通过微调实现下游任务的知识迁移,克服了来自三维数据稀缺性的挑战。该方法可以在自动驾驶、机器人导航等领域中得到广泛应用。目前,三维领域的预训练方法可以分为两大类:基于对比学习的方法和基于点云重建的方法。

(1)基于对比学习的预训练方法:在三维领域由于大规模高质量标注数据集的缺失和统一骨干网络架构的缺失,在三维场景理解任务中对目标数据从头进行训练是主流方法,这导致对于不同的任务都需要针对性地重新设计网络结构并进行训练。基于对比学习的预训练方法利用数据增强(旋转,裁剪,翻转)等多种方式为一个实例数据生成多个不同的视图,主体网络架构使用常见的变形器网络,通过注意力机制来区分单个实例的不同视图与其他实例的视图。这种方法可以有效地利用损失函数来拉近属于同一个实例的不同视图的距离,并拉远不同实例间的距离,有效提高了网络架构在多个任务上的通用性能。但基于对比学习的预训练方法很有可能在缺乏预训练数据时达到过拟合,而无法带来合适的泛化性能。

(2)基于点云重建的预训练方法:基于点云重建的预训练方法是目前三维预训练的主流方向。类似于图像和语言特征,点云数据的部分结构可以呈现出局部特征,而完整的元素集可以构成全局特征。以此为出发点,预训练方法会先将输入点云分割成不规则的点云块,高比例地随机屏蔽点云块来减少数据冗余,并采用自动编码器重建与原始屏蔽内容相对应的显式特征(如像素)或隐式特征(如离散标记),这项重建任务使自动编码器能够从未屏蔽的数据内容学习到高级潜在特征。自动编码器主干采用非对称的编码器-解码器结构,都由变形器网络结构构成。编码器处理未屏蔽的点云块,然后将处理得到的结果和掩码标记一起输入到带有简单预测头的轻量级解码器来重建被屏蔽的点云。相较于基于对比学习的预训练方法,点云重建方法对数据依赖度会更低,并且在数据量少的时候能达到更好的性能和泛化能力。

目前大模型适配到下游任务的主流方法依旧是全面微调,这对于计算资源的消耗非常密集,由此参数高效微调(Parameter-Efficient Fine-tuning)方法被学者提出,通过冻结训练好的权重并引入新的可训练模块来解决这一挑战。参数高效微调技术包括适配器(Adapter),提示调节(Prompt Tuning),低秩适应(LoRA),偏差调节(Bias Tuning)和边调节(Side Tuning)。具体来说,适配器调节是在预训练模型的编码器层内插入额外的瓶颈形状的神经网络来学习特定任务的表示;提示调节通过在输入前添加自然语言提示或可学习的提示令牌(Prompt Token)来促进任务适配;LoRA技术采用低秩分解方法在每个块中学习适配矩阵;偏差调节仅通过将模型的偏置项设为可学习的来实现与全面微调相当的性能;边调节仅调整与预训练网络并行的轻量化模块网络。

现有技术中尽管有针对三维预训练模型提出参数高效微调技术,但仅从提示调节的角度进行了设计,忽略了三维领域特有的知识和参数高效微调技术的多样性,在参数量相对较多的情况下性能并没有得到良好的提升。现有的三维预训练模型参数高效微调技术主要有两点问题:首先都只是从单一的角度进行设计,例如从提示调节或者从适配器出发,其次忽视了三维领域特有的知识以及三维的特殊几何结构先验知识,而这对于提升模型在三维下游任务的性能是非常重要的。

为了解决上述技术问题,本申请提供一种三维预训练大模型参数高效型微调方法,包括以下步骤:首先,对三维点云数据进行分块并编码,形成点云令牌序列;然后,以下游任务训练数据集中的3D特征作为先验知识,构建点云先验库;并以点云令牌序列作为预训练模型的输入,在预训练模型的编码器模块中,将可学习提示令牌添加至所述点云令牌序列前,采用无参数的注意力机制,并结合点云先验库中的先验知识对所述可学习提示令牌进行增强,得到强化后的提示令牌;接下来,通过几何感知适配器对所述强化后的提示令牌进行聚类,并通过自注意力机制进行局部特征交互后,得到调整后的令牌;最后,将调整后的令牌输入下游任务头,得到预测输出。因此,本申请所提出的参数高效微调框架同时从多个技术设计出发,将预训练知识引入下游任务训练中,在保留全局交互的同时注重局部结构的特征交互,进一步减少可学习参数量并大大提高性能。

下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。

参看图1,本申请实施例提供了一种三维预训练大模型参数高效型微调方法,包括以下步骤:

步骤S1、对三维点云数据进行分块并编码,形成点云令牌序列。

步骤S2、以下游任务训练数据集中的3D特征作为先验知识,构建点云先验库;并以点云令牌序列作为预训练模型的输入,在预训练模型的编码器模块中,将可学习提示令牌添加至所述点云令牌序列前,采用无参数的注意力机制,并结合点云先验库中的先验知识对所述可学习提示令牌进行增强,得到强化后的提示令牌。

步骤S3、通过几何感知适配器对所述强化后的提示令牌进行聚类,并通过自注意力机制进行局部特征交互后,得到调整后的令牌。

步骤S4、将调整后的令牌输入下游任务头,得到预测输出。

本申请提出了一个用于三维预训练模型的参数高效微调方法及系统,探索如何有效地将下游三维语义融入预训练模型来达到高效微调。针对点云稀疏和不规则的特点,本申请提出点云先验提示模块。在每个转换器块前,本申请会在输入点云特征之前添加一组可学习的提示令牌,将下游知识注入预训练模型中。此外,本申请还提出几何感知适配器模块,插入在预训练的自注意力层和前馈网络之后,与预训练注意力层的长程依赖性达到互补,汇聚局部几何信息并抓取细粒度的三维结构。

在一些实施例中,对三维点云数据进行分块并编码,形成点云令牌序列,包括以下步骤:首先,从原始点云中采样,得到子点云;然后,基于空间位置信息,将所述子点云分割为多个点云块;最后,对每个点云块进行编码,获取点云块的表征,形成点云令牌序列。

在一些实施例中,通过随机采样或最远点采样的方式,从原始点云中采样部分点,得到子点云。

在一些实施例中,每个点云块中包括固定数量的点。

在一些实施例中,预训练模型包括多个编码器模块(也可称为编码器块),每个编码器模块包括依次连接的自注意力层(也可称为自注意层)、前馈网络以及几何感知适配器;自注意力层和所述前馈网络用于探索点云中的全局形状信息和长程依赖性,增强特征表示的能力;几何感知适配器用于与自注意力层的长程依赖性达到互补,汇聚局部几何信息并抓取细粒度的三维结构。

在一些实施例中,编码器模块由变形器网络结构构成。

在一些实施例中,通过最远点采样和K近邻的方式对所述强化后的提示令牌进行聚类。

在一些实施例中,下游任务训练数据集通过对三维下游数据集划分得到;所述三维下游数据集为下游三维场景任务的数据集。

参看图2,本申请实施例还提供了一种三维预训练大模型参数高效型微调系统,包括预训练模型,预训练模型包括依次连接的三维令牌嵌入模块101、点云先验提示模块102、几何感知适配器模块103以及下游任务头104;其中,三维令牌嵌入模块101用于对三维点云数据进行分块并编码,形成点云令牌序列;点云先验提示模块102用于以下游任务训练数据集中的3D特征作为先验知识,构建点云先验库;并以点云令牌序列作为预训练模型的输入,在预训练模型的编码器模块中,将可学习提示令牌添加至所述点云令牌序列前,采用无参数的注意力机制,并结合点云先验库中的先验知识对所述可学习提示令牌进行增强,得到强化后的提示令牌;几何感知适配器模块103用于对所述强化后的提示令牌进行聚类,并通过自注意力机制进行局部特征交互后,得到调整后的令牌;下游任务头104用于根据调整后的令牌,得到预测输出。

参看图3,在一些实施例中,上述三维预训练大模型参数高效型微调系统还包括:数据处理模块、验证与应用模块;数据处理模块的输出端与预训练模型的输入端连接;所述验证与应用模块的输入端与所述预训练模型的输出端连接;数据处理模块用于获取三维下游数据集,并对三维下游数据集进行拆分,分别得到下游任务训练数据集、下游任务测试数据集;验证与应用模块用于对所述预训练模型输出的预测结果进行验证,并将预测结果应用于三维下游任务。

本申请提供的三维预训练大模型参数高效型微调系统,如图3所示,进行参数高效型微调的流程大体分为数据处理、模型训练、验证与应用三个阶段。

在数据处理阶段,本申请选取特定用于下游三维场景任务的数据集。本申请采用了下游任务数据集原本的训练集与测试集划分。

在模型训练阶段,提出本申请的核心部分:三维预训练大模型的参数高效微调框架。总体框架由三维令牌嵌入模块,点云先验提示模块、几何感知适配器与下游任务头四个部分组成。

首先对三维令牌嵌入模块进行具体介绍。三维令牌嵌入部分用于将三维点云数据进行分块并编码成点云令牌嵌入作为后续预训练模型的输入。具体来说,对于输入的点云,本申请首先从原始点云中采样部分点得到子点云,采样策略包括随机采样、最远点采样等方法。进一步基于空间位置信息将采样得到的子点云进一步分割为较小的块,每个块包含固定数量的点,称为点云块。最后利用PointNet网络对每个点云块进行编码来获取点云块的表征,即三维点云的令牌嵌入,如图4所示。

然后对点云先验提示模块进行具体介绍。在这一部分中,本申请首先使用下游任务训练数据集中的3D特征作为先验知识构建点云先验库(Point-prior bank)。在微调过程中,在每个变形器块中,如图4和图6所示,本申请添加一组可学习的提示令牌到输入的点云令牌序列前。本申请使用无参数的注意力机制结合点云先验库中的先验知识对提示令牌进行增强,使提示令牌获得特定域的3D先验知识。这个模块赋予预训练模型对3D场景的先验理解,从而增强点云表示学习能力。

其次,对几何感知适配器模块进行具体介绍。首先通过预训练的自注意力层和前馈网络来探索点云中的全局形状信息和长距离依赖关系,增强特征表示的能力。在预训练模块后插入几何感知适配器的设计,如图5所示,将输入的点云特征通过最远点采样和K近邻进行聚类,并对类内部的特征通过自注意力机制进行局部交互,最后再传播到其他点云特征中,通过这样的设计有效聚合了局部的几何信息,学习到点云的细粒度结构。

然后,将调整后的令牌输入下游任务头。在经过带有几何感知适配器的多个编码器块后,输入到轻量化的下游任务头得到预测输出,在整个微调过程中,只有点云先验提示模块,几何感知适配器和下游任务头是可以微调的,其余都冻结保持预训练权重。

最后,验证与应用作为本申请技术方案流程的最后阶段,将通过实际实验来验证所提出方法的可行性和效果。在实验验证阶段,本申请选取了其他的三维预训练方法进行定量实验与定性实验。在定量实验部分,本申请的模型在大部分指标上都达到了最好;在定性实验中,通过对结果的可视化本申请发现,本申请的方法在一些数据中展现了对局部几何结构更好的关注效果。

本申请提出了一个专门为三维预训练模型设计的参数高效微调方法和系统。与完全微调相比,本申请具有竞争性的性能,并显著减少了计算资源的使用。预训练模型通常在大量数据上进行预训练,然后在特定任务上进行完全微调以适应特定应用或数据集,通常涉及在整个模型上进行参数更新。本申请采用了一种更为高效的方法,只对模型的某些部分进行微调,大大减少了计算负担。其次,本申请设计了一个几何感知适配器,用于提取细粒度的局部几何结构。同时,本申请还设计了一个点先验提示模块配备了无参数的注意力机制,利用特定领域的知识以促进在下游任务的微调表现。

与现有技术相比,本申请提供的方法的优势在于:本申请同时从多个参数高效微调技术出发,将预训练知识引入下游任务训练中,在保留全局交互的同时注重局部结构的特征交互,进一步减少可学习参数量并大大提高性能。这一技术的进步能够进一步推动自动驾驶、具身智能等领域和应用的发展。

将本申请提出的方法在一个主要数据集上进行定量实验,如图7所示,结果显示模型取得的效果优于目前其他相关技术方法。此外,将本申请提出的方法在数据集上进行定性实验,如图8所示,通过对结果的可视化本申请发现,本申请的方法与其他方法达到了相同水准的结果,在一些数据中本申请的方法展现了对局部几何结构更好的关注效果,红色代表高关注度。

由以上技术方案,本申请实施例提供一种三维预训练大模型参数高效型微调方法及系统,该方法包括以下步骤:首先,对三维点云数据进行分块并编码,形成点云令牌序列;然后,以下游任务训练数据集中的3D特征作为先验知识,构建点云先验库;并以点云令牌序列作为预训练模型的输入,在预训练模型的编码器模块中,将可学习提示令牌添加至所述点云令牌序列前,采用无参数的注意力机制,并结合点云先验库中的先验知识对所述可学习提示令牌进行增强,得到强化后的提示令牌;接下来,通过几何感知适配器对所述强化后的提示令牌进行聚类,并通过自注意力机制进行局部特征交互后,得到调整后的令牌;最后,将调整后的令牌输入下游任务头,得到预测输出。

本申请提出了一种三维预训练大模型参数高效微调框架,使用极少可学习参数来微调点云预训练模型从而在各种下游任务上达到优于完全微调的效果。本申请通过探索如何有效地将下游三维语义融入预训练模型来达到高效微调。针对点云稀疏和不规则的特点,本申请提出点云先验提示模块,在每个转换器块前,本申请会在输入点云特征之前添加一组可学习的提示令牌,将下游知识注入预训练模型中。此外,本申请还提出几何感知适配器模块,插入在预训练的自注意力层和前馈网络之后,与预训练注意力层的长程依赖性达到互补,汇聚局部几何信息并抓取细粒度的三维结构。该方法冻结大多数的预训练参数,结合三维领域的特有知识和局部特征交互,仅对新增的模块和任务头在下游任务进行微调,证明具有更高的效率和性能。

本领域的普通技术人员可以理解,上述各实施方式是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各自更动与修改,因此本申请的保护范围应当以权利要求限定的范围为准。

相关技术
  • 基于记忆力机制的预训练语言模型参数微调方法和装置
  • 基于Linux云平台的后端接口稳定性测试方法
技术分类

06120116510787