掌桥专利:专业的专利平台
掌桥专利
首页

自动驾驶数据自动标注方法、装置、计算机设备及介质

文献发布时间:2024-04-18 20:01:23


自动驾驶数据自动标注方法、装置、计算机设备及介质

技术领域

本发明涉及自动驾驶技术领域,特别涉及一种自动驾驶数据自动标注方法、装置、计算机设备及介质。

背景技术

传统的人工标注方式,其成本高、效率低以及时间周期长,已经不能满足需要。基于深度学习的图像识别网络已经广泛应用于自动驾驶领域,但是由于其较大的参数量,往往需要大量的数据进行训练才能得到一个优质模型。此外,现有的自动标注技术存在着标注类别固定,标注精度不高等问题。

发明内容

有鉴于此,本发明实施例提供了一种自动驾驶数据自动标注方法,以解决现有技术中自动标注技术的标注类别固定、精度低的技术问题。该方法包括:

获取自动驾驶图像数据集;

对所述自动驾驶图像数据集进行图像编码特征提取;

基于所述图像编码特征分别对检测任务模型和分割任务模型进行训练;

根据用户需求选择所述检测任务模型和所述分割任务模型中的至少一种用于自动驾驶数据的自动标注。

本发明实施例还提供了一种自动驾驶数据自动标注装置,以解决现有技术中自动标注技术的标注类别固定、精度低的技术问题。该装置包括:

获取模块,用于获取自动驾驶图像数据集;

提取模块,用于对所述自动驾驶图像数据集进行图像编码特征提取;

训练模块,用于基于所述图像编码特征分别对检测任务模型和分割任务模型进行训练;

标注模块,用于根据用户需求选择所述检测任务模型和所述分割任务模型中的至少一种用于自动驾驶数据的自动标注。

本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的自动驾驶数据自动标注方法,以解决现有技术中自动标注技术的标注类别固定、精度低的技术问题。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的自动驾驶数据自动标注方法的计算机程序,以解决现有技术中自动标注技术的标注类别固定、精度低的技术问题。

与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:获取自动驾驶图像数据集;对自动驾驶图像数据集进行图像编码特征提取;基于图像编码特征分别对检测任务模型和分割任务模型进行训练;根据用户需求选择检测任务模型和分割任务模型中的至少一种用于自动驾驶数据的自动标注。本申请通过构建一个多任务的自动标注模型,可以根据需求针对特定的自动标注任务进行选择调整,从而实现面向特定任务和特定类别的高精度标注,大大降低标注成本,提高标注效率;并且,本申请并未直接利用图像进行模型训练,而是利用图像编码特征训练模型,可以提高模型构建的速度,成本更低。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的自动驾驶数据自动标注方法流程图;

图2是本发明实施例提供的一种计算机设备的结构框图;

图3是本发明实施例提供的一种自动驾驶数据自动标注装置的结构框图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本发明实施例中,提供了一种自动驾驶数据自动标注方法,如图1所示,该方法包括:

步骤S101、获取自动驾驶图像数据集;

步骤S102、对所述自动驾驶图像数据集进行图像编码特征提取;

步骤S103、基于所述图像编码特征分别对检测任务模型和分割任务模型进行训练;

步骤S104、根据用户需求选择所述检测任务模型和所述分割任务模型中的至少一种用于自动驾驶数据的自动标注。

在本实施例中,通过对自动驾驶过程中获取的图像进行图像编码特征提取,然后利用图像编码特征进行多个任务模型的训练,获得多个任务模型,根据用户所需任务类型及标注类别,对检测任务分支、分割任务分支进行特定任务及特定类别的微调。其中,任务类型可以是检测任务,或者分割任务,或者两者的组合;标注类别可以是自动驾驶中涉及的任何类别,例如是行人、小汽车、卡车、障碍物等。例如,用户需要一个检测车辆的标注模型,则需要利用检测任务模型,则舍弃分割任务模型,仅对检测任务模型打开车辆类别的标注,从而实现面向特定任务和特定类别的高精度标注,大大降低标注成本,提高标注效率。通过图像编码特征进行面向特定任务的训练,并非直接利用图像本身进行训练,可以大大降低训练时间,节省训练硬件成本。

具体实施时,检测任务是对输入图像进行检测,获得图像中物体的类别信息和位置信息;分割任务是对输入图像进行分割,获得对图像中不同物体的掩码。

上述实施例中,所述的图像编码特征是通过神经网络提取的高维特征,例如,通过VIT网络(Vision Transformer)提取的多维张量。

在一个实施例中,所述对所述自动驾驶图像数据集进行图像编码特征提取,具体包括以下步骤:

将所述自动驾驶图像数据集输入至图像编码器中;

利用所述图像编码器将所述自动驾驶图像数据集中的每个图像划分为多个块;

将每个图像对应的每个块分别投影为预设长度的向量;

通过训练后的神经网络对所述向量提取所述图像编码特征。

在本实施例中,首先采用大模型图像编码器对自动驾驶图像数据集,进行图像编码特征提取并进行保存,自动驾驶图像数据集包括已有数据集及增量数据。其中,已有数据集即为现有的检测数据集、分割数据集,包括原始图片及其标签,增量数据是指在已有数据集的基础上,后期新增的其他检测、分割数据。通过利用图像编码器输出的图像编码特征进行面向特定任务的训练,并非直接利用图像本身进行训练,可以大大降低训练时间,节省训练硬件成本。

在一个实施例中,本申请的自动驾驶数据自动标注方法还包括以下步骤:

采用开源数据集作为样本对图像处理模型进行预训练,得到所述图像编码器;

利用所述图像编码器对所述自动驾驶图像数据集进行图像编码特征提取。

具体实施时,图像处理模型为VIT模型(Vision Transformer,视觉Transformer),可以利用VIT模型,将输入的图片分为多个块(例如,将图像分割为16X16的多个块),再将每个块投影为固定长度的向量送入Transformer模型中进行神经网络提取,输出图像特征向量(图像编码特征)。VIT模型是Google提出的基于Transformer的图片分类模型,在VIT模型中图像被表示为序列,图像的类标签被预测,这允许模型独立学习图像结构。

在本实施例中,对图像处理模型进行预训练是通过大使用VIT模型进行特征提取,并将输出的特征图进行不同尺度操作,获得多尺度特征以进行下游任务,如检测任务模型训练和分割任务模型训练。通过预训练,可以加快下游任务的进行速度。

具体实施时,所述图像处理模型采用Vision Transformer模型,采用掩码自编码器(MAE,Masked Autoencoders)的无监督训练方法对Vision Transformer模型在开源数据集上进行预训练。其中,MAE的结构较为简单,它由编码器模块和解码器模块组成,首先,输入图像被按照块大小分割成块集合,然后,块集合中的一个大的随机子集被mask(掩码),没有被掩码的块会被输入编码器模型中得到编码补丁,随后,编码补丁与masked token(掩码标记,即被mask的部分,其中每个masked token都是共享的、可被学习的向量)被合并输入解码器模块中,经解码器模块得到还原后的图案。MAE的自监督的训练方法可以有效地对模型进行训练,提升模型性能。

在一个实施例中,所述基于所述图像编码特征对检测任务模型进行训练,包括:

对所述图像编码特征分别通过步长为2、1、1/2和1/4的操作生成多尺度特征;

对所述多尺度特征通过卷积和层归一化转换至同一特征维度,完成多层图像金字塔的构建;

对所述多层图像金字塔中每个点的置信度、每个点的类别以及检测框的偏移量进行训练,获得所述检测任务模型。

具体实施时,是对预训练图像编码器输出的尺度为1/16的图像编码特征进行操作,当所述图像编码特征分别通过步长为2的操作生成多尺度特征时,采用2x2的最大值池化;当所述图像编码特征分别通过步长为1/2的操作生成多尺度特征时,采用步长为2的2x2反卷积操作;当所述图像编码特征分别通过步长为1/4的操作生成多尺度特征时,采用两个步长为2的2x2反卷积操作。对得到的4个不同长度特征,经过1x1卷积,层归一化,3x3卷积转换到同一特征维度256维,从而完成对多层图像金字塔的构建,对每一层图像金字塔回归特征图中每个点的置信度和类别,以及检测框的偏移量进行训练。

一个实施例中,所述基于所述图像编码特征对分割任务模型进行训练,包括以下步骤:

对所述图像编码特征进行线性变换,获得key向量和value向量;

对所述图像编码特征的类别信息进行初始化,获得query向量,所述类别信息为所述自动驾驶图像数据集中涉及的实物类别;

基于所述key向量和所述query向量进行计算获得掩码特征图;

基于key向量、value向量和query向量进行计算获得类别概率图;

对所述掩码特征图和所述类别概率图相乘获得所述分割任务模型。

具体实施时,key向量、value向量和query向量是用在自注意力的计算,自注意力机制是根据输入序列中的每个元素(如单词或字节)的相关性,动态的分配不同的权重,从而捕捉序列中的依赖关系和语义信息。其中,query向量,是查询向量,表示要关注或检索的目标,如翻译任务中的目标语言单词;key向量是键向量,表示要与查询向量进行匹配或比较的源,如翻译任务中的源语言单词;value向量是值向量,表示要根据查询向量和键向量的匹配程度来加权求和的信息,如翻译任务中的源语言单词的嵌入向量。

更为具体的,所述基于所述key向量和所述query向量进行计算获得掩码特征图的计算公式如下:

其中,Q为query向量,K为key向量,

所述基于key向量、value向量和query向量进行计算获得类别概率图的计算公式如下:

其中,V为value向量,C为第二特征维度,attention为所述类别概率图。

通过构建两个任务模型,根据用户所需任务类型及标注类别,对检测任务模型、分割任务模型进行特定任务及特定类别的微调。当用户需要一个检测车辆的标注模型时,则舍弃分割任务模型,仅对检测任务模型打开车辆类别进行微调,在车辆的自动标注模型训练完成后,便可以利用该模型对大规模无标注的图像生成车辆类型及边界框标签。当用户需要一个分割车辆的标注模型时,则舍弃检测任务模型,仅对分割任务模型打开车辆类别进行微调,训练完成后,可利用该模型进行车辆类型及分割掩码特征图的生成。当同时需要车辆检测和分割任务的标注模型时,则同时打开检测任务模型和分割任务模型,对车辆类别进行微调,训练完成后可利用该模型进行车辆类型、分割掩码特征图、边界框位置信息的生成。需要注意的是,此处举例的类别为车辆,实际应用时可根据用户的需求更换不同的类别,当更换为对不同实物类别进行标注时,所用方法与上述流程类似。

本申请通过构建一个多任务的自动标注模型,可以根据需求针对特定的自动标注任务进行选择调整,从而实现面向特定任务和特定类别的高精度标注,大大降低标注成本,提高标注效率;并且,本申请并未直接利用图像进行模型训练,而是利用图像编码特征训练模型,可以提高模型构建的速度,成本更低。

在本实施例中,提供了一种计算机设备,如图2所示,包括存储器201、处理器202及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的自动驾驶数据自动标注方法。

具体的,该计算机设备可以是计算机终端、服务器或者类似的运算装置。

在本实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的自动驾驶数据自动标注方法的计算机程序。

具体的,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

基于同一发明构思,本发明实施例中还提供了一种自动驾驶数据自动标注装置,如下面的实施例所述。由于自动驾驶数据自动标注装置解决问题的原理与自动驾驶数据自动标注方法相似,因此自动驾驶数据自动标注装置的实施可以参见自动驾驶数据自动标注方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图3是本发明实施例的自动驾驶数据自动标注装置的一种结构框图,如图3所示,包括:获取模块301、提取模块302、训练模块303和标注模块304,下面对该结构进行说明。

获取模块301,用于获取自动驾驶图像数据集;

提取模块302,用于对所述自动驾驶图像数据集进行图像编码特征提取;

训练模块303,用于基于所述图像编码特征分别对检测任务模型和分割任务模型进行训练;

标注模块304,用于根据用户需求选择所述检测任务模型和所述分割任务模型中的至少一种用于自动驾驶数据的自动标注。

在一个实施例中,提取模块302还用于:

将所述自动驾驶图像数据集输入至图像编码器中;

利用所述图像编码器将所述自动驾驶图像数据集中的每个图像划分为多个块;

将每个图像对应的每个块分别投影为预设长度的向量;

通过训练后的神经网络对所述向量提取所述图像编码特征。

在一个实施例中,所述自动驾驶数据自动标注装置还包括:

预训练模块,采用开源数据集作为样本对图像处理模型进行预训练,得到所述图像编码器;

第二提取模块,用于利用所述图像编码器对所述自动驾驶图像数据集进行图像编码特征提取。

在一个实施例中,在所述预训练模块中,所述图像处理模型采用VisionTransformer模型,在所述第二提取模块中,采用掩码自编码器的无监督训练方法VisionTransformer模型进行预训练。

在一个实施例中,训练模块303还用于:

对所述图像编码特征分别通过步长为2、1、1/2和1/4的操作生成多尺度特征;

对所述多尺度特征通过卷积和层归一化转换至同一特征维度,完成多层图像金字塔的构建;

对所述多层图像金字塔中每个点的置信度、每个点的类别以及检测框的偏移量进行训练,获得所述检测任务模型。

在一个实施例中,训练模块303还用于:

对所述图像编码特征进行线性变换,获得key向量和value向量;

对类别信息进行初始化,获得query向量,所述类别信息为所述自动驾驶图像数据集中涉及的实物类别;

基于所述key向量和所述query向量计算获得掩码特征图;

基于key向量、value向量和query向量计算获得类别概率图;

对所述掩码特征图和所述类别概率图相乘获得所述分割任务模型。

在一个实施例中,在训练模块303中,所述基于所述key向量和所述query向量计算获得掩码特征图的计算公式如下:

其中,Q为query向量,K为key向量,

所述基于key向量、value向量和query向量计算获得类别概率图的计算公式如下:

其中,V为value向量,C为第二特征维度,attention为所述类别概率图。

本发明实施例实现了如下技术效果:获取自动驾驶图像数据集;对自动驾驶图像数据集进行图像编码特征提取;基于图像编码特征分别对检测任务模型和分割任务模型进行训练;根据用户需求选择检测任务模型和分割任务模型中的至少一种用于自动驾驶数据的自动标注。本申请通过构建一个多任务的自动标注模型,可以根据需求针对特定的自动标注任务进行选择调整,从而实现面向特定任务和特定类别的高精度标注,大大降低标注成本,提高标注效率;并且,本申请并未直接利用图像进行模型训练,而是利用图像编码特征训练模型,可以提高模型构建的速度,成本更低。

显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120116546371