掌桥专利:专业的专利平台
掌桥专利
首页

自动驾驶模型的训练方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 18:37:28


自动驾驶模型的训练方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域,尤其涉及自动驾驶、深度学习技术领域,尤其涉及一种自动驾驶模型的训练方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

目前,随着人工智能技术的不断发展,自动驾驶模型在车辆领域得到了广泛应用,具有自动化程度高、智能化高等优点。比如,可将图像数据输入自动驾驶模型,由自动驾驶模型识别障碍物位置,并进行路线规划等。然而,相关技术中自动驾驶模型的训练,存在训练难度高,训练精度低的问题。

发明内容

本公开提供了一种自动驾驶模型的训练方法、装置、电子设备、存储介质和计算机程序产品。

根据本公开的一方面,提供了一种自动驾驶模型的训练方法,包括:获取自动驾驶模型待训练的目标场景;在第1轮检索的情况下,基于所述目标场景,从总图像集中检索出第1个候选图像集;在第N轮检索的情况下,基于第N-1轮检索出的第N-1个候选图像集和所述目标场景,从所述总图像集中检索出第N个候选图像集,其中,2≤N≤M,M为大于1的整数;基于M个候选图像集,得到所述目标场景对应的第一样本图像集;基于所述第一样本图像集,对所述自动驾驶模型进行训练。

根据本公开的另一方面,提供了一种自动驾驶模型的训练装置,包括:第一获取模块,用于获取自动驾驶模型待训练的目标场景;检索模块,用于在第1轮检索的情况下,基于所述目标场景,从总图像集中检索出第1个候选图像集;所述检索模块,还用于在第N轮检索的情况下,基于第N-1轮检索出的第N-1个候选图像集和所述目标场景,从所述总图像集中检索出第N个候选图像集,其中,2≤N≤M,M为大于1的整数;第二获取模块,用于基于M个候选图像集,得到所述目标场景对应的第一样本图像集;训练模块,用于基于所述第一样本图像集,对所述自动驾驶模型进行训练。

根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行自动驾驶模型的训练方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行自动驾驶模型的训练方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现自动驾驶模型的训练方法的步骤。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是根据本公开第一实施例的自动驾驶模型的训练方法的流程示意图;

图2是根据本公开第二实施例的自动驾驶模型的训练方法的示意图;

图3是根据本公开第三实施例的自动驾驶模型的训练方法的示意图;

图4是根据本公开第四实施例的自动驾驶模型的训练方法的示意图;

图5是根据本公开第一实施例的自动驾驶模型的训练装置的框图;

图6是用来实现本公开实施例的自动驾驶模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

AI(Artificial Intelligence,人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前,AI技术具有自动化程度高、精确度高、成本低的优点,得到了广泛的应用。

自动驾驶是传感器、计算机、人工智能、通信、导航定位、模式识别、机器视觉、智能控制等多门前沿学科的综合体。进入21世纪后,随着物理计算能力的大幅度提升、动态视觉技术的快速发展以及人工智能技术迅猛发展,路线导航、障碍躲避、突发决策等关键技术得到解决,自动驾驶技术取得了突破性进展。

DL(Deep Learning,深度学习)是ML(Machine Learning,机器学习)领域中一个新的研究方向,是学习样本数据的内在规律和表示层次,使得机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据的一门科学,广泛应用于语音和图像识别。

图1是根据本公开第一实施例的自动驾驶模型的训练方法的流程示意图。

如图1所示,本公开第一实施例的自动驾驶模型的训练方法,包括:

S101,获取自动驾驶模型待训练的目标场景。

需要说明的是,本公开实施例的自动驾驶模型的训练方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地,执行主体可包括工作站、服务器,计算机、用户终端及其他智能设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

需要说明的是,对自动驾驶模型不做过多限定,比如,自动驾驶模型可包括障碍物识别模型、路线规划模型等。

需要说明的是,对目标场景不做过多限定,比如,目标场景包括载物场景(比如自动配送车、自动环卫车)、载人场景、清洁场景(比如清洁机器人)、监控场景(比如监控机器人)等。

S102,在第1轮检索的情况下,基于目标场景,从总图像集中检索出第1个候选图像集。

需要说明的是,总图像集包括大量的图像,可预先通过多个自动驾驶对象的相机采集图像,并将采集的图像添加到总图像集中。应说明的是,对自动驾驶对象不做过多限定,比如,自动驾驶对象可包括车辆、机器人等。对总图像集中的图像不做过多限定,比如,图像可包括二维图像、三维图像等。

在一种实施方式中,基于目标场景,从总图像集中检索出第1个候选图像集,包括基于目标场景的特征表示,从总图像集中检索出第1个候选图像集。应说明的是,对特征表示不做过多限定,比如,特征表示可为特征向量。

在一些例子中,可基于多模态特征提取大模型,对目标场景进行特征提取,得到目标场景的特征表示。应说明的是,多模态特征提取大模型可基于多模态的样本数据来训练得到,对训练过程不做过多限定。

在一些例子中,基于目标场景的特征表示,从总图像集中检索出第1个候选图像集,包括获取总图像集中的每个图像的第二特征表示,获取目标场景的特征表示与第二特征表示之间的相似度,将相似度大于设定阈值的图像添加到第1个候选图像集中。

在一种实施方式中,基于目标场景,从总图像集中检索出第1个候选图像集,包括从总图像集中随机抽取出第1个第一图像集,基于目标场景,从第1个第一图像集中检索出第1个候选图像集。

S103,在第N轮检索的情况下,基于第N-1轮检索出的第N-1个候选图像集和目标场景,从总图像集中检索出第N个候选图像集,其中,2≤N≤M,M为大于1的整数。

需要说明的是,对M不做过多限定,比如,M=3。

以M=3为例,在第2轮检索的情况下,基于第1轮检索出的第1个候选图像集和目标场景,从总图像集中检索出第2个候选图像集,在第3轮检索的情况下,基于第2轮检索出的第2个候选图像集和目标场景,从总图像集中检索出第3个候选图像集。

在一种实施方式中,基于第N-1轮检索出的第N-1个候选图像集和目标场景,从总图像集中检索出第N个候选图像集,包括基于第N-1个候选图像集的特征表示和目标场景的特征表示,从总图像集中检索出第N个候选图像集。由此,该方法中可综合考虑到第N-1个候选图像集的特征表示和目标场景的特征表示,来从总图像集中检索出第N个候选图像集,提高了第N轮检索的准确性。

在一些例子中,基于第N-1个候选图像集的特征表示和目标场景的特征表示,从总图像集中检索出第N个候选图像集,包括对第N-1个候选图像集的特征表示和目标场景的特征表示进行特征融合,得到融合特征表示,基于融合特征表示,从总图像集中检索出第N个候选图像集。

S104,基于M个候选图像集,得到目标场景对应的第一样本图像集。

在一种实施方式中,基于M个候选图像集,得到目标场景对应的第一样本图像集,包括将M个候选样本集添加到第一样本图像集中。

在一种实施方式中,基于M个候选图像集,得到目标场景对应的第一样本图像集,包括从M个候选图像集中筛选出第一样本图像集。由此,该方法中可从M个候选图像集中进一步筛选出第一样本图像集,提高了第一样本图像集的准确性。

在一些例子中,从M个候选图像集中筛选出第一样本图像集,包括响应于任意两个候选图像集之间存在重合部分,将重合部分从任意两个候选图像集中的一个候选图像集中删除,并保留另一个候选图像集中的重合部分,将删除后的候选图像集中的图像,以及另一个候选图像集中的图像添加到第一样本图像集中。由此,该方法中可保证第一样本图像集中不存在重复的图像。

S105,基于第一样本图像集,对自动驾驶模型进行训练。

需要说明的是,对自动驾驶模型的训练方式不做过多限定,比如,训练方式可包括有监督训练、无监督训练等。

在一种实施方式中,基于第一样本图像集,对自动驾驶模型进行训练,包括将第一样本图像集中的第一样本图像输入自动驾驶模型中,由自动驾驶模型输出预测结果,基于预测结果和标注结果对自动驾驶模型进行训练。应说明的是,对标注结果不做过多限定,比如,标注结果包括但不限于人体检测框、障碍物检测框、路线等。

综上,根据本公开实施例的自动驾驶模型的训练方法,获取自动驾驶模型待训练的目标场景,在第1轮检索的情况下,基于目标场景,从总图像集中检索出第1个候选图像集,在第N轮检索的情况下,基于第N-1轮检索出的第N-1个候选图像集和目标场景,从总图像集中检索出第N个候选图像集,其中,2≤N≤M,M为大于1的整数,基于M个候选图像集,得到目标场景对应的第一样本图像集,基于第一样本图像集,对自动驾驶模型进行训练。由此,第N轮检索依赖第N-1轮检索出的第N-1个候选图像集,即可实现总图像集的多轮迭代检索,每轮检索可得到1个候选图像集,以得到第一样本图像集,相较于相关技术中往往仅在总图像集中进行单次检索,降低了总图像集的检索难度,提高了图像检索的精度,进而降低了自动驾驶模型的训练难度,提高了自动驾驶模型的训练精度。

图2是根据本公开第二实施例的自动驾驶模型的训练方法的流程示意图。

如图2所示,本公开第二实施例的自动驾驶模型的训练方法,包括:

S201,获取自动驾驶模型待训练的目标场景。

S202,在第1轮检索的情况下,基于目标场景,从总图像集中检索出第1个候选图像集。

步骤S201-S202的相关内容可参见上述实施例,这里不再赘述。

S203,在第N轮检索的情况下,基于第N-1个候选图像集,从总图像集中筛选出第N个第一图像集。

在一种实施方式中,基于第N-1个候选图像集,从总图像集中筛选出第N个第一图像集,包括从总图像集中筛选出与第N-1个候选图像集相似的第N个第一图像集。

在一种实施方式中,基于第N-1个候选图像集,从总图像集中筛选出第N个第一图像集,包括获取第N-1个候选图像集的特征表示,获取总图像集中的每个图像的第二特征表示,获取第N-1个候选图像集的特征表示与第二特征表示之间的相似度,将相似度大于设定阈值的图像添加到第1个第一图像集中。

在一种实施方式中,基于第N-1个候选图像集,从总图像集中筛选出第N个第一图像集,包括基于第N-1个候选图像集中的候选图像的采集参数,从总图像集中筛选出第N个第一图像集。由此,该方法中可考虑到第第N-1个候选图像集中的候选图像的采集参数,来从总图像集中筛选出第N个第一图像集,提高了第N个第一图像集的准确性。

需要说明的是,对采集参数不做过多限定,比如,采集参数包括采集时间、图像的帧数、图像所属的相机、相机所属的车辆等。

在一种实施方式中,基于第N-1个候选图像集中的候选图像的采集参数,从总图像集中筛选出第N个第一图像集,包括如下几种可能的实施方式:

方式1、响应于采集参数指示第N-1个候选图像集中的候选图像为目标相机在目标帧时采集的,从总图像集中筛选出目标相机在目标帧的相邻帧时采集的第二图像集,将第二图像集添加到第N个第一图像集。

可以理解的是,目标相机在目标帧的相邻帧时采集的图像,与第N-1个候选图像集中的候选图像之间的相似度较高。

需要说明的是,目标帧的相邻帧,可包括与目标帧之间间隔设定帧数以内的帧。对设定帧数不做过多限定,比如,可为3帧。

比如,第2个候选图像集包括候选图像A、B。

若候选图像A的采集参数指示候选图像A为目标相机1在第10帧时采集的,则可从总图像集中筛选出目标相机1在第7帧、第8帧、第9帧、第11帧、第12帧、第13帧时采集的第二图像集1,将第二图像集1添加到第3个第一图像集。

若候选图像B的采集参数指示候选图像B为目标相机2在第5帧时采集的,则可从总图像集中筛选出目标相机1在第2帧、第3帧、第4帧、第6帧、第7帧、第8帧时采集的第二图像集2,将第二图像集2添加到第3个第一图像集。

由此,该方法中可从总图像集中筛选出目标相机在目标帧的相邻帧时采集的第二图像集,将第二图像集添加到第N个第一图像集。

方式2、响应于采集参数指示第N-1个候选图像集中的候选图像为目标相机在目标帧时采集的,确定与目标相机的拍摄范围重合的候选相机,从总图像集中筛选出候选相机在目标帧、目标帧的相邻帧时采集的第三图像集,将第三图像集添加到第N个第一图像集。

需要说明的是,目标相机、候选相机的拍摄范围重合,指的是目标相机的部分或者全部拍摄范围与候选相机的拍摄范围重合,在一些例子中,候选相机的拍摄范围包含目标相机的拍摄范围,或者,目标相机的拍摄范围包含候选相机的拍摄范围。

可以理解的是,候选相机在目标帧、目标帧的相邻帧时采集的图像,与第N-1个候选图像集中的候选图像之间的相似度较高。

需要说明的是,对候选相机的数量不做过多限定,比如,候选相机可为1个、3个等。

比如,第2个候选图像集包括候选图像A、B。

若候选图像A的采集参数指示候选图像A为目标相机1在第10帧时采集的,可确定与目标相机1的拍摄范围重合的候选相机3、4,则可从总图像集中筛选出候选相机3在第7帧、第8帧、第9帧、第10帧、第11帧、第12帧、第13帧时采集的第二图像集3,还可从总图像集中筛选出候选相机4在第7帧、第8帧、第9帧、第10帧、第11帧、第12帧、第13帧时采集的第二图像集4,将第二图像集3、4添加到第3个第一图像集。

若候选图像B的采集参数指示候选图像B为目标相机2在第5帧时采集的,可确定与目标相机2的拍摄范围重合的候选相机5,则可从总图像集中筛选出候选相机5在第2帧、第3帧、第4帧、第5帧、第6帧、第7帧、第8帧时采集的第二图像集5,将第二图像集5添加到第3个第一图像集。

在一种实施方式中,确定与目标相机的拍摄范围重合的候选相机,包括获取相机的分组结果,其中,同一组内的多个相机的拍摄范围重合,将与目标相机同一组的其余相机确定为候选相机。由此,该方法中可基于相机的分组结果,确定候选相机。

可以理解的是,可将拍摄范围重合的多个相机划分到同一组。

比如,相机1至5的分组结果包括分组1和分组2,其中,分组1包括相机1、相机3、相机4,分组2包括相机2、相机5。相机1、相机3、相机4的拍摄范围重合,相机2、相机5的拍摄范围重合。

由此,该方法中可确定与目标相机的拍摄范围重合的候选相机,从总图像集中筛选出候选相机在目标帧、目标帧的相邻帧时采集的第三图像集,将第三图像集添加到第N个第一图像集。

S204,基于目标场景,从第N个第一图像集中检索出第N个候选图像集。

在一种实施方式中,基于目标场景,从第N个第一图像集中检索出第N个候选图像集,包括获取目标场景包含的目标对象的目标特征表示,获取第N个第一图像集中的每个第一图像的第一特征表示,基于目标特征表示和第一特征表示,从第N个第一图像集中检索出第N个候选图像集。由此,该方法中可综合考虑到目标特征表示和第一特征表示,从N个第一图像集中检索出第N个候选图像集。

需要说明的是,对目标对象不做过多限定,比如,目标对象可包括行人、车辆、交通标识、树木等。对目标对象的数量也不做过多限定,一个目标场景可能包含多个目标对象。

可以理解的是,不同的目标场景,可能对应不同的目标对象。比如,目标场景包括载物场景,则目标对象可包括装载的物体、道路标识等,目标场景包括载人场景,则目标对象可包括行人、车辆等,目标场景包括清洁场景,则目标对象可包括清洁的物体(比如家具、墙面、地面等)、目标场景包括监控场景,则目标对象可包括监控的物体(比如厂房机器)。

在一些例子中,获取目标场景包含的目标对象的目标特征表示,包括基于多模态特征提取大模型,对目标对象的第二样本图像集进行少样本学习,得到目标特征表示。其中,目标特征表示可包括类中心特征表示。

可以理解的是,目标对象的第二样本图像集的数量可能较少,该方法中可基于多模态特征提取大模型,对目标对象的第二样本图像集进行少样本学习,得到目标特征表示,可实现少样本场景下的特征提取。

在一些例子中,获取第N个第一图像集中的每个第一图像的第一特征表示,包括基于通用目标检测大模型,从第一图像中检测出目标区域,基于多模态特征提取大模型,从目标区域中提取出第一特征表示。应说明的是,通用目标检测大模型,可基于海量开源数据训练得到,训练过程这里不做过多限定。

在一些例子中,基于目标特征表示和第一特征表示,从第N个第一图像集中检索出第N个候选图像集,包括获取目标特征表示和第一特征表示之间的相似度,将相似度大于设定阈值的图像添加到第N个候选图像集中。

S205,基于M个候选图像集,得到目标场景对应的第一样本图像集。

S206,基于第一样本图像集,对自动驾驶模型进行训练。

步骤S205-S206的相关内容可参见上述实施例,这里不再赘述。

综上,根据本公开实施例的自动驾驶模型的训练方法,基于第N-1个候选图像集,从总图像集中筛选出第N个第一图像集,基于目标场景,从第N个第一图像集中检索出第N个候选图像集,可综合考虑到第N-1个候选图像集和目标场景,来检索出第N个候选图像集,提高了第N个候选图像集的准确性。

图3是根据本公开第三实施例的自动驾驶模型的训练方法的流程示意图。

如图3所示,本公开第三实施例的自动驾驶模型的训练方法,包括:

S301,获取自动驾驶模型待训练的目标场景。

S302,在第1轮检索的情况下,获取相机的分组结果,其中,同一组内的多个相机的拍摄范围重合。

步骤S301-S302的相关内容可参见上述实施例,这里不再赘述。

S303,在每个组内抽取设定数量的相机。

S304,按照设定抽帧频率,从抽取到的相机采集的图像中抽取图像,并将抽取到的图像添加到第1个第一图像集。

需要说明的是,总图像集包括每个相机采集的图像。

需要说明的是,对设定数量、设定抽帧频率均不做过多限定,比如,设定数量可为1个、2个等,设定抽帧频率可为每3秒抽1帧、每15秒抽1帧等。

可以理解的是,不同的相机,可对应相同的设定抽帧频率,也可对应不同的设定抽帧频率。

比如,相机1至5的分组结果包括分组1和分组2,其中,分组1包括相机1、相机3、相机4,分组2包括相机2、相机5。

可从分组1中抽取相机1,并按照每3秒抽1帧的设定抽帧频率,从相机1采集的图像中抽取图像,并将抽取到的图像添加到第1个第一图像集。

可从分组2中抽取相机2,并按照每15秒抽1帧的设定抽帧频率,从相机2采集的图像中抽取图像,并将抽取到的图像添加到第1个第一图像集。

S305,基于目标场景,从第1个第一图像集中检索出第1个候选图像集。

步骤S305的相关内容,可参考步骤S204的相关内容,这里不再赘述。

S306,在第N轮检索的情况下,基于第N-1轮检索出的第N-1个候选图像集和目标场景,从总图像集中检索出第N个候选图像集,其中,2≤N≤M,M为大于1的整数。

S307,基于M个候选图像集,得到目标场景对应的第一样本图像集。

S308,基于第一样本图像集,对自动驾驶模型进行训练。

步骤S306-S308的相关内容可参见上述实施例,这里不再赘述。

综上,根据本公开实施例的自动驾驶模型的训练方法,可基于相机的分组结果,在每个组内抽取设定数量的相机,并按照设定抽帧频率,从抽取到的相机采集的图像中抽取图像,并将抽取到的图像添加到第1个第一图像集,以实现从总图像集中筛选出第1个第一图像集,并基于目标场景,从第1个第一图像集中检索出第1个候选图像集。

如图4所示,以M=2为例,在第1轮检索的情况下,从总图像集中筛选出第1个第一图像集,基于通用目标检测大模型,从第1个第一图像集中的第一图像中检测出目标区域,基于多模态特征提取大模型,从目标区域中提取出第一特征表示。

基于多模态特征提取大模型,对目标场景包含的目标对象的第二样本图像集进行少样本学习,得到目标特征表示。

基于第一特征表示和目标特征表示,从第1个第一图像集中检索出第1个候选图像集。

在第2轮检索的情况下,基于第1轮检索出的第1个候选图像集,从总图像集中筛选出第2个第一图像集,基于通用目标检测大模型,从第2个第一图像集中的第一图像中检测出目标区域,基于多模态特征提取大模型,从目标区域中提取出第一特征表示。

基于第一特征表示和目标特征表示,从第2个第一图像集中检索出第2个候选图像集。

从第1、2个候选图像集中筛选出目标场景对应的第一样本图像集,基于第一样本图像集,对自动驾驶模型进行训练。

本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种自动驾驶模型的训练装置,用于实现上述的自动驾驶模型的训练方法。

图5是根据本公开第一实施例的自动驾驶模型的训练装置的框图。

如图5所示,本公开实施例的自动驾驶模型的训练装置500,包括:第一获取模块501、检索模块502、第二获取模块503和训练模块504。

第一获取模块501,用于获取自动驾驶模型待训练的目标场景;

检索模块502,用于在第1轮检索的情况下,基于所述目标场景,从总图像集中检索出第1个候选图像集;

所述检索模块502,还用于在第N轮检索的情况下,基于第N-1轮检索出的第N-1个候选图像集和所述目标场景,从所述总图像集中检索出第N个候选图像集,其中,2≤N≤M,M为大于1的整数;

第二获取模块503,用于基于M个候选图像集,得到所述目标场景对应的第一样本图像集;

训练模块504,用于基于所述第一样本图像集,对所述自动驾驶模型进行训练。

在本公开的一个实施例中,所述检索模块502,还用于:基于所述第N-1个候选图像集,从所述总图像集中筛选出第N个第一图像集;基于所述目标场景,从所述第N个第一图像集中检索出所述第N个候选图像集。

在本公开的一个实施例中,所述检索模块502,还用于:基于所述第N-1个候选图像集中的候选图像的采集参数,从所述总图像集中筛选出所述第N个第一图像集。

在本公开的一个实施例中,所述检索模块502,还用于:响应于所述采集参数指示所述第N-1个候选图像集中的候选图像为目标相机在目标帧时采集的,从所述总图像集中筛选出所述目标相机在所述目标帧的相邻帧时采集的第二图像集;将所述第二图像集添加到所述第N个第一图像集。

在本公开的一个实施例中,所述检索模块502,还用于:响应于所述采集参数指示所述第N-1个候选图像集中的候选图像为目标相机在目标帧时采集的,确定与所述目标相机的拍摄范围重合的候选相机;从所述总图像集中筛选出所述候选相机在所述目标帧、所述目标帧的相邻帧时采集的第三图像集;将所述第三图像集添加到所述第N个第一图像集。

在本公开的一个实施例中,所述检索模块502,还用于:获取相机的分组结果,其中,同一组内的多个相机的拍摄范围重合;将与所述目标相机同一组的其余相机确定为所述候选相机。

在本公开的一个实施例中,所述检索模块502,还用于:获取所述目标场景包含的目标对象的目标特征表示;获取所述第N个第一图像集中的每个第一图像的第一特征表示;基于所述目标特征表示和所述第一特征表示,从所述第N个第一图像集中检索出所述第N个候选图像集。

在本公开的一个实施例中,所述检索模块502,还用于:基于多模态特征提取大模型,对所述目标对象的第二样本图像集进行少样本学习,得到所述目标特征表示。

在本公开的一个实施例中,所述检索模块502,还用于:获取相机的分组结果,其中,同一组内的多个相机的拍摄范围重合;在每个组内抽取设定数量的相机;按照设定抽帧频率,从抽取到的相机采集的图像中抽取图像,并将抽取到的图像添加到第1个第一图像集;基于所述目标场景,从所述第1个第一图像集中检索出所述第1个候选图像集。

综上,本公开实施例的自动驾驶模型的训练装置,获取自动驾驶模型待训练的目标场景,在第1轮检索的情况下,基于目标场景,从总图像集中检索出第1个候选图像集,在第N轮检索的情况下,基于第N-1轮检索出的第N-1个候选图像集和目标场景,从总图像集中检索出第N个候选图像集,其中,2≤N≤M,M为大于1的整数,基于M个候选图像集,得到目标场景对应的第一样本图像集,基于第一样本图像集,对自动驾驶模型进行训练。由此,第N轮检索依赖第N-1轮检索出的第N-1个候选图像集,即可实现总图像集的多轮迭代检索,每轮检索可得到1个候选图像集,以得到第一样本图像集,相较于相关技术中往往仅在总图像集中进行单次检索,降低了总图像集的检索难度,提高了图像检索的精度,进而降低了自动驾驶模型的训练难度,提高了自动驾驶模型的训练精度。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如图1至图4所述的自动驾驶模型的训练方法。例如,在一些实施例中,自动驾驶模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的自动驾驶模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行自动驾驶模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

根据本公开的实施例,本公开还提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现本公开上述实施例所述的自动驾驶模型的训练方法的步骤。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 一种书法训练方法、装置、电子设备及存储介质
  • 工作量评估及模型训练方法、电子设备及存储介质
  • 神经网络模型的优化方法及装置、电子设备和存储介质
  • 三维模型处理方法和装置、电子设备、计算机可读存储介质
  • 模型处理方法及装置、存储介质和电子设备
  • 自动驾驶方法及相关模型训练方法、电子设备、存储介质
  • 模型训练方法、模型训练装置、存储介质和电子设备
技术分类

06120115632987