掌桥专利:专业的专利平台
掌桥专利
首页

多任务网络模型训练、识别方法、装置、车辆及程序产品

文献发布时间:2024-04-18 19:58:30


多任务网络模型训练、识别方法、装置、车辆及程序产品

技术领域

本申请涉及人工智能技术领域,尤其涉及一种多任务网络模型训练方法、多任务识别方法、装置、车辆及程序产品。

背景技术

近年来,人工智能技术发展迅速,广泛应用于各行各业。其中,深度学习技术已成为人工智能领域最热门的研究课题之一,在计算机视觉、自然语言处理、语音识别等领域取得了显著的成果。

其中,以自动驾驶为例,通常需要同时实现场景分类、二维(2D)目标检测、车道线检测、三维(3D)目标检测等多种深度学习任务。如果为多种不同的深度学习任务分别构建一个任务网络模型,由多个任务网络模型分别执行计算,则可能存在冗余和推理时间过长等问题,影响效率。因而构建(也可称为训练)一个多任务网络模型,基于一个多任务网络模型快捷高效地同时完成多种深度学习任务,日益受到关注。

然而,如何快捷简便地对多任务网络模型进行训练,以可以快捷高效地同时完成多种深度学习任务,是目前亟需解决的一个技术问题。

发明内容

本申请提供了一种多任务网络模型训练方法、多任务识别方法、装置、车辆及程序产品,用于快捷简便地对多任务网络模型进行训练。

第一方面,本申请提供了一种多任务网络模型训练方法,所述方法包括:

针对获得的任一第一特征图信息,将所述第一特征图信息分别输入至少一个待训练的任务分支网络子模型;其中,所述第一特征图信息是基于预先训练完成的目标骨干网络子模型获得的;

分别基于各任务分支网络子模型各自的输出信息以及对应所述第一特征图信息的预设标签信息,对所述各任务分支网络子模型进行训练,得到训练完成的各目标任务分支网络子模型;

将所述目标骨干网络子模型与所述各目标任务分支网络子模型进行拼接,得到训练完成的目标多任务网络模型。

在一种可能的实施方式中,训练所述目标骨干网络子模型的过程包括:

获得第一样本图像集中的至少两个原始第一样本图像;

针对每个原始第一样本图像,基于设定增广方式,对该原始第一样本图像进行变形,获得该原始第一样本图像对应的至少一个增广图像;

基于各增广图像以及设定的自监督学习方式,对待训练的骨干网络子模型进行训练,得到训练完成的目标骨干网络子模型。

在一种可能的实施方式中,所述基于各增广图像以及设定的自监督学习方式,对待训练的骨干网络子模型进行训练,包括:

针对每个原始第一样本图像,将该原始第一样本图像和/或该原始第一样本图像对应的增广图像作为第一样本图像子集中包含的图像;其中,每个第一样本图像子集中包含至少两个图像;

基于各第一样本图像子集,对待训练的骨干网络子模型进行至少一轮迭代训练,输出相应的目标多任务网络模型;其中,在每轮迭代过程中,至少执行以下步骤:

将至少两个第一样本图像子集中包含的各图像分别输入待训练的所述骨干网络子模型中,基于所述骨干网络子模型的输出结果,获得所述各图像的第二特征图信息;

基于每个第一样本图像子集中各图像的第二特征图信息之间的相似度、以及不同第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失;

基于所述训练损失,对所述骨干网络子模型进行模型参数调整。

在一种可能的实施方式中,所述基于每个第一样本图像子集中各图像的第二特征图信息之间的相似度、以及不同第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失,包括:

针对至少两个第一样本图像子集,获得所述至少两个第一样本图像子集的原始第一样本图像之间的相似度;根据该相似度,针对每个第一样本图像子集,确定该第一样本图像子集与其他第一样本图像子集之间的相似度等级;

针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、以及该第一样本图像子集中各图像的第二特征图信息与不同相似度等级的其他第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失。

在一种可能的实施方式中,所述针对每个第一样本图像子集,确定该第一样本图像子集与其他第一样本图像子集之间的相似度等级,包括:

若各第一样本图像子集中包含对应的原始第一样本图像,针对每个第一样本图像子集,确定的相似度等级中包括:该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级;

所述针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、以及该第一样本图像子集中各图像的第二特征图信息与不同相似度等级的其他第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失,包括:

针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系,获得训练损失。

在一种可能的实施方式中,所述针对每个第一样本图像子集,确定该第一样本图像子集与其他第一样本图像子集之间的相似度等级,包括:

若各第一样本图像子集中包含对应的原始第一样本图像,针对每个第一样本图像子集,确定的相似度等级中包括:该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级、该第一样本图像子集的原始第一样本图像与该第一样本图像子集中增广图像之间的相似度等级、该第一样本图像子集中各增广图像之间的相似度等级;

所述针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、以及该第一样本图像子集中各图像的第二特征图信息与不同相似度等级的其他第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失,包括:

针对每个第一样本图像子集,基于该第一样本图像子集中原始第一样本图像与该第一样本图像子集中增广图像的第二特征图信息之间的相似度、该第一样本图像子集中各增广图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系,获得训练损失。

在一种可能的实施方式中,获得所述第一特征图信息的过程包括:

获得第二样本图像集,将任一第二样本图像输入所述目标骨干网络子模型中,获得所述第二样本图像的目标特征图信息;

将所述目标特征图信息,确定为获得的所述第一特征图信息。

在一种可能的实施方式中,所述将训练完成的所述目标骨干网络子模型与所述各目标任务分支网络子模型进行拼接,包括:

获得训练完成的所述目标骨干网络子模型的第一参数文件、所述各目标任务分支网络子模型的第二参数文件;

将各第二参数文件分别并行拼接在所述第一参数文件的下游方向上。

在一种可能的实施方式中,所述方法还包括:

针对任一目标任务分支网络子模型,若获得对该目标任务分支网络子模型进行优化再训练后的优化任务分支网络子模型;根据该优化任务分支网络子模型,对多任务网络模型中的该目标任务分支网络子模型进行更新。

第二方面,本申请提供了一种多任务识别方法,所述方法包括:

获得待识别图像;

将所述待识别图像输入基于第一方面任一所述的方法训练得到的目标多任务网络模型中,获得至少一种深度学习任务的识别信息。

第三方面,本申请提供了一种多任务网络模型训练装置,所述装置包括:

输入模块,用于针对获得的任一第一特征图信息,将所述第一特征图信息分别输入至少一个待训练的任务分支网络子模型;其中,所述第一特征图信息是基于预先训练完成的目标骨干网络子模型获得的;

训练模块,用于分别基于各任务分支网络子模型各自的输出信息以及对应所述第一特征图信息的预设标签信息,对所述各任务分支网络子模型进行训练,得到训练完成的各目标任务分支网络子模型;

拼接模块,用于将所述目标骨干网络子模型与所述各目标任务分支网络子模型进行拼接,得到训练完成的目标多任务网络模型。

在一种可能的实施方式中,所述训练模块,还用于:

获得第一样本图像集中的至少两个原始第一样本图像;

针对每个原始第一样本图像,基于设定增广方式,对该原始第一样本图像进行变形,获得该原始第一样本图像对应的至少一个增广图像;

基于各增广图像以及设定的自监督学习方式,对待训练的骨干网络子模型进行训练,得到训练完成的目标骨干网络子模型。

在一种可能的实施方式中,所述训练模块,具体用于:

针对每个原始第一样本图像,将该原始第一样本图像和/或该原始第一样本图像对应的增广图像作为第一样本图像子集中包含的图像;其中,每个第一样本图像子集中包含至少两个图像;

基于各第一样本图像子集,对待训练的骨干网络子模型进行至少一轮迭代训练,输出相应的目标多任务网络模型;其中,在每轮迭代过程中,至少执行以下步骤:

将至少两个第一样本图像子集中包含的各图像分别输入待训练的所述骨干网络子模型中,基于所述骨干网络子模型的输出结果,获得所述各图像的第二特征图信息;

基于每个第一样本图像子集中各图像的第二特征图信息之间的相似度、以及不同第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失;

基于所述训练损失,对所述骨干网络子模型进行模型参数调整。

在一种可能的实施方式中,所述训练模块,具体用于:

针对至少两个第一样本图像子集,获得所述至少两个第一样本图像子集的原始第一样本图像之间的相似度;根据该相似度,针对每个第一样本图像子集,确定该第一样本图像子集与其他第一样本图像子集之间的相似度等级;

针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、以及该第一样本图像子集中各图像的第二特征图信息与不同相似度等级的其他第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失。

在一种可能的实施方式中,所述训练模块,具体用于:

若各第一样本图像子集中包含对应的原始第一样本图像,针对每个第一样本图像子集,确定的相似度等级中包括:该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级;

针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系,获得训练损失。

在一种可能的实施方式中,所述训练模块,具体用于:

若各第一样本图像子集中包含对应的原始第一样本图像,针对每个第一样本图像子集,确定的相似度等级中包括:该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级、该第一样本图像子集的原始第一样本图像与该第一样本图像子集中增广图像之间的相似度等级、该第一样本图像子集中各增广图像之间的相似度等级;

针对每个第一样本图像子集,基于该第一样本图像子集中原始第一样本图像与该第一样本图像子集中增广图像的第二特征图信息之间的相似度、该第一样本图像子集中各增广图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系,获得训练损失。

在一种可能的实施方式中,所述输入模块,具体用于:

获得第二样本图像集,将任一第二样本图像输入所述目标骨干网络子模型中,获得所述第二样本图像的目标特征图信息;

将所述目标特征图信息,确定为获得的所述第一特征图信息。

在一种可能的实施方式中,所述拼接模块,具体用于:

获得训练完成的所述目标骨干网络子模型的第一参数文件、所述各目标任务分支网络子模型的第二参数文件;

将各第二参数文件分别并行拼接在所述第一参数文件的下游方向上。

在一种可能的实施方式中,所述拼接模块,还用于:

针对任一目标任务分支网络子模型,若获得对该目标任务分支网络子模型进行优化再训练后的优化任务分支网络子模型;根据该优化任务分支网络子模型,对多任务网络模型中的该目标任务分支网络子模型进行更新。

第四方面,本申请提供了一种多任务识别装置,所述装置包括:

获得模块,用于获得待识别图像;

识别模块,用于将所述待识别图像输入基于第一方面任一所述的方法训练得到的目标多任务网络模型中,获得至少一种深度学习任务的识别信息。

第五方面,本申请提供了一种车辆,所述车辆包括如第三方面和第四方面任一所述的装置。

第六方面,本申请提供了一种计算机程序产品,包括计算机程序/指令,当所述计算机程序/指令处理器被执行时实现如第一方面和第二方面任一项所述的方法。

由于一方面,本申请对骨干网络子模型训练完成后,可以冻结骨干网络子模型的参数,基于确定的冻结的骨干网络子模型的参数,来对各任务分支网络子模型进行训练,骨干网络子模型的训练过程、各任务分支网络子模型的训练过程之间均是相互独立的,没有耦合关系,骨干网络子模型与各任务分支网络子模型之间无需联合训练,从而可以降低多任务网络模型训练的复杂度,大幅降低多任务网络模型的训练时间等成本,快捷灵活的完成对多任务网络模型的训练过程。

另一方面,本申请各个任务分支网络子模型的训练过程之间也互不影响,可对各个任务分支网络子模型单独迭代训练后再整合到多任务网络模型中,减少了各个任务分支网络子模型之间的耦合性,简化了多任务网络模型的训练流程。

再一方面,本申请各个任务分支网络子模型之间互相独立,基于训练完成的目标多任务网络模型在实际应用场景中完成多种深度学习任务的识别时,可以大幅加快多任务网络模型的识别速度。

再一方面,本申请在训练各任务分支网络子模型时,各任务分支网络子模型可以共享使用骨干网络子模型输出的第一特征图信息,相较于针对每个任务分支网络子模型,骨干网络子模型均推理一次输出一次第一特征图信息,需占用较多图形处理器(graphicsprocessing unit,GPU)显存而言,本申请骨干网络子模型可以只推理一次输出一个第一特征图信息,各任务分支网络子模型可以共享使用缓存的第一特征图信息,本申请可以大幅度降低GPU显存占用,可以提高训练速度,大幅度降低任务分支网络子模型的训练时间等训练成本。

基于此,本申请可以实现快捷简便地对多任务网络模型进行训练,快捷高效地同时完成多种深度学习任务的目的。

附图说明

为了更清楚地说明本申请实施例或相关技术中的实施方式,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1示出了一些实施例提供的一种多任务网络模型训练方法的实施过程示意图;

图2示出了一些实施例提供的一种多任务网络模型结构示意图;

图3示出了一些实施例提供的一种骨干网络子模型训练过程示意图;

图4示出了一些实施例提供的一种任务分支网络子模型训练过程示意图;

图5示出了一些实施例提供的一种多任务识别方法的实施过程示意图;

图6示出了一些实施例提供的一种多任务网络模型训练装置示意图;

图7示出了一些实施例提供的一种多任务识别装置示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步的详细描述,显然,本申请所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了快捷简便地对多任务网络模型进行训练,本申请提供了一种多任务网络模型训练方法、多任务识别方法、装置、车辆及程序产品。

本申请实施例所有实施方式对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

参阅图1,图1示出了一些实施例提供的一种多任务网络模型训练方法的实施过程示意图,该过程包括以下步骤:

S101:针对获得的任一第一特征图信息,将所述第一特征图信息分别输入至少一个待训练的任务分支网络子模型;其中,所述第一特征图信息是基于预先训练完成的目标骨干网络子模型获得的。

在一种可能的实施方式中,本申请实施例提供的多任务网络模型训练方法可以应用于电子设备,该电子设备例如可以是PC、移动终端等设备,也可以是服务器等设备。可选的,本申请实施例提供的多任务网络模型训练方法也可以应用于车辆等,该车辆例如是可以自动驾驶的车辆等。

在一种可能的实施方式中,参阅图2,图2示出了一些实施例提供的一种多任务网络模型结构示意图,如图2所示,多任务网络模型中可以包含一个骨干网络子模型以及至少一个任务分支网络子模型,如任务分支网络子模型1、任务分支网络子模型2、任务分支网络子模型3等。可选的,考虑到特征提取是计算机视觉任务的基础,良好的特征提取网络子模型可以明显的提升多任务网络模型的性能表现。在计算机视觉任务中,多任务网络模型中的骨干网络子模型可以是完成图像特征提取的网络模型,例如骨干网络子模型可以是:神经网络AlexNet、VGG模型(Visual Geometry Group Network)、经典网络DenseNet(DenseConvolutional Network)、残差网络(Residual Network,ResNet)等。可选的,针对场景分类、2D目标检测、车道线检测、3D目标检测等多种深度学习任务,可以为每种深度学习任务分别构建一个对应的任务分支网络子模型。其中,若干个任务分支网络子模型可以使用一个共享的骨干网络子模型。多任务网络模型在一次推理过程中,骨干网络子模型只推理一次,各个任务分支网络子模型可以共享使用骨干网络子模型推理得到的特征图信息,相较于在一次推理过程中,骨干网络子模型为每个任务分支网络子模型分别推理一次而言,或者相较于为多种不同的深度学习任务分别构建一个任务网络模型,每个任务网络模型中均包含一个骨干网络模型,各骨干网络模型分别推理等而言,本申请实施例中的多任务网络模型由于在一次推理过程中,骨干网络子模型只推理一次即可,从而可以显著减少推理的时间开销,提高效率。

在一种可能的实施方式中,在对多任务网络模型进行训练时,可以先对骨干网络子模型进行训练。可选的,考虑到相关技术中通常是通过有监督训练方式来对骨干网络子模型进行训练,例如,基于样本图像和人工为样本图像标注的标签信息来对骨干网络子模型进行训练,有监督训练方式需要大量的人工来标注标签信息,人工成本较高,耗时较长。为了快捷灵活的对骨干网络子模型进行训练,本申请实施例可以基于自监督训练方式来对骨干网络子模型进行训练。其中,自监督训练方式是无监督训练方式的一种,可以使用大规模的无需人工标注标签信息的图像作为骨干网络子模型的输入,通过设定的辅助任务(如图像对比学习、图像重建、图像切分排序等)来对骨干网络子模型进行训练,从而使得骨干网络子模型学习到相应的视觉表征信息。

具体的,在对骨干网络子模型进行训练时,可以先获得第一样本图像集(为方便描述,将训练骨干网络子模型所用的样本图像集称为第一样本图像集),然后基于第一样本图像集中的第一样本图像及设定的自监督训练算法,对待训练的多任务网络模型中的骨干网络子模型进行训练,得到训练完成的骨干网络子模型。可选的,训练目标骨干网络子模型的过程可以如下:

在训练目标骨干网络子模型时,可以先获得第一样本图像集中的至少两个原始第一样本图像。针对每个原始第一样本图像,可以基于设定增广方式,如平移、旋转、镜像、裁剪、颜色空间变换、尺寸变换等中的一种或多种,对该原始第一样本图像进行变形,从而获得该原始第一样本图像对应的至少一个增广图像。可以基于各增广图像以及设定的自监督学习方式,对待训练的骨干网络子模型进行训练,从而得到训练完成的目标骨干网络子模型。

由于本申请可以基于低成本的自监督训练方式对骨干网络子模型进行训练,对骨干网络子模型的训练过程没有依赖人工标注数据,从而可以降低训练成本。

在一种可能的实施方式中,以设定的自监督训练算法为图像对比学习这个辅助任务的算法为例,对骨干网络子模型的训练过程进行解释说明。参阅图3。图3示出了一些实施例提供的一种骨干网络子模型训练过程示意图,该过程如下:

可以先获得多个(至少两个)原始样本图像(原始第一样本图像)。然后针对每个原始第一样本图像,基于设定增广方式,如平移、旋转、镜像、裁剪、颜色空间变换、尺寸变换等中的一种或多种,对该原始第一样本图像进行变形,从而获得该原始第一样本图像对应的至少一个增广图像。例如图3中,可以通过不同增广方式,分别获得图像1这个原始第一样本图像的增广图像:图像1_1、图像1_2……(为方便描述,图中只示出了图像1_1和图像1_2),获得图像2这个原始第一样本图像的增广图像:图像2_1、图像2_2……(为方便描述,图中只示出了图像2_1和图像2_2)。可选的,针对每个原始第一样本图像,可以将该原始第一样本图像和/或该原始第一样本图像对应的增广图像作为一个第一样本图像子集中包含的图像;其中,每个第一样本图像子集中包含至少两个图像。也就是说,每个第一样本图像子集中可以包含多个(至少两个)图像,例如,第一样本图像子集中可以只包含任一原始第一样本图像对应的多个增广图像;第一样本图像子集中也可以包含任一原始第一样本图像以及该任一原始第一样本图像对应的至少一个增广图像。示例性的,图像1对应的第一样本图像子集可以只包含图像1的增广图像,如图像1_1、图像1_2……。另外,图像1对应的第一样本图像子集也可以包含图像1以及图像1的至少一个增广图像(如图像1_1、图像1_2等中的至少一个)。

示例性的,请再次参阅图3,为方便理解,先以将每个原始第一样本图像的增广图像作为一个第一样本图像子集中包含的图像为例,对本申请的骨干网络子模型的训练过程进行解释说明。例如,图像1对应的第一样本图像子集可以只包含图像1的增广图像,如图像1_1、图像1_2。图像2对应的第一样本图像子集可以只包含图像2的增广图像,如图像2_1、图像2_2。可选的,可以基于各第一样本图像子集,对待训练的骨干网络子模型进行至少一轮迭代训练,从而输出相应的训练完成的目标多任务网络模型;其中,在每轮迭代过程中,可以至少执行以下步骤:

先将多个(至少两个)第一样本图像子集中包含的各图像分别输入待训练的骨干网络子模型中,基于骨干网络子模型的输出结果,获得第一样本图像子集中包含的各图像的第二特征图信息。示例性的,请再次参阅图3,可以将图像1_1、图像1_2以及图像2_1、图像2_2均分别输入待训练的骨干网络子模型中,可选的,骨干网络子模型的下游还可以包含有特征转换头,经过骨干网络子模型和特征转换头的处理后,可以分别获得各图像的第二特征图信息,为方便描述,将图像1_1对应的第二特征图信息称为输出1,将图像1_2对应的第二特征图信息称为输出2,将图像2_1对应的第二特征图信息称为输出3,将图像2_2对应的第二特征图信息称为输出4。可以根据来源于同一个原始第一样本图像的各图像(如各增广图像)的特征图信息之间本应该相似,而来源于不同原始第一样本图像的各图像(如各增广图像)的特征图信息之间本应该不相似的标准(也称为基准、指导逻辑或监督信息),基于每个第一样本图像子集中各图像的第二特征图信息之间的相似度、以及不同第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,来构建(计算)损失函数(也可称为训练损失),基于该损失函数,对骨干网络子模型进行模型参数调整。

示例性的,可以基于输出1和输出2之间的相似度本应该高于设定相似度阈值,输出3和输出4之间的相似度也本应该高于设定相似度阈值,而输出1与输出3之间的相似度、输出1与输出4之间的相似度、输出2与输出3之间的相似度、输出2与输出4之间的相似度均应该不高于设定相似度阈值的标准,来构建损失函数。例如,当获得的输出1和输出2之间的相似度实际上高于设定相似度阈值,输出3和输出4之间的相似度也高于设定相似度阈值,而输出1与输出3之间的相似度、输出1与输出4之间的相似度、输出2与输出3之间的相似度、输出2与输出4之间的相似度均不高于设定相似度阈值时,可以认为骨干网络子模型的识别结果较准确,训练损失可以较小;否则,可以认为骨干网络子模型的识别结果不太准确,训练损失可以较大,可以认为需要对骨干网络子模型的模型参数进行调整。具体实施中,对骨干网络子模型中的参数进行调整时,可以采用梯度下降算法等,对骨干网络子模型的参数的梯度进行反向传播,从而对骨干网络子模型进行训练,在此不再赘述。

由于本申请针对每个原始第一样本图像,可以将该原始第一样本图像和/或该原始第一样本图像对应的增广图像作为第一样本图像子集中包含的图像,可以基于每个第一样本图像子集中各图像的第二特征图信息之间的相似度、以及不同第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失,基于该训练损失获得的目标骨干网络子模型的准确性较高。

在一种可能的实施方式中,考虑到不同原始第一样本图像之间本身也会有相似度的差异,例如原始第一样本图像包括图像1、图像2、图像3时,图像1与图像2之间相似度可能较高,而图像1与图像3之间相似度可能较低,即相较于图像3,图像1与图像2更相似。为了提高骨干网络子模型的准确性,还可以基于不同原始第一样本图像之间相似度的差异来获得训练损失。具体的,在获得训练损失时,针对至少两个第一样本图像子集,还可以基于Transformer自注意力机制(Self-Attention)等,获得该至少两个第一样本图像子集的原始第一样本图像之间的相似度;根据该相似度,针对每个第一样本图像子集,确定该第一样本图像子集与其他第一样本图像子集之间的相似度等级。示例性的,以第一样本图像子集为图像1、图像2、图像3对应的第一样本图像子集,图像1与图像2之间相似度较高,而图像1与图像3之间相似度较低为例,针对图像1对应的第一样本图像子集(为方便描述,后续将图像1对应的第一样本图像子集称为第一样本图像子集1,将图像2对应的第一样本图像子集称为第一样本图像子集2,将图像3对应的第一样本图像子集称为第一样本图像子集3),可以将第一样本图像子集1中各图像之间的相似度等级配置为相似度最高等级,如0级;将第一样本图像子集1中各图像与第一样本图像子集2中各图像之间的相似度等级配置为第二高相似度等级,如1级;将第一样本图像子集1中各图像与第一样本图像子集3中各图像之间的相似度等级配置为第三高相似度等级(最低相似度等级),如2级。

示例性的,上述配置的各第一样本图像子集之间的相似度等级,可以认为是各第一样本图像子集中各图像的第二特征图信息之间的相似度等级。后续可以根据配置的各第一样本图像子集中各图像的第二特征图信息之间的相似度等级的基准,来针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、以及该第一样本图像子集中各图像的第二特征图信息与不同相似度等级的其他第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得相应的训练损失。

示例性的,以第一样本图像子集1为例,可以根据第一样本图像子集1中各图像的第二特征图信息之间的相似度本应该最高(如高于第一相似度阈值)、第一样本图像子集1中各图像与第一样本图像子集2中各图像的第二特征图信息之间的相似度本应该为次高(如高于第二相似度阈值而低于第一相似度阈值)、第一样本图像子集1中各图像与第一样本图像子集3中各图像的第二特征图信息之间的相似度本应该最低(如低于第二相似度阈值)作为基准,来构建损失函数。例如,当骨干网络子模型输出的第一样本图像子集1中各图像的第二特征图信息之间的相似度实际上也最高、第一样本图像子集1中各图像与第一样本图像子集2中各图像的第二特征图信息之间的相似度为次高、第一样本图像子集1中各图像与第一样本图像子集3中各图像的第二特征图信息之间的相似度为最低时,可以认为骨干网络子模型的识别结果较准确,获得的训练损失可以较小;否则,可以认为骨干网络子模型的识别结果不太准确,获得的训练损失可以较大,可以认为需要对骨干网络子模型的模型参数进行调整。具体实施中,对骨干网络子模型中的参数进行调整时,可以采用梯度下降算法等,对骨干网络子模型的参数的梯度进行反向传播,从而对骨干网络子模型进行训练,在此不再赘述。

由于本申请可以根据各原始第一样本图像之间的相似度,确定各第一样本图像子集之间的相似度等级,后续可以针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、以及该第一样本图像子集中各图像的第二特征图信息与不同相似度等级的其他第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失,基于该训练损失获得的目标骨干网络子模型的准确性较高。

在一种可能的实施方式中,考虑到原始第一样本图像与增广图像的图像质量等可能不同,可能会导致原始第一样本图像与增广图像的第二特征图信息的相似度之间可能会有差异,例如图像1这个原始第一样本图像与图像2这个原始第一样本图像的第二特征图信息的相似度可能会高于图像1与图像2的增广图像图像2_1的第二特征图信息之间的相似度,为了提高骨干网络子模型的准确性,在对骨干网络子模型进行训练,确定相似度等级时,若各第一样本图像子集中包含对应的原始样本图像(原始第一样本图像),针对每个第一样本图像子集,确定的相似度等级中可以包括:该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级。示例性的,针对每个第一样本图像子集,可以确定该第一样本图像子集中原始第一样本图像与其他第一样本图像子集中原始第一样本图像之间的相似度等级、该第一样本图像子集中原始第一样本图像与其他第一样本图像子集中增广图像之间的相似度等级、该第一样本图像子集中增广图像与其他第一样本图像子集中原始第一样本图像之间的相似度等级、该第一样本图像子集中增广图像与其他第一样本图像子集中增广图像之间的相似度等级。

示例性的,以第一样本图像子集1为例,可以将第一样本图像子集1中各图像之间的相似度等级配置为相似度最高等级,如0级。

可以将第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集2中原始第一样本图像(图像2)之间的相似度等级配置为第二高相似度等级,如1级。

可以将第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集2中增广图像2_1、图像2_2之间的相似度等级、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集2中原始第一样本图像(图像2)之间的相似度等级配置为第三高相似度等,如2级。

可以将第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集2中增广图像2_1、图像2_2之间的相似度等级配置为第四高相似度等,如3级。

可以将第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集3中原始第一样本图像(图像3)之间的相似度等级配置为第五高相似度等级,如4级。

可以将第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集3中增广图像3_1、图像3_2之间的相似度等级、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集3中原始第一样本图像(图像3)之间的相似度等级配置为第六高相似度等,如5级。

可以将第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集3中增广图像3_1、图像3_2之间的相似度等级配置为第七高相似度(最低相似度等级)等,如6级。

示例性的,上述配置的各第一样本图像子集之间的相似度等级,可以认为是各第一样本图像子集中各图像的第二特征图信息之间的相似度等级。后续可以根据配置的每个第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级的基准,来针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系,获得训练损失。

示例性的,以第一样本图像子集1为例,可以根据第一样本图像子集1中各图像的第二特征图信息之间的相似度本应该最高(如高于第一相似度阈值)、第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集2中原始第一样本图像(图像2)的第二特征图信息之间的相似度本应该为次高(如高于第二相似度阈值而低于第一相似度阈值)、第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集2中增广图像2_1、图像2_2的第二特征图信息之间的相似度本应该为第三高(如高于第三相似度阈值而低于第二相似度阈值)、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集2中原始第一样本图像(图像2)的第二特征图信息之间的相似度也本应该为第三高(如高于第三相似度阈值而低于第二相似度阈值)、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集2中增广图像2_1、图像2_2的第二特征图信息之间的相似度本应该为第四高(如高于第四相似度阈值而低于第三相似度阈值)、第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集3中原始第一样本图像(图像3)的第二特征图信息之间的相似度本应该为第五高(如高于第五相似度阈值而低于第四相似度阈值)、第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集3中增广图像3_1、图像3_2的第二特征图信息之间的相似度本应该为第六高(如高于第六相似度阈值而低于第五相似度阈值)、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集3中原始第一样本图像(图像3)的第二特征图信息之间的相似度也本应该为第六高(如高于第六相似度阈值而低于第五相似度阈值)、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集3中增广图像3_1、图像3_2的第二特征图信息之间的相似度本应该为最低(如低于第六相似度阈值)作为基准,来构建损失函数(训练损失)。其中,构建训练损失的过程与上述实施例构建训练损失的过程类似,例如,当针对每个第一样本图像子集,该第一样本图像子集中各图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系与配置的相似度等级中相应大小关系相同时,可以认为骨干网络子模型的识别结果较准确,获得的训练损失可以较小;否则,可以认为骨干网络子模型的识别结果不太准确,获得的训练损失可以较大,可以认为需要对骨干网络子模型的模型参数进行调整,在此不再赘述。

由于本申请针对每个第一样本图像子集,确定的相似度等级中可以包括:该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级,后续可以针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系,获得训练损失,基于该训练损失获得的目标骨干网络子模型的准确性较高。

在一种可能的实施方式中,为了提高骨干网络子模型的准确性,还可以配置同一第一样本图像子集中原始第一样本图像与增广图像之间的相似度等级、增广图像与增广图像之间的相似度等级。具体的,配置各第一样本图像子集之间的相似度等级时,除了可以针对每个第一样本图像子集,配置该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级之外,还可以配置该第一样本图像子集的原始第一样本图像与该第一样本图像子集中增广图像之间的相似度等级、以及该第一样本图像子集的各增广图像之间的相似度等级。

示例性的,以第一样本图像子集1为例,可以将第一样本图像子集1中原始第一样本图像(图像1)与该第一样本图像子集中增广图像(图像1_1、图像1_2)之间的相似度等级配置为相似度最高等级,如0级。

可以将第一样本图像子集1中各增广图像(图像1_1与图像1_2)之间的相似度等级配置为第二高相似度等级,如1级。

可以将第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集2中原始第一样本图像(图像2)之间的相似度等级配置为第三高相似度等级,如2级。

可以将第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集2中增广图像2_1、图像2_2之间的相似度等级、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集2中原始第一样本图像(图像2)之间的相似度等级配置为第四高相似度等,如3级。

可以将第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集2中增广图像2_1、图像2_2之间的相似度等级配置为第五高相似度等,如4级。

可以将第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集3中原始第一样本图像(图像3)之间的相似度等级配置为第六高相似度等级,如5级。

可以将第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集3中增广图像3_1、图像3_2之间的相似度等级、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集3中原始第一样本图像(图像3)之间的相似度等级配置为第七高相似度等,如6级。

可以将第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集3中增广图像3_1、图像3_2之间的相似度等级配置为第八高相似度(最低相似度等级)等,如7级。

示例性的,上述配置的各第一样本图像子集之间的相似度等级,可以认为是各第一样本图像子集中各图像的第一特征图信息之间的相似度等级。后续可以针对每个第一样本图像子集,根据配置的该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级、该第一样本图像子集的原始第一样本图像与该第一样本图像子集中增广图像之间的相似度等级、该第一样本图像子集的各增广图像之间的相似度等级的基准,来针对每个第一样本图像子集,基于该第一样本图像子集中原始第一样本图像与该第一样本图像子集中增广图像的第二特征图信息之间的相似度、该第一样本图像子集的各增广图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系,获得训练损失。

示例性的,以第一样本图像子集1为例,可以根据第一样本图像子集1中原始第一样本图像(图像1)与该第一样本图像子集中增广图像(图像1_1、图像1_2)的第二特征图信息之间的相似度本应该最高(如高于第一相似度阈值)、第一样本图像子集1中图像1_1和图像1_2等各增广图像的第二特征图信息之间的相似度本应该为次高(如高于第二相似度阈值而低于第一相似度阈值)、第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集2中原始第一样本图像(图像2)的第二特征图信息之间的相似度本应该为第三高(如高于第三相似度阈值而低于第二相似度阈值)、第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集2中增广图像2_1、图像2_2的第二特征图信息之间的相似度本应该为第四高(如高于第四相似度阈值而低于第三相似度阈值)、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集2中原始第一样本图像(图像2)的第二特征图信息之间的相似度也本应该为第四高(如高于第四相似度阈值而低于第三相似度阈值)、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集2中增广图像2_1、图像2_2的第二特征图信息之间的相似度本应该为第五高(如高于第五相似度阈值而低于第四相似度阈值)、第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集3中原始第一样本图像(图像3)的第二特征图信息之间的相似度本应该为第六高(如高于第六相似度阈值而低于第五相似度阈值)、第一样本图像子集1中原始第一样本图像(图像1)与第一样本图像子集3中增广图像3_1、图像3_2的第二特征图信息之间的相似度本应该为第七高(如高于第七相似度阈值而低于第六相似度阈值)、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集3中原始第一样本图像(图像3)的第二特征图信息之间的相似度也本应该为第七高(如高于第七相似度阈值而低于第六相似度阈值)、第一样本图像子集1中增广图像(图像1_1、图像1_2)与第一样本图像子集3中增广图像3_1、图像3_2的第二特征图信息之间的相似度本应该为最低(如低于第七相似度阈值)作为基准,来构建损失函数(训练损失)。其中,构建训练损失的过程与上述实施例构建训练损失的过程类似,例如,当针对每个第一样本图像子集,该第一样本图像子集中原始第一样本图像与该第一样本图像子集中增广图像的第二特征图信息之间的相似度、该第一样本图像子集的各增广图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系与配置的相似度等级中相应大小关系相同时,可以认为骨干网络子模型的识别结果较准确,获得的训练损失可以较小;否则,可以认为骨干网络子模型的识别结果不太准确,获得的训练损失可以较大,可以认为需要对骨干网络子模型的模型参数进行调整,在此不再赘述。

其中,本申请对上述实施例中涉及的相似度阈值不作具体限定,可以根据需求灵活设置。示例性的,第一样本图像集可以来自车辆采集的自动驾驶场景的图像数据或者来自网络开源的自动驾驶场景的图像数据等。

由于本申请除了可以针对每个第一样本图像子集,确定该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级之外,还可以确定该第一样本图像子集中原始第一样本图像与增广图像之间的相似度等级、以及该第一样本图像子集中各增广图像之间的相似度等级,后续还可以基于该第一样本图像子集中原始第一样本图像与该第一样本图像子集中增广图像的第二特征图信息之间的相似度、该第一样本图像子集中各增广图像的第二特征图信息之间的相似度等,获得训练损失,基于该训练损失获得的目标骨干网络子模型的准确性较高。

在一种可能的实施方式中,本申请对自监督训练算法不作具体限定。示例性的,自监督训练算法还可以为图像重建、图像切分排序等辅助任务的算法。辅助任务不同时,对样本图像的预处理方式可以不同。示例性的,当自监督训练算法为图像重建这个辅助任务的算法时,训练人员等可以随机盖住(mask掉)样本图像中的一部分原图像,然后将mask掉一部分原图像的样本图像作为第一样本图像,输入(喂入)骨干网络子模型中,期望骨干网络子模型可以预测输出mask掉的那部分原图像。可以将mask掉的那部分原图像作为基准,对骨干网络子模型进行自监督训练,例如骨干网络子模型输出的图像与mask掉的那部分原图像相似度越高时,可以认为骨干网络子模型的准确性越高,反之,可以认为骨干网络子模型的准确性越低,可以通过对骨干网络子模型进行模型参数调整,从而对骨干网络子模型进行训练,提高骨干网络子模型的准确性等,在此不再赘述。

再示例性的,当自监督训练算法为图像切分排序这个辅助任务的算法时,可以使用拼图游戏等作为自监督训练的前置任务(pretext task)。例如可以取样本图像中的某一部分,将其分成九份,之后可以按照一定排布的类别等策略将这九份子图像打乱顺序,依次输入到接收九个输入的孪生网络(骨干网络子模型)中,期望骨干网络子模型可以预测输出不同排布的类别,达到特征学习的目的,在此不再赘述。

在一种可能的实施方式中,基于无标注标签信息的第一样本图像集,得到训练完成的目标骨干网络子模型之后,可以基于训练完成的目标骨干网络子模型以及有标注标签信息的第二样本图像集(为方便描述,将用于生成第一特征图信息进而采用第一特征图信息训练任务分支网络子模型所用的样本图像集称为第二样本图像集),对待训练的各任务分支网络子模型进行训练。具体的,在获得第一特征图信息时,可以将第二样本图像集中的任一第二样本图像输入训练完成的目标骨干网络子模型中,从而获得该第二样本图像的目标特征图信息,可以将该第二样本图像的目标特征图信息,确定为获得的第一特征图信息。可选的,可以将获得的第一特征图信息保存(缓存)在磁盘文件中。

S102:分别基于各任务分支网络子模型各自的输出信息以及对应所述第一特征图信息的预设标签信息,对所述各任务分支网络子模型进行训练,得到训练完成的各目标任务分支网络子模型。

在一种可能的实施方式中,在对各任务分支网络子模型进行训练时,可以将保存在磁盘文件中的第一特征图信息输入待训练的若干个任务分支网络子模型中,通过比较任务分支网络子模型的输出结果与对应第一特征图信息的预设标签信息之间的差异,来构建训练损失,基于该训练损失,对任务分支网络子模型进行模型参数调整,从而对任务分支网络子模型进行训练。其中,对应第一特征图信息的预设标签信息可以为与第一特征图信息相应的第二样本图像的标注标签信息。

示例性的,参阅图4所示,图4示出了一些实施例提供的一种任务分支网络子模型训练过程示意图,该过程主要包括:

先将第二样本图像输入训练完成的目标骨干网络子模型中,获得第一特征图信息,并将获得的第一特征图信息保存(缓存)在磁盘文件中。

将保存在磁盘文件中的第一特征图信息分别输入待训练的2个任务分支网络子模型中,如任务分支网络子模型1和任务分支网络子模型2中,针对每个任务分支网络子模型,可以通过比较该任务分支网络子模型的输出结果与对应第一特征图信息的预设标签信息之间的差异,来构建训练损失,基于该训练损失,对任务分支网络子模型进行模型参数调整,从而对任务分支网络子模型进行训练。例如,任务分支网络子模型1可以通过比较任务分支网络子模型1的输出结果1与相应标签信息(对应第一特征图信息的预设标签信息)中深度学习任务1(为方便描述,将任务分支网络子模型1完成的深度学习任务,称为深度学习任务1)相应的子标签信息之间的差异,来构建训练损失。任务分支网络子模型2可以通过比较任务分支网络子模型2的输出结果2与相应标签信息中深度学习任务2(为方便描述,将任务分支网络子模型2完成的深度学习任务,称为深度学习任务2)相应的子标签信息之间的差异,来构建训练损失。其中,通过比较模型的输出结果与相应标签信息之间的差异,来构建训练损失以及基于该训练损失进行模型参数调整可以采用现有技术,在此不再赘述。

可选的,对骨干网络子模型的训练过程与对各任务分支网络子模型的训练过程可以在同一电子设备中进行,也可以在不同电子设备中进行,本申请对此不作具体限定。

S103:将所述目标骨干网络子模型与所述各目标任务分支网络子模型进行拼接,得到训练完成的目标多任务网络模型。

在一种可能的实施方式中,得到训练完成的目标骨干网络子模型与各目标任务分支网络子模型之后,可以通过将训练完成的目标骨干网络子模型与各目标任务分支网络子模型进行拼接,从而得到训练完成的目标多任务网络模型。例如,请再次参阅图2,可以将各目标任务分支网络子模型分别并行拼接在目标骨干网络子模型的下游方向上,从而得到训练完成的目标多任务网络模型。

在一种可能的实施方式中,为了快捷准确地获得目标多任务网络模型,在将目标骨干网络子模型与各目标任务分支网络子模型进行拼接时,可以是先获得目标骨干网络子模型的第一参数文件以及各任务分支网络子模型的第二参数文件,然后将各第二参数文件分别并行拼接在第一参数文件的下游方向上。可选的,第一参数文件和第二参数文件可以是微软设计的一个开放式深度学习神经网络模型的格式(Open Neural NetworkExchange,ONNX)的文件。

在一种可能的实施方式中,获得训练完成的目标多任务网络模型后,还可以对训练完成的目标多任务网络模型进行评估,校验目标多任务网络模型的准确率和泛化能力,并可以对目标多任务网络模型的参数进行优化,以使其可以获得更好的性能,在此不再赘述。

由于一方面本申请对骨干网络子模型训练完成后,可以冻结骨干网络子模型的参数,基于确定的冻结的骨干网络子模型的参数,来对各任务分支网络子模型进行训练,骨干网络子模型的训练过程、各任务分支网络子模型的训练过程之间均是相互独立的,没有耦合关系,骨干网络子模型与各任务分支网络子模型之间无需联合训练,从而可以降低多任务网络模型训练的复杂度,大幅降低多任务网络模型的训练时间等成本,快捷灵活的完成对多任务网络模型的训练过程。

另一方面,本申请各个任务分支网络子模型的训练过程之间也互不影响,可对各个任务分支网络子模型单独迭代训练后再整合到多任务网络模型中,减少了各个任务分支网络子模型之间的耦合性,简化了多任务网络模型的训练流程。

再一方面,本申请各个任务分支网络子模型之间互相独立,基于训练完成的目标多任务网络模型在实际应用场景中完成多种深度学习任务的识别时,可以大幅加快多任务网络模型的识别速度。

再一方面,本申请在训练各任务分支网络子模型时,各任务分支网络子模型可以共享使用骨干网络子模型输出的第二特征图信息,相较于针对每个任务分支网络子模型,骨干网络子模型均推理一次输出一次第二特征图信息,需占用较多图形处理器(graphicsprocessing unit,GPU)显存而言,本申请骨干网络子模型可以只推理一次输出一个第二特征图信息,各任务分支网络子模型可以共享使用缓存的第二特征图信息,本申请可以大幅度降低GPU显存占用,可以提高训练速度,大幅度降低任务分支网络子模型的训练时间等训练成本。

基于此,本申请可以实现快捷简便地对多任务网络模型进行训练,快捷高效地同时完成多种深度学习任务的目的。

在一种可能的实施方式中,为了提高多任务网络模型优化的快捷性和灵活性,针对任一任务分支网络子模型,若需要对该任务分支网络子模型进行优化再训练时,可以单独对该任务分支网络子模型进行优化再训练,其中进行优化再训练的方式与上述实施例中对任务分支网络子模型的训练过程类似,在此不再赘述。可选的,当对该任务分支网络子模型进行优化再训练,获得对该任务分支网络子模型进行优化再训练后的优化任务分支网络子模型时,可以根据该优化任务分支网络子模型,对多任务网络模型中的该目标任务分支网络子模型进行更新。示例性的,针对某个任务分支网络子模型,可以获得该优化任务分支网络子模型对应的优化再训练后的优化任务分支网络子模型的优化参数文件,将多任务网络模型中该任务分支网络子模型对应的第二参数文件,更新为该优化参数文件,从而可以快捷灵活地对多任务网络模型进行优化。

由于本申请各个任务分支网络子模型之间互不影响,可对各个任务分支网络子模型单独优化训练后再整合到多任务网络模型中,可以快捷灵活地对多任务网络模型进行优化。

基于相同的技术构思,本申请提供了一种多任务识别方法,参阅图5,图5示出了一些实施例提供的一种多任务识别方法的实施过程示意图,该过程包括以下步骤:

S501:获得待识别图像。

在一种可能的实施方式中,本申请实施例提供的多任务识别方法可以应用于车辆等交通设备。另外,本申请实施例提供的多任务识别方法也可以应用于PC、移动终端、服务器等电子设备。为方便理解,下面以应用于车辆为例对本申请实施例提供的多任务识别过程进行举例说明。

在一种可能的实施方式中,在车辆行驶过程中,车辆中的摄像头等图像采集模块可以按照设定的频率采集车辆周边环境的图像,可以将采集到的图像作为待识别图像。另外,车辆也可以接收其他车辆或者其他电子设备发送的图像,将接收到的图像作为获得的待识别图像。

S502:将所述待识别图像输入基于上述任一所述的方法训练得到的目标多任务网络模型中,获得至少一种深度学习任务的识别信息。

在一种可能的实施方式中,获得待识别图像后,可以将该图像输入基于上述多任务网络模型训练方法训练得到的目标多任务网络模型中,根据该目标多任务网络模型的输出结果,获得(识别)多种深度学习任务的识别信息。示例性的,将图像输入目标多任务网络模型后,可以先基于目标多任务网络模型中的骨干网络子模型,获得该图像的特征图信息,然后该特征图信息可以分别输入到目标多任务网络模型中的各个(若干个)任务分支网络子模型中,基于各个任务分支网络子模型的输出结果,可以获得若干种(至少一种)深度学习任务的识别信息,在此不再赘述。

基于相同的技术构思,本申请还提供了一种多任务网络模型训练装置,参阅图6,图6示出了一些实施例提供的一种多任务网络模型训练装置示意图,该装置包括:

输入模块61,用于针对获得的任一第一特征图信息,将所述第一特征图信息分别输入至少一个待训练的任务分支网络子模型;其中,所述第一特征图信息是基于预先训练完成的目标骨干网络子模型获得的;

训练模块62,用于分别基于各任务分支网络子模型各自的输出信息以及对应所述第一特征图信息的预设标签信息,对所述各任务分支网络子模型进行训练,得到训练完成的各目标任务分支网络子模型;

拼接模块63,用于将所述目标骨干网络子模型与所述各目标任务分支网络子模型进行拼接,得到训练完成的目标多任务网络模型。

在一种可能的实施方式中,所述训练模块62,还用于:

获得第一样本图像集中的至少两个原始第一样本图像;

针对每个原始第一样本图像,基于设定增广方式,对该原始第一样本图像进行变形,获得该原始第一样本图像对应的至少一个增广图像;

基于各增广图像以及设定的自监督学习方式,对待训练的骨干网络子模型进行训练,得到训练完成的目标骨干网络子模型。

在一种可能的实施方式中,所述训练模块62,具体用于:

针对每个原始第一样本图像,将该原始第一样本图像和/或该原始第一样本图像对应的增广图像作为第一样本图像子集中包含的图像;其中,每个第一样本图像子集中包含至少两个图像;

基于各第一样本图像子集,对待训练的骨干网络子模型进行至少一轮迭代训练,输出相应的目标多任务网络模型;其中,在每轮迭代过程中,至少执行以下步骤:

将至少两个第一样本图像子集中包含的各图像分别输入待训练的所述骨干网络子模型中,基于所述骨干网络子模型的输出结果,获得所述各图像的第二特征图信息;

基于每个第一样本图像子集中各图像的第二特征图信息之间的相似度、以及不同第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失;

基于所述训练损失,对所述骨干网络子模型进行模型参数调整。

在一种可能的实施方式中,所述训练模块62,具体用于:

针对至少两个第一样本图像子集,获得所述至少两个第一样本图像子集的原始第一样本图像之间的相似度;根据该相似度,针对每个第一样本图像子集,确定该第一样本图像子集与其他第一样本图像子集之间的相似度等级;

针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、以及该第一样本图像子集中各图像的第二特征图信息与不同相似度等级的其他第一样本图像子集中各图像的第二特征图信息之间相似度的大小关系,获得训练损失。

在一种可能的实施方式中,所述训练模块62,具体用于:

若各第一样本图像子集中包含对应的原始第一样本图像,针对每个第一样本图像子集,确定的相似度等级中包括:该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级;

针对每个第一样本图像子集,基于该第一样本图像子集中各图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系,获得训练损失。

在一种可能的实施方式中,所述训练模块62,具体用于:

若各第一样本图像子集中包含对应的原始第一样本图像,针对每个第一样本图像子集,确定的相似度等级中包括:该第一样本图像子集中原始第一样本图像和/或增广图像与其他第一样本图像子集中原始第一样本图像和/或增广图像之间的相似度等级、该第一样本图像子集的原始第一样本图像与该第一样本图像子集中增广图像之间的相似度等级、该第一样本图像子集中各增广图像之间的相似度等级;

针对每个第一样本图像子集,基于该第一样本图像子集中原始第一样本图像与该第一样本图像子集中增广图像的第二特征图信息之间的相似度、该第一样本图像子集中各增广图像的第二特征图信息之间的相似度、该第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息与其他第一样本图像子集中原始第一样本图像和/或增广图像的第二特征图信息之间的相似度的大小关系,获得训练损失。

在一种可能的实施方式中,所述输入模块61,具体用于:

获得第二样本图像集,将任一第二样本图像输入所述目标骨干网络子模型中,获得所述第二样本图像的目标特征图信息;

将所述目标特征图信息,确定为获得的所述第一特征图信息。

在一种可能的实施方式中,所述拼接模块63,具体用于:

获得训练完成的所述目标骨干网络子模型的第一参数文件、所述各目标任务分支网络子模型的第二参数文件;

将各第二参数文件分别并行拼接在所述第一参数文件的下游方向上。

在一种可能的实施方式中,所述拼接模块63,还用于:

针对任一目标任务分支网络子模型,若获得对该目标任务分支网络子模型进行优化再训练后的优化任务分支网络子模型;根据该优化任务分支网络子模型,对多任务网络模型中的该目标任务分支网络子模型进行更新。

基于相同的技术构思,本申请还提供了一种多任务识别装置,参阅图7,图7示出了一些实施例提供的一种多任务识别装置示意图,该装置包括:

获得模块71,用于获得待识别图像;

识别模块72,用于将所述待识别图像输入基于第一方面任一所述的方法训练得到的目标多任务网络模型中,获得至少一种深度学习任务的识别信息。

基于相同的技术构思,本申请还提供了一种车辆,该车辆可以包括上述任一实施例中的多任务网络模型训练装置和多任务识别装置,在此不再赘述。

基于相同的技术构思,本申请还提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,当该计算机程序/指令处理器被执行时实现如上述任一所述的多任务网络模型训练方法和多任务识别方法。

本申请中的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备、核心网设备、OAM或者其它可编程装置。

所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘;还可以是半导体介质,例如,固态硬盘。该计算机可读存储介质可以是易失性或非易失性存储介质,或可包括易失性和非易失性两种类型的存储介质。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 图像的识别方法、卷积神经网络模型的训练方法及装置
  • 多任务处理及多任务处理模型训练方法、装置和硬件装置
  • 一种面向车辆控制的多任务运动想象脑电特征提取及模式识别方法
  • 行人再识别方法和装置、电子设备、存储介质、程序产品
  • 交通元素识别方法、多任务网络模型及训练方法和装置
  • 基于多任务的人脸识别方法、网络模型、训练方法及介质
技术分类

06120116501113