掌桥专利:专业的专利平台
掌桥专利
首页

一种基于NAS技术的坐标识别模型的搜索方法及装置

文献发布时间:2023-06-19 11:08:20


一种基于NAS技术的坐标识别模型的搜索方法及装置

技术领域

本申请涉及计算机视觉技术领域,尤其涉及一种基于NAS技术的坐标识别模型的搜索方法及装置。本申请具体提供一种坐标识别模型的训练方法及装置。

背景技术

目前,在对待识别图像中包含的人体的动作类别进行识别时,一般是通过预先手工设计并训练的神经网络模型从而实现的。但是,由于通过手工设计模型的方式缺乏对人体动作类别的针对性优化,因此,会降低神经网络模型在识别人体动作时的精度和速度。

为了解决上述问题,相关技术中,可以通过神经网络搜索(Neural ArchitectureSearch,NAS)来自动设计神经网络模型中包含的网络结构。NAS通常包括搜索空间、搜索策略和性能评估策略三个主要模块。在不同的场景下,模型对于搜索空间、搜索策略和性能评估策略通常有不同的要求,因此,如果要将NAS应用到坐标识别中,需要结合坐标识别场景的实际需求,对NAS的三个主要模块进行针对化的设计。那么,如何能够结合NAS实现对坐标识别模型的自动设计,成为了一个亟待解决的问题。

发明内容

本申请实施例提供一种坐标识别模型的训练方法及装置,以结合NAS实现对坐标识别模型的自动设计。

本申请实施例提供的具体技术方案如下:

一种坐标识别模型的训练方法,包括:

获取基线模型的各超参数的取值范围,并根据所述各超参数的取值范围,将不同取值下的超参数进行组合,生成多个数值组合,其中,所述数值组合中包含有各超参数,以及各超参数的取值;

分别针对各数值组合,将所述基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型;

分别针对各候选的坐标识别模型,将图像样本集输入至任意一个候选的坐标识别模型中进行训练,并计算该候选的坐标识别模型的误差值,其中,所述图像样本集中包含有各图像样本和对应的样本标签,所述样本标签表征图像样本中包含的各人体关键点的真实二维坐标;

将满足预设的误差值条件的候选的坐标识别模型作为最终优化后的坐标识别模型。

可选的,分别针对各数值组合,将所述基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型之后,进一步包括:

获取决策信息,其中,所述决策信息为随机采样的搜索策略、基于强化学习的搜索策略或基于进化算法的搜索策略,所述搜索策略信息;

采用所述决策信息,从各候选的坐标识别模型中,确定出最终进行训练的各候选的坐标识别模型。

可选的,获取基线模型的各超参数的取值范围之前,进一步包括:

获取用户输入的目标运行条件,其中,所述目标运行条件至少包括目标速度条件和/或目标精度条件;

从预设的模型数据库中包含的各候选的基线模型中,查找到满足所述目标运行条件的基线模型。

可选的,将图像样本集输入至任意一个候选的坐标识别模型中进行训练,并计算该候选的坐标识别模型的误差值,具体包括:

分别针对获取到的图像样本集中的各图像样本,将任意一张图像样本输入至任意一个候选的坐标识别模型中,识别获得该图像样本中的人体包含的各人体关键点,以及各人体关键点对应的预测二维坐标,并分别计算各预测二维坐标与对应的真实二维坐标之间的欧式距离值;

根据计算出的各欧式距离值、图像样本的面积和预设的识别难度系数,确定该候选的坐标识别模型的误差值。

可选的,将满足预设的误差值条件的候选的坐标识别模型作为最终优化后的坐标识别模型,具体包括:

将所述误差值最小对应的候选的坐标识别模型,作为最终优化后的坐标识别模型。

可选的,所述超参数至少包括以下一种或任意组合:卷积通道数、卷积层数、卷积类型。

可选的,将所述误差值最小对应的候选的坐标识别模型,作为最终优化后的坐标识别模型之后,进一步包括:

获取待识别图像,其中,所述待识别图像中包含有人体;

基于所述优化后的坐标识别模型,以所述待识别图像为输入参数,识别所述待识别图像中包含的各人体关键点,并获取所述各人体关键点的二维坐标;

根据所述各人体关键点的二维坐标,识别所述待识别图像中包含的人体的人体动作类别。

一种坐标识别模型的训练装置,包括:

第一获取模块,用于获取基线模型的各超参数的取值范围,并根据所述各超参数的取值范围,将不同取值下的超参数进行组合,生成多个数值组合,其中,所述数值组合中包含有各超参数,以及各超参数的取值;

组合模块,用于分别针对各数值组合,将所述基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型;

训练模块,用于分别针对各候选的坐标识别模型,将图像样本集输入至任意一个候选的坐标识别模型中进行训练,并计算该候选的坐标识别模型的误差值,其中,所述图像样本集中包含有各图像样本和对应的样本标签,所述样本标签表征图像样本中包含的各人体关键点的真实二维坐标;

选择模块,用于将满足预设的误差值条件的候选的坐标识别模型作为最终优化后的坐标识别模型。

可选的,分别针对各数值组合,将所述基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型之后,进一步包括:

第二获取模块,用于获取决策信息,其中,所述决策信息为随机采样的搜索策略、基于强化学习的搜索策略或基于进化算法的搜索策略,所述搜索策略信息;

确定模块,用于采用所述决策信息,从各候选的坐标识别模型中,确定出最终进行训练的各候选的坐标识别模型。

可选的,获取基线模型的各超参数的取值范围之前,进一步包括:

第三获取模块,用于获取用户输入的目标运行条件,其中,所述目标运行条件至少包括目标速度条件和/或目标精度条件;

查找模块,用于从预设的模型数据库中包含的各候选的基线模型中,查找到满足所述目标运行条件的基线模型。

可选的,将图像样本集输入至任意一个候选的坐标识别模型中进行训练,并计算该候选的坐标识别模型的误差值时,训练模块具体用于:

分别针对获取到的图像样本集中的各图像样本,将任意一张图像样本输入至任意一个候选的坐标识别模型中,识别获得该图像样本中的人体包含的各人体关键点,以及各人体关键点对应的预测二维坐标,并分别计算各预测二维坐标与对应的真实二维坐标之间的欧式距离值;

根据计算出的各欧式距离值、图像样本的面积和预设的识别难度系数,确定该候选的坐标识别模型的误差值。

可选的,选择模块具体用于:

将所述误差值最小对应的候选的坐标识别模型,作为最终优化后的坐标识别模型。

可选的,所述超参数至少包括以下一种或任意组合:卷积通道数、卷积层数、卷积类型。

可选的,将所述误差值最小对应的候选的坐标识别模型,作为最终优化后的坐标识别模型之后,进一步包括:

第四获取模块,用于获取待识别图像,其中,所述待识别图像中包含有人体;

第一识别模块,用于基于所述优化后的坐标识别模型,以所述待识别图像为输入参数,识别所述待识别图像中包含的各人体关键点,并获取所述各人体关键点的二维坐标;

第二识别模块,用于根据所述各人体关键点的二维坐标,识别所述待识别图像中包含的人体的人体动作类别。

一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述坐标识别模型的训练方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述坐标识别模型的训练方法的步骤。

本申请实施例中,获取基线模型的各超参数的取值范围,并根据各超参数的取值范围,将不同取值下的超参数进行组合,生成多个数值组合,分别针对各数值组合,将基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型,分别针对各候选的坐标识别模型,将图像样本集输入至任意一个候选的坐标识别模型中进行训练,并计算该候选的坐标识别模型的误差值,将满足预设的误差值条件的候选的坐标识别模型作为最终优化后的坐标识别模型,这样,最终优化后的坐标识别模型是通过对于模型的超参数的取值进行组合获得的,对于基线模型的性能要求降低,可以节省用于手动设计基线模型的时间,并且,根据目标数据和误差值对基线模型进行针对性的优化,结合NAS实现对坐标识别模型的自动设计,能够在手动设计基线模型的基础上进一步提升模型的精度和速度。

附图说明

图1为相关技术中对人体进行姿态估计的示意图;

图2为本申请实施例中一种坐标识别模型的训练方法的流程图;

图3为本申请实施例中识别人体关键点的示意图;

图4为本申请实施例中一种坐标识别模型的训练方法的另一流程图;

图5为本申请实施例中坐标识别模型的训练装置的结构示意图;

图6为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

目前,人体姿态估计是计算机视觉领域中最具有挑战性的研究方向之一。

相关技术中,在对图像中包含的人体进行人体姿态估计时,一般是将原始图像输入至已训练的神经网络模型中,通过预先手工设计并训练的神经网络模型从而实现对人体的姿态进行估计的,并以神经网络模型中的主流网络结构为基础,调整神经网络模型的深度、宽度、跳跃链接和上采样方式,对神经网络模型进行训练,从而基于训练后的神经网络模型实现对人体姿态估计,参阅图1所示,为相关技术中对人体进行姿态估计的示意图。并且,神经网络模型的主干网络的表达能力是决定人体姿态估计性能的主要模块,而相关技术中这种方式,由于缺乏对人体姿态估计的针对性优化,因此,会使得坐标识别模型的精度和速度降低。

为了解决上述问题,相关技术中,可以通过神经网络搜索(Neural ArchitectureSearch,NAS)来自动设计神经网络模型中包含的网络结构。NAS是一种针对特定任务目标自动设计网络结构的技术,一般用于替代手工设计的模型中的超参数。完整的NAS算法通常包括三个主要模块,分别为搜索空间、搜索策略和性能评估策略。搜索空间定义了可以用来搜索的超参数及其可选范围,每个可选参数组合起来就构成了一个完整的网络配置。搜索策略定义了在搜索空间中找到最优模型的策略。性能评估策略则是用于评价一个网络配置的性能指标。在不同的场景下,模型对于搜索空间、搜索策略和性能评估策略通常有不同的要求,因此,如果要将NAS应用到生成坐标识别模型的过程中,需要结合坐标识别到的场景的实际需求,对NAS的三个主要模块进行针对化的设计。那么,如何能够结合NAS实现对坐标识别模型的自动设计,成为了一个亟待解决的问题。

本申请实施例中,获取基线模型的各超参数的取值范围,并根据各超参数的取值范围,将不同取值下的超参数进行组合,生成多个数值组合,分别针对各数值组合,将基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型,分别针对各候选的坐标识别模型,将图像样本集输入至任意一个候选的坐标识别模型中进行训练,并计算该候选的坐标识别模型的误差值,将满足预设的误差值条件的候选的坐标识别模型作为最终优化后的坐标识别模型,这样,利用模型搜索对坐标识别模型的网络结构的进行优化,一方面,坐标识别模型的超参数主要通过数值组合得到,降低了对基线模型的性能要求,可以节省用于手动设计模型的时间,另一方面,通过本申请实施例中的方法可以结合NAS实现对坐标识别模型的自动设计,模型搜索可以根据目标运行信息进行针对性的优化,可以保证得到的坐标识别模型能够在手动设计模型的基础上得到进一步的提升。

基于上述实施例,本申请实施例中涉及一种基于NAS技术的坐标识别模型的搜索,尤其涉及一种坐标识别模型的训练方法,参阅图2所示,为本申请实施例中一种坐标识别模型的训练方法的流程图,具体包括:

步骤200:获取基线模型的各超参数的取值范围,并根据各超参数的取值范围,将不同取值下的超参数进行组合,生成多个数值组合。

其中,数值组合中包含有各超参数,以及各超参数的取值。

本申请实施例中,获取基线模型,并获取基线模型的各超参数的取值范围,然后,根据各超参数的取值范围,将不同取值下的超参数进行随机组合,生成多个数值组合,数值组合中包含有各超参数,以及各超参数的取值。

例如,假设基线模型中的超参数为卷积通道数和卷积层数,卷积通道数的取值范围为2-4,卷积层数的取值范围为3-4,则将不同取值下的超参数进行随机组合,生成多个数值组合,多个数值组合为:卷积通道数为2且卷积层数为3,卷积通道数为3且卷积层数为3,卷积通道数为4且卷积层数为3,卷积通道数为2且卷积层数为4,卷积通道数为3且卷积层数为4,卷积通道数为4且卷积层数为4。

当然,本申请实施例中对超参数的类型和数量并不进行限制。

需要说明的是,本申请实施例中的坐标识别模型的训练方法可以基于NAS实现。

进一步地,由于坐标识别模型是由基线模型进行优化处理后获得的,因此,为了提高坐标识别模型的运行速度和处理精度,同时也要保证基线模型的运行速度和处理精度能够满足用户的需求。因此,本申请实施例中,首先需要获取到一个能够基本满足用户需求的基线模型。下面对本申请实施例中获取基线模型的方式进行详细阐述,具体包括:

S1:获取用户输入的目标运行条件。

其中,目标运行条件至少包括目标速度条件和/或目标精度条件。

本申请实施例中,用户将期望基线模型所能够达到的目标运行条件输入到服务器中,从而服务器获取用户输入的目标运行条件。

其中,目标运行条件中包含的内容至少可以分为以下三种:

第一种:目标速度条件。

本申请实施例中,预先设定基线模型的目标速度条件,能够保证基线模型的速度与坐标识别模型的速度范围更可能接近,从而使得在超参数的取值范围内的各候选的坐标识别模型能够达到目标速度的概率也越高。

其中,目标速度条件表征基线模型在进行人体关键点的二维坐标识别时的所应当满足的运行速度范围。

第二种:目标精度条件。

本申请实施例中,预先设定基线模型的目标精度条件,能够保证基线模型在超参数的取值范围内的各候选的坐标识别模型能够达到目标精度的概率也越高,从而能够提高获得更优的坐标识别模型的概率。

其中,目标精度条件表征基线模型在进行人体关键点的二维坐标识别时所应当满足的处理精度范围。

第三种:目标速度条件和目标精度条件。

本申请实施例中,目标运行条件中包括目标速度条件和目标精度条件,这样,能够保证基线模型在超参数的取值范围内的各候选的坐标识别模型能够达到目标精度和目标速度。

需要说明的是,为了进一步加强对模型的优化,基线模型的速度与坐标识别模型的目标速度范围需要更加接近,且候选的坐标识别模型的精度也应该在基线模型的基础上浮动。

A2:从预设的模型数据库中包含的各候选的基线模型中,查找到满足目标运行条件的基线模型。

本申请实施例中,根据预设的目标运行条件,从预设的模型数据库中包含的各候选的基线模型中,查找到满足目标运行条件的基线模型。

进一步地,基线模型也可以是用户预先输入的,获取用户预先输入的每一级基础网络层,并根据各级基础网络层生成基线模型。

其中,基线模型通常由多个卷积层、批量正则化层(Batch Normalization,BN层)和激活层组成的卷积块构成,卷积块中也可以包含残差卷积层、深度可分离卷积层等常用的卷积块,本申请实施例中对此并不进行限制。

需要说明的是,基线模型的每一个卷积块的各个层,包含有多个超参数,每一个超参数对应一个取值。

步骤210:分别针对各数值组合,将基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型。

本申请实施例中,在获得各数值组合之后,分别针对各数值组合,将该数值组合中的各超参数的取值对应填入基线模型的超参数中,从而获得该数值组合下的候选的坐标识别模型。这样,就能够获得在各数值组合下的候选的坐标识别模型。

这样,可以根据基于数值组合给定的神经网络参数,确定坐标识别模型中包含的网络架构的配置,进而可以定义一个与神经网络架构、神经网络参数对应的坐标识别模型,从而获得各候选的坐标识别模型。

进一步地,为了减少计算量,尽可能地在最小计算量且保证坐标识别模型的精度和速度的同时,还能够保证选择出最优的坐标识别模型,本申请实施例中在获得各候选的坐标识别模型之后,还可以采用决策信息,从各候选的坐标识别模型中确定出最终需要进行训练的各候选的坐标识别模型,具体包括:

S1:获取决策信息。

其中,决策信息为随机采样的搜索策略、基于强化学习的搜索策略或基于进化算法的搜索策略,搜索策略信息。

本申请实施例中,决策信息用于帮助判断下一个要训练的数值组合,因此,获取用户输入的决策信息。

其中,决策信息可以为随机采样的搜索策略,即,在各数值组合中随机选取N组数值组合进行训练。

决策信息还可以为基于强化学习的搜索策略。从各数值组合中,随机选取一组数值组合,作为坐标识别模型的初始状态。在对初始状态的候选的坐标识别模型进行训练的过程中,为该候选的坐标识别模型添加随机参数,扰动该候选的坐标识别模型进行迭代。当随机参数扰动候选的坐标识别模型后,评估候选的坐标识别模型的精度,并根据候选的坐标识别模型的精度的变化情况,计算在该随机参数扰动候选的坐标识别模型时对应的价值得分,并根据计算出的价值得分来确定在后续迭代过程中选取该随机参数扰动候选的坐标识别模型的概率。这样,经过多轮迭代训练后,选取在迭代训练过程中得到的精度最高的候选的坐标识别模型,作为最终进行训练的候选的坐标识别模型。

需要说明的是,价值得分表征在后续迭代训练过程中选取该随机参数对候选的坐标识别模型进行扰动的概率。

决策信息还可以为基于进化算法的搜索策略。下面采用一个具体的例子对本申请实施例中的基于进化算法的搜索策略进行详细阐述。

首先,将候选的坐标识别模型中的各超参数进行二进制编码,并从各数值组合中随机选取多组数值组合,并将选取出的多组数值组合作为初始种群N,对种群N中各组数值组合生成的各候选的坐标识别模型进行训练,并从训练后的各候选的坐标识别模型中,选择出满足精度条件的候选的坐标识别模型。按照二进制编码对选择出的候选的坐标识别模型的超参数配置进行两两交叉配对。并且,对精度较低的候选的坐标识别模型对应的数值组合进行随机变异,生成一个新的种群继续进行精度评估。通过迭代T次后,选取迭代过程中得到的精度最高的候选的坐标识别模型作为搜索结果。

S2:采用决策信息,从各候选的坐标识别模型中,确定出最终进行训练的各候选的坐标识别模型。

本申请实施例中,采用搜索策略从各候选的坐标识别模型中确定出最终需要进行训练的各候选的坐标识别模型。

例如,设计用于神经网络搜索的卷积模块类型、卷积层数和卷积通道数,以及卷积模块的类型,卷积层数的取值范围和卷积通道数的取值范围。以基线模型作为模板,选择基线模型中的超参数作为神经网络搜索的对象,获得各数值组合,并将各数值组合填入基线模型中,得到各候选的坐标识别模型,基于进化算法的搜索策略对各候选的坐标识别模型进行搜索,搜索策略的作用是帮助判断下一个要尝试的参数组合。

需要说明的是,对于每一个启动搜索的数值组合,通常会选择更小的迭代次数以节省训练时间,前提是模型在该迭代次数下的精度与完整训练时的精度相比具有较好的保序性。

步骤220:分别针对各候选的坐标识别模型,将图像样本集输入至任意一个候选的坐标识别模型中进行训练,并计算该候选的坐标识别模型的误差值,其中,图像样本集中包含有各图像样本和对应的样本标签,样本标签表征图像样本中包含的各人体关键点的真实二维坐标。

本申请实施例中,首先,获取图像样本集。

需要说明的是,图像样本集中包含有各图像样本,以及每一张图像样本对应的样本标签,样本标签表征图像样本中包含的各人体关键点的真实二维坐标。

然后,在获取到图像样本集之后,分别针对各候选的坐标识别模型,将获取到的图像样本集输入至任意一个候选的坐标识别模型中进行训练,获得每一张图像样本中包含的各人体关键点,以及各人体关键点对应的预测二维坐标,并基于预测二维坐标获得该候选的坐标识别模型的误差值。

下面对本申请实施例中获得每一个候选的坐标识别模型的误差值的方式进行详细阐述,具体包括:

S1:分别针对获取到的图像样本集中的各图像样本,将任意一张图像样本输入至任意一个候选的坐标识别模型中,识别获得该图像样本中的人体包含的各人体关键点,以及各人体关键点对应的预测二维坐标,并分别计算各预测二维坐标与对应的真实二维坐标之间的欧式距离值。

分别针对图像样本集中包含的各图像样本,执行以下操作步骤:

首先,将任意一张图像样本输入至任意一个候选的坐标识别模型中,识别获得该图像样本中的人体包含的各人体关键点,以及各人体关键点对应的预测二维坐标。

然后,分别计算各预测二维坐标与对应的样本标签中的真实二维坐标之间的欧式距离。

S2:根据计算出的各欧式距离值、图像样本的面积和预设的识别难度系数,确定该候选的坐标识别模型的误差值。

本申请实施例中,分别针对图像样本集中的各图像样本,计算任意一个图像样本中各人体关键点对应的欧式距离值的平均值,获得该图像样本的欧式距离值,并计算欧式距离与图像样本的面积之间的比值,从而能够获得各图像样本的比值,然后,通过确定各图像样本对应的比值与识别难度系数之间的乘积,确定该候选的坐标识别模型的误差值。

需要说明的是,候选的坐标识别模型的误差值为计算出的数值,若误差值越大,则确定该候选的坐标识别模型的识别效果更优,若误差值越小,则确定该候选的坐标识别模型的识别效果越差。

步骤230:将满足预设的误差值条件的候选的坐标识别模型作为最终优化后的坐标识别模型。

本申请实施例中,执行步骤230时,具体包括:

本申请实施例中,在获得各候选的坐标识别模型的误差值之后,将误差值最小对应的候选的坐标识别模型作为最终选择出的坐标识别模型,该坐标识别模型为最优的模型。

进一步地,在获得最终优化后的坐标识别模型之后,即可根据优化后的坐标识别模型进行人体动作识别,具体包括:

S1:获取待识别图像。

其中,待识别图像中包含有人体。

本申请实施例中,图像采集设备在采集到待识别图像之后,将待识别图像发送给服务器,服务器从而能够接收到图像采集设备发送的待识别图像。

需要说明的是,待识别图像中包含有人体,并且,待识别图像中可以包含有一个人体,也可以包含有多个人体,本申请实施例中对此并不进行限制。

图像采集设备例如可以为摄像头,本申请实施例中对此并不进行限制。

还需要说明的是,本申请实施例中的待识别图像可以为仅包含有人体的图像,待识别图像还可以为包含有人体,以及其它物体的图像,若待识别图像中还包含有其它物体,则需要先对待识别图像进行人体检测,并通过外接矩形框将人体在待识别图像中标注出来,并进行截取,获得仅包含有人体的图像,从而将截取后获得的图像作为需要进行分区的待识别图像。

其中,待识别图像例如可以为RGB图像。

S2:基于优化后的坐标识别模型,以待识别图像为输入参数,识别待识别图像中包含的各人体关键点,并获取各人体关键点的二维坐标。

本申请实施例中,将待识别图像输入至优化后的坐标识别模型中,对待识别图像进行特征提取,获得待识别图像的关键点特征,并预测每一个人体关键点在待识别图像中每一个位置出现概率,并根据概率值获得待识别图像中的人体包含的各人体关键点,并分别获取各人体关键点的二维坐标,参阅图3所示,为本申请实施例中识别人体关键点的示意图。

S3:根据各人体关键点的二维坐标,识别待识别图像中包含的人体的人体动作类别。

本申请实施例中,在相关技术中,人体姿态估计网络设计过程通常是针对一批实际场景下采集的数据集,从现有的主流开源框架中选择一个模型结构,结合新的数据集进行训练与测试,但是相关技术中的这种方式通常会出现模型精度无法达到预期,或速度不符合需求的情况,于是结合一些模型优化策略对基础模型进行调整,往往需要通过多轮迭代实验,才能得到符合目标需求的模型,为了解决相关技术中的这种问题,本申请实施例中,获取基线模型的各超参数的取值范围,并根据各超参数的取值范围,将不同取值下的超参数进行组合,生成多个数值组合,分别针对各数值组合,将基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型,分别针对各候选的坐标识别模型,将图像样本集输入至任意一个候选的坐标识别模型中进行训练,并计算该候选的坐标识别模型的误差值,将满足预设的误差值条件的候选的坐标识别模型作为最终优化后的坐标识别模型。这样,用户只需提供一个简单设计的基线模型、一批训练及验证数据和一个评价指标,就可以自动搜索出性能符合要求的目标模型。和手动设计网络结构相比,自动网络结构搜索可以有效缩短开发时间,具有重要的使用价值。

基于上述实施例,参阅图4所示,为本申请实施例中一种坐标识别模型的训练方法的另一流程图,具体包括:

步骤400:获取用户输入的目标运行条件。

其中,目标运行条件至少包括目标速度条件和目标精度条件。

步骤410:从预设的模型数据库中包含的各候选的基线模型中,查找到满足目标运行条件的基线模型。

步骤402:获取基线模型的各超参数的取值范围,并根据各超参数的取值范围,将不同取值下的超参数进行组合,生成多个数值组合。

步骤403:分别针对各数值组合,将基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型。

步骤404:获取决策信息。

步骤405:采用决策信息,从各候选的坐标识别模型中,确定出最终进行训练的各候选的坐标识别模型。

其中,本申请实施例中的在从各坐标识别模型中确定出最终进行训练的各候选的坐标识别模型时,可以通过神经网络搜索来实现,神经网络搜索是一种针对特定任务目标自动设计网络结构的技术,一般用于替代手工设计的网络参数。一个完整的神经网络搜索算法通常包括搜索空间、搜索策略和性能评估策略三个主要模块,其中,搜索空间定义了可以用来搜索的网络参数及其可选范围,每个可选参数组合起来就构成了一个完整的网络配置,搜索策略定义了在搜索空间中找到最优模型的策略,性能评估策略则是用于评价一个网络配置的性能指标。

步骤406:分别针对获取到的图像样本集中的各图像样本,将任意一张图像样本输入至任意一个候选的坐标识别模型中,识别获得该图像样本中的人体包含的各人体关键点,以及各人体关键点对应的预测二维坐标,并分别计算各预测二维坐标与对应的真实二维坐标之间的欧式距离值。

步骤407:根据计算出的各欧式距离值、图像样本的面积和预设的识别难度系数,确定该候选的坐标识别模型的误差值。

步骤408:将误差值最小对应的候选的坐标识别模型,作为最终优化后的坐标识别模型。

步骤409:获取待识别图像。

其中,待识别图像中包含有人体。

步骤410:基于优化后的坐标识别模型,以待识别图像为输入参数,识别待识别图像中包含的各人体关键点,并获取各人体关键点的二维坐标。

步骤411:根据各人体关键点的二维坐标,识别待识别图像中包含的人体的人体动作类别。

在相关技术中,人体姿态估计网络设计过程通常是以待识别图像为输入参数,使用全卷积神经网络提取关键点特征,并获得各关键点的二维坐标,而相关技术中的全卷积神经网络通常是从现有的主流开源框架中选择一个模型结构,结合新的数据集进行训练与测试,但是由于现有的模型与数据集之间并不是完全匹配的,因此,通常会出现模型精度无法达到预期,或速度不符合需求的情况。而结合一些模型优化策略对基础模型进行调整,往往需要通过多轮迭代实验,才能得到符合目标需求的模型。因此,为了解决上述问题,本申请实施例中提供了一种方法,无需手动优化坐标识别模型,并且,还能够对于基线模型进行优化,进一步地提高了模型的精度和速度。

基于同一发明构思,本申请实施例中提供了坐标识别模型的训练装置,该坐标识别模型的训练装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例,参阅图5所示,为本申请实施例中坐标识别模型的训练装置的结构示意图,具体包括:

第一获取模块500,用于获取基线模型的各超参数的取值范围,并根据所述各超参数的取值范围,将不同取值下的超参数进行组合,生成多个数值组合,其中,所述数值组合中包含有各超参数,以及各超参数的取值;

组合模块501,用于分别针对各数值组合,将所述基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型;

训练模块502,用于分别针对各候选的坐标识别模型,将图像样本集输入至任意一个候选的坐标识别模型中进行训练,并计算该候选的坐标识别模型的误差值,其中,所述图像样本集中包含有各图像样本和对应的样本标签,所述样本标签表征图像样本中包含的各人体关键点的真实二维坐标;

选择模块503,用于将满足预设的误差值条件的候选的坐标识别模型作为最终优化后的坐标识别模型。

可选的,分别针对各数值组合,将所述基线模型的各超参数设置为任意一个数值组合中的各取值,获得该数值组合下的候选的坐标识别模型之后,进一步包括:

第二获取模块504,用于获取决策信息,其中,所述决策信息为随机采样的搜索策略、基于强化学习的搜索策略或基于进化算法的搜索策略,所述搜索策略信息;

确定模块505,用于采用所述决策信息,从各候选的坐标识别模型中,确定出最终进行训练的各候选的坐标识别模型。

可选的,获取基线模型的各超参数的取值范围之前,进一步包括:

第三获取模块506,用于获取用户输入的目标运行条件,其中,所述目标运行条件至少包括目标速度条件和/或目标精度条件;

查找模块507,用于从预设的模型数据库中包含的各候选的基线模型中,查找到满足所述目标运行条件的基线模型。

可选的,将图像样本集输入至任意一个候选的坐标识别模型中进行训练,并计算该候选的坐标识别模型的误差值时,训练模块502具体用于:

分别针对获取到的图像样本集中的各图像样本,将任意一张图像样本输入至任意一个候选的坐标识别模型中,识别获得该图像样本中的人体包含的各人体关键点,以及各人体关键点对应的预测二维坐标,并分别计算各预测二维坐标与对应的真实二维坐标之间的欧式距离值;

根据计算出的各欧式距离值、图像样本的面积和预设的识别难度系数,确定该候选的坐标识别模型的误差值。

可选的,选择模块503具体用于:

将所述误差值最小对应的候选的坐标识别模型,作为最终优化后的坐标识别模型。

可选的,所述超参数至少包括以下一种或任意组合:卷积通道数、卷积层数、卷积类型。

可选的,将所述误差值最小对应的候选的坐标识别模型,作为最终优化后的坐标识别模型之后,进一步包括:

第四获取模块508,用于获取待识别图像,其中,所述待识别图像中包含有人体;

第一识别模块509,用于基于所述优化后的坐标识别模型,以所述待识别图像为输入参数,识别所述待识别图像中包含的各人体关键点,并获取所述各人体关键点的二维坐标;

第二识别模块510,用于根据所述各人体关键点的二维坐标,识别所述待识别图像中包含的人体的人体动作类别。

基于上述实施例,参阅图6所示为本申请实施例中电子设备的结构示意图。

本申请实施例提供了一种电子设备,该电子设备可以包括处理器610(CenterProcessing Unit,CPU)、存储器620、输入设备630和输出设备640等,输入设备630可以包括键盘、鼠标、触摸屏等,输出设备640可以包括显示设备,如液晶显示器(Liquid CrystalDisplay,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。

存储器620可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器610提供存储器620中存储的程序指令和数据。在本申请实施例中,存储器620可以用于存储本申请实施例中任一种坐标识别模型的训练方法的程序。

处理器610通过调用存储器620存储的程序指令,处理器610用于按照获得的程序指令执行本申请实施例中任一种坐标识别模型的训练方法。

基于上述实施例,本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的坐标识别模型的训练方法。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 一种基于NAS技术的坐标识别模型的搜索方法及装置
  • 一种基于时间坐标的定位搜索方法
技术分类

06120112809949