掌桥专利:专业的专利平台
掌桥专利
首页

姿态估计模型的训练方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 19:58:21


姿态估计模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域,尤其涉及一种姿态估计模型的训练方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的发展,可以借助于姿态估计模型,针对待识别图片进行姿态估计,获得用于描述对象姿态的各个关键点的坐标信息,进而,借助于获得的各坐标信息能够分析相关对象的姿态。

相关技术下,由于训练姿态估计模型的过程中,模型经过回归处理后预测的二维坐标信息,与输入图像对应的图像空间,属于不同的空间维度;因此,在借助于约束坐标值这种隐式且非对齐的约束方式进行约束的情况下,模型难以在图像空间中捕捉到图像中的内在信息,无法保障姿态估计模型的训练效果;进而,无法借助于训练后的姿态估计模型,准确地获得关键点的坐标信息,降低了姿态估计效果。

发明内容

本申请实施例提供一种姿态估计模型的训练方法、装置、电子设备及存储介质,用以提高姿态估计模型的姿态估计准确性。

第一方面,提出一种姿态估计模型的训练方法,包括:

获取各训练样本;一条训练样本包括:一个样本图像,以及各预设关键点在所述一个样本图像中的样本坐标,所述各预设关键点用于姿态定位;

基于所述各训练样本,对初始姿态估计模型进行多轮迭代训练,获得目标姿态估计模型,其中,在一轮迭代训练过程中,执行以下操作:

对选取的训练样本中包含的样本图像进行姿态估计,获得经过回归处理得到的,所述各预设关键点各自对应的预测坐标和L个预测参数组,其中,所述L个预测参数组是分别针对预设的L个分布函数确定的;

针对所述各预设关键点,分别执行以下操作:基于对应的预测坐标和L个预测参数组,聚合所述L个分布函数,获得相应的预测关键点在样本图像中的预测概率分布,并根据所述预测概率分布与对应的目标概率分布之间的分布差异,确定分布损失,其中,所述目标概率分布是基于所述预测关键点的样本坐标确定的,在所述样本图像上的概率分布;

基于各分布损失,调整所述初始姿态估计模型的模型参数。

第二方面,提出一种姿态估计模型的训练装置,包括:

获取单元,用于获取各训练样本;一条训练样本包括:一个样本图像,以及各预设关键点在所述一个样本图像中的样本坐标,所述各预设关键点用于姿态定位;

训练单元,用于基于所述各训练样本,对初始姿态估计模型进行多轮迭代训练,获得目标姿态估计模型,其中,在一轮迭代训练过程中,执行以下操作:

对选取的训练样本中包含的样本图像进行姿态估计,获得经过回归处理得到的,所述各预设关键点各自对应的预测坐标和L个预测参数组,其中,所述L个预测参数组是分别针对预设的L个分布函数确定的;

针对所述各预设关键点,分别执行以下操作:基于对应的预测坐标和L个预测参数组,聚合所述L个分布函数,获得相应的预测关键点在样本图像中的预测概率分布,并根据所述预测概率分布与对应的目标概率分布之间的分布差异,确定分布损失,其中,所述目标概率分布是基于所述预测关键点的样本坐标确定的,在所述样本图像上的概率分布;

基于各分布损失,调整所述初始姿态估计模型的模型参数。

可选的,所述预设的L个分布函数为L个高斯分布;所述基于对应的预测坐标和L个预测参数组,聚合所述L个分布函数,获得相应的预测关键点在样本图像中的预测概率分布时,所述训练单元用于:

针对每个高斯分布,分别执行以下操作:基于对应的预测坐标,确定所述高斯分布的均值矩阵,并基于对应的一个预测参数组,确定所述高斯分布对应的协方差矩阵和分量权重,得到参数赋值后的高斯分布结果;

按照针对L个高斯分布分别确定的分量权重,对L个高斯分布结果进行高斯混合处理,获得相应的预测关键点在样本图像中的预测概率分布。

可选的,所述目标概率分布,是采用以下方式确定的:

基于对应的预测关键点的样本坐标,确定目标均值矩阵,并分别确定在对应的各坐标轴上的标准差,以及根据所述各坐标轴上的标准差,确定所述目标高斯分布对应的目标协方差矩阵;

基于所述目标均值矩阵和所述目标协方差矩阵,对标准高斯分布进行参数赋值,得到目标概率分布。

可选的,所述分别确定在对应的各坐标轴上的标准差时,所述训练单元用于:

基于所述样本坐标与所述预测关键点的预测坐标,确定表征所述样本坐标与所述预测坐标之间的坐标差异的范数值;

在确定所述范数值超过设定阈值时,将所述范数值确定为所述目标高斯分布在各坐标轴上的标准差;以及,在确定所述范数值未超过设定阈值时,将所述设定阈值确定为所述目标高斯分布在所述各坐标轴上的标准差;所述目标高斯分布在所述各坐标轴上的标准差取值相同。

可选的,所述基于各分布损失,调整所述初始姿态估计模型的模型参数之前,所述训练单元还用于:

针对所述各预设关键点,分别执行以下操作:基于对应的预测坐标和样本坐标之间的坐标差异,计算位置损失;

所述基于各分布损失,调整所述初始姿态估计模型的模型参数,包括:

基于各分布损失和各位置损失,调整所述初始姿态估计模型的模型参数。

可选的,所述获得目标姿态估计模型之后,所述装置还包括处理单元,所述处理单元用于:

获取待处理图像;

采用所述目标姿态估计模型,针对所述待处理图像中的待识别对象进行姿态估计处理,得到所述各预设关键点在所述待处理图像中的坐标信息。

可选的,所述获取待处理图像时,所述处理单元用于:

获取原始图像;

针对所述原始图像进行对象识别处理,确定所述原始图像中包含待识别对象的目标区域,其中,所述待识别对象是姿态估计所针对的对象;

从所述原始图像中裁剪出所述目标区域对应的图像内容,得到待处理图像。

可选的,所述得到所述各预设关键点在所述待处理图像中的坐标信息之后,所述处理单元还用于:

基于各坐标信息之间的位置关系,确定所述待处理图像中待识别对象的状态特征;

基于所述状态特征,与各候选状态各自对应的候选状态特征的匹配情况,确定所述待识别对象匹配的目标状态。

第三方面,提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。

第四方面,提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。

第五方面,提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述方法。

本申请有益效果如下:

本申请提出了一种姿态估计模型的训练方法、装置、电子设备及存储介质,公开了先获取用于模型训练的各训练样本,其中,一条训练样本包括:一个样本图像,以及用于姿态定位的各预设关键点,在该样本图像中的样本坐标;之后,采用各训练样本对基于回归的初始姿态估计模型进行多轮迭代训练后,得到训练后的目标姿态估计模型。

而且,就一轮迭代训练过程中执行的处理操作而言,采用初始姿态估计模型,对选取的训练样本中包含的样本图像进行姿态估计,获得各预设关键点各自对应的预测坐标和L个预测参数组,其中,L个预测参数组是分别针对预设的L个分布函数确定的;再针对每个预设关键点,基于得到的预测坐标和L个预测参数组,聚合对应的L个分布函数,获得相应的预测关键点在样本图像中的预测概率分布,并根据该预测概率分布与对应的目标概率分布之间的分布差异,确定针对该预设关键点确定的分布损失;进而,基于针对各预设关键点确定的各分布损失,调整模型参数。

这样,在训练基于回归的初始姿态估计模型的过程中,通过调整初始姿态估计模型的输出结果,使得在经过回归处理,输出各预设关键点各自对应的预测坐标的基础上,额外输出各预测关键点各自对应的L个预测参数组,为针对各预设关键点分别进行的,L个分布函数的参数具体化和聚合过程提供了处理依据。

而且,在针对模型训练建立约束的过程中,通过针对各预设关键点分别构建对应的预测概率分布,使得借助于针对每个预设关键点分别进行的L个分布函数的聚合,能够将针对预设关键点的预测坐标转化为,在相应的样本图像上的概率分布;从而促使输入至初始姿态估计模型的输入图像,与针对初始姿态估计模型建立约束时所依据的预测概率分布处于同一个维度上,这不仅有利于初始姿态估计模型更好地捕捉到图像中的内在信息,提升初始姿态估计模型的表示能力,还有助于训练初始姿态估计模型具有更好的处理性能,提升训练效果;

与此同时,结合基于回归的网络结构本身具有轻量的网络特点,在训练初始姿态估计模型得到目标姿态估计模型的过程中,一方面能够保障模型的姿态估计性能,提高姿态估计的准确性,另一方面,能够降低对于内存资源和计算资源的占用情况,降低耗时负担,提升资源利用率。

附图说明

图1为本申请实施例中可能的应用场景示意图;

图2为本申请实施例中训练姿态估计模型的过程示意图;

图3为本申请实施例中初始姿态估计模型的输出结果示意图;

图4A为本申请实施例中针对一个预设关键点确定对应的预测概率分布的过程示意图;

图4B为本申请实施例中预测概率分布与样本图像的对应关系示意图;

图4C为本申请实施例中目标概率分布的动态调整示意图;

图4D为本申请实施例中针对一个预设关键点计算模型损失的过程示意图;

图5A为本申请实施例中借助于目标姿态估计模型实现业务处理的过程示意图;

图5B为本申请实施例中整理得到待处理图像的过程示意图;

图5C为本申请实施例中姿态估计过程示意图;

图6A为本申请实施例中掌纹识别流程示意图;

图6B为本申请实施例中借助于目标姿态估计模型实现动作识别时的处理逻辑示意图;

图7为本申请实施例中姿态估计模型的训练装置的逻辑结构示意图;

图8为应用本申请实施例的一种电子设备的硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够在除了这里图示或描述的那些以外的顺序实施。

以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。

人体检测:是指使用目标检测技术,从图片中确定出人体所在的区域,使得能够从图片中提取出人体区域图片。

手部检测:是指使用目标检测技术,从图片中定位出手部所在的区域,使得能够从图片中提取出手部区域图片。

人体姿态估计:是指对各种姿态的人体骨骼进行关键点坐标的估计。人体姿态估计通常包括人体全身的姿态估计和局部肢体的姿态估计。人体姿态估计旨在预测人体上预定义的关键点(或称预设关键点)的位置信息,是计算机视觉中的一项基本任务,它广泛应用于各种视觉任务,是许多下游任务(如人体运动分析、活动识别、动作捕捉等)的重要预处理操作。

手部姿态估计:是指对各种姿态的手部骨骼进行关键点坐标的估计;手部姿态估计旨在预测手部预定义的关键点(或称预设关键点)的位置信息,是计算机视觉中的一项基本任务,它广泛应用于各种视觉任务,是许多下游任务(如手势识别、手部运动分析、动作捕捉等)的重要预处理操作。

基于回归的姿态估计:本申请实施例中,是指针对输入图像,采用初始姿态估计模型以回归的方式直接输出关键点的坐标。

线性层:是指对输入进行线性变换的神经网络层。

概率分布:总和为1的分布,每个点的值表征该点对应的概率。

混合高斯模型:是指由多个高斯分布函数的线性组合组成的概率分布模型。

蒙特卡罗估计:通过从概率模型的随机抽样进行近似数值计算的方法。

皮尔逊相关系数:用于度量两个变量之间的相关程度,其值介于-1与1之间。

基于热图的姿态估计:针对输入图像,模型输出对应的热图以产生关键点的坐标。

argmax函数:用于获得输入数组中最大值元素所对应的数组下标。

人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

下面对本申请实施例的设计思想进行简要介绍:

在选定实现姿态估计的方式的过程中,申请人想到,假设采用基于热图的姿态估计技术进行处理,则需要基于特征图生成高分辨率的似然热图,而且,在热图中,模型认为最有可能出现关键点的位置将会以高概率标注,其余位置以低概率标注;基于热图,使用argmax函数就能得到模型预测的关键点坐标。

然而,由于基于热图的姿态估计方案中,预测头会根据输入的特征图生成高分辨率的似然热力图,热图的张数即为待预测的关键点个数,使得对应每个关键点都生成一张热图,这种方式无疑会占用大量内存,而且会产生大量计算代价,难以应用于对速度有较高要求的实时场景与计算资源有限的物联网设备。不仅如此,由于热图的尺寸有限,使用argmax函数得到的关键点坐标往往存在量化误差,这也将影响模型的最终性能。

基于此,为了降低姿态估计过程中对于内存资源和计算资源的占用,申请人想到,可以借助于传统基于回归的姿态估计技术进行处理。

那么,假设借助于传统基于回归的姿态估计技术进行处理,则在处理的过程中,使用全局平均池化来简化特征,预测头中仅包含若干个线性层,采用回归的方式直接输出预测的关键点坐标。

然而,传统基于回归的姿态估计技术方案中,直接回归的坐标值(向量),与输入图像并不处在同一个空间维度,即,由于输出的坐标值对应的是一个具体的点,而输入的是一个图像,故两者不属于相同的空间维度;因此,在模型训练过程中,约束坐标值是一种隐式的、非对齐的约束方式,模型并不能很好地捕捉到图像中的内在信息,因此模型的训练效果不佳。

有鉴于此,本申请提出了一种姿态估计模型的训练方法、装置、电子设备及存储介质,公开了先获取用于模型训练的各训练样本,其中,一条训练样本包括:一个样本图像,以及用于姿态定位的各预设关键点,在该样本图像中的样本坐标;之后,采用各训练样本对基于回归的初始姿态估计模型进行多轮迭代训练后,得到训练后的目标姿态估计模型。

而且,就一轮迭代训练过程中执行的处理操作而言,采用初始姿态估计模型,对选取的训练样本中包含的样本图像进行姿态估计,获得各预设关键点各自对应的预测坐标和L个预测参数组,其中,L个预测参数组是分别针对预设的L个分布函数确定的;再针对每个预设关键点,基于得到的预测坐标和L个预测参数组,聚合对应的L个分布函数,获得相应的预测关键点在样本图像中的预测概率分布,并根据该预测概率分布与对应的目标概率分布之间的分布差异,确定针对该预设关键点确定的分布损失;进而,基于针对各预设关键点确定的各分布损失,调整模型参数。

这样,在训练基于回归的初始姿态估计模型的过程中,通过调整初始姿态估计模型的输出结果,使得在经过回归处理,输出各预设关键点各自对应的预测坐标的基础上,额外输出各预测关键点各自对应的L个预测参数组,为针对各预设关键点分别进行的,L个分布函数的参数具体化和聚合过程提供了处理依据。

而且,在针对模型训练建立约束的过程中,通过针对各预设关键点分别构建对应的预测概率分布,使得借助于针对每个预设关键点分别进行的L个分布函数的聚合,能够将针对预设关键点的预测坐标转化为,在相应的样本图像上的概率分布;从而促使输入至初始姿态估计模型的输入图像,与针对初始姿态估计模型建立约束时所依据的预测概率分布处于同一个维度上,这不仅有利于初始姿态估计模型更好地捕捉到图像中的内在信息,提升初始姿态估计模型的表示能力,还有助于训练初始姿态估计模型具有更好的处理性能,提升训练效果;

与此同时,结合基于回归的网络结构本身具有轻量的网络特点,在训练初始姿态估计模型得到目标姿态估计模型的过程中,一方面能够保障模型的姿态估计性能,提高姿态估计的准确性,另一方面,能够降低对于内存资源和计算资源的占用情况,降低耗时负担,提升资源利用率。

以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例及实施例中的特征可以相互组合。

参阅图1所示,其为本申请实施例中可能的应用场景示意图。该应用场景示意图中,包括服务端设备110,以及客户端设备120。

在本申请一些可行实施例中,可以由服务端设备110训练得到目标姿态估计模型,进而,服务端设备110可以自行在具体的姿态估计场景下实现姿态估计任务;或者,可以将训练后的目标姿态估计模型发送至客户端120,使得客户端120可以在具体的姿态估计场景下实现姿态估计任务。

或者,在另一些可行的实施例中,可以由客户端设备120训练得到目标姿态识别模型,进而在具体的姿态估计场景下实现姿态估计任务。

服务端设备110可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

客户端设备120包括但不限于手机、平板电脑、笔记本、电子书阅读器、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

需要说明的是,本申请可行的实施例中,相关对象可以在客户端设备120上借助于目标应用,发起针对待处理图像的姿态估计请求,使得实现姿态估计的处理设备,能够针对待处理图像进行姿态估计处理,得到姿态估计结果,其中,目标应用可以是小程序应用,或者,客户端应用,又或者,网页应用;处理设备具体可以是服务端设备110,或者,客户端设备120,本申请对此不做具体限制。

本申请实施例中,服务端设备110与客户端设备120之间,可以通过有线网络或无线网络进行通信,以下的说明中仅以处理设备实现目标姿态估计模型的训练,以及实现姿态估计任务的处理为例,对相关的处理过程进行示意性说明,其中,根据实际的处理需要,处理设备具体可以指代服务端设备110,或者,客户端设备120。

下面结合几种可能的应用场景,对涉及到姿态估计的场景进行说明:

场景一、在身份识别过程中进行待识别区域的定位。

在场景一对应的应用场景下,先确定身份识别所依据的识别信息,进而,依据所需要的识别信息确定姿态估计中需要估计出的各预设关键点。

例如,假设借助于掌纹进行身份识别,则确定的各预设关键点至少能够定位出手部区域。

又例如,假设借助于虹膜进行身份识别,则确定的各预设关键点至少能够定位出眼睛区域。

又例如,假设借助于手势进行身份识别,则确定的各预设关键点至少能够确定出不同手势。

处理设备训练得到目标姿态估计模型后,借助于目标姿态估计模型,能够基于待识别图像,输出各预测关键点的坐标信息;进而,借助于各坐标信息能够确定身份识别所需要识别的区域,进而从待识别图像中截取待识别区域。

场景二、在异常检测的过程中进行动作识别。

在场景二对应的应用场景下,先确定动作识别所针对的对象,其中,动作识别所针对的对象,可以是有生命的人或者动物,又或者,可以是无生命的,随机械运动而呈现不同动作的产品。

进而,针对动作识别所针对的对象,确定用于姿态定位的各预设关键点,再针对性的创建各训练样本,并采用各训练样本训练得到目标姿态估计模型。

之后,先采用目标检测技术,从拍摄的原始图像中检测出待识别对象所在的区域,再从原始图像裁剪出包含待识别对象所在的区域的待识别图像;然后,采用目标姿态估计模型,对待识别图像进行姿态估计,确定各预设关键点各自对应的预测坐标;再根据各预测坐标,实现诸如异常动作识别(如摔倒等)等。

场景三、在动作教学过程中进行动作识别

在场景三对应的应用场景下,先确定动作识别所针对的对象,其中,动作识别所针对的对象,可以是“人”。

进而,针对动作识别所针对的对象,确定用于姿态定位的各预设关键点,再针对性的创建各训练样本,并采用各训练样本训练得到目标姿态估计模型。

之后,先采用目标检测技术,从拍摄的原始图像中检测出待识别对象所在的区域,再从原始图像裁剪出包含待识别对象所在的区域的待识别图像;然后,采用目标姿态估计模型,对待识别图像进行姿态估计,确定各预设关键点各自对应的预测坐标;再根据各预测坐标,实现舞蹈动作识别、舞蹈步态识别等任务。

另外,需要理解的是,在本申请的具体实施方式中,涉及对样本图像、待处理图像的获取和处理,当本申请记载的实施例运用到具体产品或技术中时,需要获得相关对象的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面首先结合附图,从处理设备的角度,对姿态估计模型的训练过程进行说明:

参阅图2所示,其为本申请实施例中训练姿态估计模型的过程示意图,下面结合附图2,对相关的模型训练过程进行说明:

步骤201:处理设备获取各训练样本。

本申请实施例中,为了训练得到目标姿态估计模型,处理设备获取针对姿态估计需要而配置的各训练样本,其中,一条训练样本包括:一个样本图像,以及各预设关键点在该样本图像中的样本坐标;各预设关键点用于姿态定位。

需要说明的是,本申请实施例中,各预设关键点可以是根据姿态估计需要而选定的,在可行的实施例中,在针对“人”进行姿态估计的情况下,各预设关键点可以包括:通用的各人体关键点(或称人体骨骼关键点),或者,既包括各人体关键点,又包括自定义的其他关键点;在针对人体的局部进行姿态估计的情况下,各预设关键点可以包括:人体局部区域的关键点,如,在进行手势识别的情况下,各预设关键点包括:通用的各手部关键点(包括各指关节关键点等)。

这样,针对具体的姿态估计任务,通过适应性地选取各预设关键点,使得能够有效的实现姿态定位。

步骤202:处理设备采用初始姿态估计模型,对选取的训练样本中包含的样本图像进行姿态估计,获得经过回归处理得到的,各预设关键点各自对应的预测坐标和L个预测参数组。

需要说明的是,本申请实施例中,可以通过对传统的基于回归的姿态估计网络,进行输出调整,得到初始姿态估计模型,初始姿态估计模型中的骨干网络(backbone)可以是Stemnet、HRNet-W48等在姿态估计场景下实现特征提取的任意一种网络;初始姿态估计模型中的预测头中包括若干个线性层,预测头用于实现计算和预测功能。

其中,对传统的基于回归的姿态估计网络,调整的内容包括:预测头中线性层的输出数目;基于此,通过调整线性层的输出数目,使得初始姿态估计模型在训练过程中,不仅能够输出预测坐标,还能够输出预设的L个分布函数各自对应的预测参数组,其中,线性层的输出数目,是根据预设的各分布函数的数目,以及各分布函数的赋值需要确定的。

另外,本申请可以根据实际的处理需要,设置输出的内容形式。

假设,一个预测参数组中包括四个参数,分别为横轴(或称水平轴)上的标准差、纵轴(或称竖直轴)上的标准差、皮尔逊相关系数,以及分布函数对应的分量权重,其中,皮尔逊相关系数用于表征横轴上的标准差和纵轴上的标准差之间的相关性。

那么,在一些可行的实现方式中,可以通过调整线性层的输出数目,使得对应每个预设关键点,输出预测坐标和4个参数向量,其中,在预设的各分布函数总数为L的情况下,每个参数向量中包括L个参数,不同参数向量中相同位置的参数,组成一个预测参数组;

或者,在另一些可行的实现方式中,可以通过调整线性层的输出数目,使得对应每个预设关键点,输出预测坐标和L个参数向量,其中,每个参数向量中包括4个参数,分别为横轴(或称水平轴)上的标准差、纵轴(或称竖直轴)上的标准差、相关性系数,以及分布函数对应的权重系数;

又或者,在其他一些可行的实现方式中,可以通过调整线性层的输出数目,使得对应每个预设关键点,输出预测坐标和一个参数向量,其中,参数向量中包括4*L个参数,从第一个参数开始的每四个参数,可以视为处于一个预测参数组。

处理设备获取各训练样本和构建的初始姿态估计模型后,可以从各训练样本中选取训练样本进行一轮迭代训练。

需要说明的是,本申请实施例中,可以根据实际的处理需要确定批量大小(batchsize),以下的说明中仅以batchsize取值为1为例,对相关的训练过程进行说明。在batchsize取值大于1的情况下,可以针对获取的每个样本图像,分别计算得到对应的损失值;进而,可以基于对应不同样本图像分别确定的损失值,调整模型参数。

本申请实施例中,处理设备从各训练样本中,选取当前一轮迭代训练所使用的训练样本,获得当前一轮迭代训练所使用的样本图像;之后,采用初始姿态估计模型,对选取的样本图像进行姿态估计,获得经过回归处理得到的,各预设关键点各自对应的预测坐标和L个预测参数组,其中,L个预测参数组是分别针对预设的L个分布函数确定的。

需要说明的是,本申请实施例中,根据实际的处理需要,预设的L个分布函数对应的函数类型,具体可以是高斯分布、拉普拉斯分布、狄拉克分布,以及多项式分布等概率函数明确的分布函数中的任意一种或组合;本申请中仅以预设的L个分布函数为L个高斯分布为例,进行示意性说明。

应该理解的是,初始姿态估计模型的输出结果,与选取的分布函数的函数类型是对应的,换言之,在选取不同类型的分布函数时,为分布函数进行参数赋值时所需要的参数是不同的,故为了满足对分布函数的赋值需要,可以在构建初始姿态估计模型的阶段,适应性地调整初始姿态估计模型的输出内容。

例如,参阅图3所示,其为本申请实施例中初始姿态估计模型的输出结果示意图,假设各预设关键点的总数为n个,针对每个预设关键点预设的各分布函数为L个高斯分布,结合图3所示意的内容可知,针对每个预设关键点,能够得到对应的预测坐标和L个预测参数组。以预设关键点1对应的预测参数组1为例,预测参数组中包括

步骤203:处理设备针对各预设关键点,分别执行以下操作:基于对应的预测坐标和L个预测参数组,聚合L个分布函数,获得相应的预测关键点在样本图像中的预测概率分布,并根据预测概率分布与对应的目标概率分布之间的分布差异,确定分布损失。

处理设备获取初始姿态估计模型的输出结果后,针对每个预测关键点,确定在样本图像中的预测概率分布,其中,预测概率分布用于描述样本图像中的各像素点,是对应的预测关键点的概率。

本申请实施例中,假设预设的L个分布函数具体为L个高斯分布,则处理设备针对各预测关键点,分别确定对应的预测概率分布的过程中,针对每个高斯分布,分别执行以下操作:基于对应的预测坐标,确定该高斯分布的均值矩阵,并基于对应的一个预测参数组,确定该高斯分布对应的协方差矩阵和分量权重,得到参数赋值后的高斯分布结果;之后,按照针对L个高斯分布分别确定的分量权重,对L个高斯分布结果进行高斯混合处理,获得相应的预测关键点在样本图像中的预测概率分布。

具体的,考虑到本申请中,针对每个预设关键点,通过聚合L个参数赋值后的高斯分布,确定的是样本图像中的各像素点,是该预设关键点的概率(或称预设关键点的高斯混合表征),其中,根据实际的处理需要,样本图像可以是二维图像。

那么,考虑到像素点在样本图像中的坐标位置是二维的,故采用的L个高斯分布,具体是L个二元高斯分布;基于此,在通过对各高斯分布进行参数赋值,具体化高斯分布的过程中,需要针对各高斯分布,分别确定对应的均值矩阵和协方差矩阵,其中,均值矩阵为1×2的矩阵,协方差矩阵具体为2×2的矩阵。

在L个分布函数为L个高斯分布的情况下,获得的每个预测参数组中包括:水平轴上的标准差、竖直轴上的标准差、皮尔逊相关系数,以及分布函数对应的分量权重。那么,在针对每个高斯分布确定对应的均值矩阵时,可以将对应的预测坐标中包括的两个坐标值,作为均值矩阵中的两个元素;在确定该高斯分布对应的协方差矩阵时,可以采用如下公式进行处理:

其中,

同理,针对一个预设关键点对应的L个高斯分布,构建L个协方差矩阵,记为,

需要说明的是,基于L个高斯分布,联合确定最终的预测概率分布的方式,可以理解高斯混合分布,此时,L个高斯分布可以理解为高斯混合分布中的L个高斯分量,L个高斯分量的参数记为

进而,针对每个预设关键点对应的L个高斯分布,分别完成对L个高斯分布的参数赋值,其中,赋值的参数包括均值矩阵和协方差矩阵;再按照对应的L个预测参数组中包括的分量权重,对一个预设关键点对应的L个高斯分布进行加权聚合,得到完成高斯混合处理后的,相应的预测关键点在样本图像中的预测概率分布,相关的混合过程形如如下公式所示:

其中,

例如,参阅图4A所示,其为本申请实施例中针对一个预设关键点确定对应的预测概率分布的过程示意图,结合附图4A示意的处理过程可知,在对应一个预设关键点1,确定预测坐标和L个预测参数组后,基于预测坐标,能够确定对应的均值矩阵,以及基于每个预测参数组中的参数,能够构建对应的协方差矩阵;进而,基于得到的均值矩阵和L个协方差矩阵,具体确定L个添加分量权重后的高斯分布,再将各高斯分布进行相加,得到预设关键点1对应的预测概率分布。

又例如,参阅图4B所示,其为本申请实施例中预测概率分布与样本图像的对应关系示意图,根据图4B示意的内容可知,针对预设关键点1得到对应的预测概率分布后,对应样本图像中的每个像素点,均能够确定对应的概率值,其中,确定的概率值用于表征该像素点为预设关键点1的概率。结合附图4B示意的内容可知,对于一个样本图像中的像素点q,根据像素点q在样本图像中的像素坐标,能够确定对应的二维矩阵,进而借助于公式

这样,借助于初始姿态估计模型直接预测得到的预测坐标和L个预测参数组,能够针对每个预设关键点,确定对应的预测概率分布,即,确定了各预设关键点各自对应的高斯混合表征;使得借助于高斯混合表征,能够将预设关键点的坐标,转换为图像空间上的概率分布,从而促使训练回归模型时考量的约束内容,与输入图像处在同一个空间维度,有助于提升模型的表示能力,协助模型训练获得更好的性能。

进一步的,在L个分布函数具体为L个高斯分布的前提下,处理设备在针对各预设关键点,分别确定对应的目标概率分布的过程中,基于对应的预测关键点的样本坐标,确定目标均值矩阵,并分别确定在对应的各坐标轴上的标准差,以及根据各坐标轴上的标准差,确定目标高斯分布对应的目标协方差矩阵;再基于目标均值矩阵和目标协方差矩阵,对标准高斯分布进行参数赋值,得到目标概率分布,其中,目标概率分布是基于预测关键点的样本坐标确定的,在样本图像上的概率分布。

下面以针对一个预设关键点(假设为预设关键点1),构建目标概率分布为例,对相关的确定过程进行说明:

具体的,采用标准高斯分布来构建目标概率分布,其中,采用的标准高斯分布具体是二元标准高斯分布,横轴上的标准差和纵轴上的标准差取值相同。

在确定目标均值矩阵时,将预设关键点1的样本坐标中包括的坐标值,确定为目标均值矩阵中的元素,样本坐标的坐标维数与目标均值矩阵中的元素数目相同。

例如,假设一个预设关键点对应的样本坐标(10,25),那么,对应该预设关键点确定的目标均值矩阵为[10,25]。

在针对预设关键点1,确定对应的目标协方差矩阵的过程中,可以先分别确定在对应的各坐标轴上的标准差,其中,根据实际的处理需要,各坐标轴上的标准差取值可以为设置的固定值,或者,各坐标轴上的标准差的取值,可以随预设关键点的预测坐标和样本坐标间的差异动态变化;各坐标轴上标准差的取值相同。

可选的,结合图4C所示,其为本申请实施例中目标概率分布的动态调整示意图,根据图4C所示意的内容可知,4C中是以变量为一维的图示的形式,直观地示意整体的分布变化情况,其中,变量为一维的图示,能够扩展到变量为二维的图示上;

结合附图4C所示意的预测概率分布和目标概率分布的动态变化过程可知,随着训练的进行,

基于此,处理设备可以根据预测坐标与样本坐标的差值,乘上一定的系数来控制目标高斯分布的标准差。

具体的,处理设备可以基于样本坐标与预测关键点的预测坐标,确定表征样本坐标与预测坐标之间的坐标差异的范数值;再在确定该范数值超过设定阈值时,将该范数值确定为目标高斯分布在各坐标轴上的标准差;以及,在确定范数值未超过设定阈值时,将该设定阈值确定为目标高斯分布在各坐标轴上的标准差,其中,目标高斯分布在各坐标轴上标准差取值相同。

例如,假设设置的系数为α,则目标高斯分布的标准差

其中,

然而,若目标高斯分布的标准差一直发生变化,那么预测概率分布永远都无法到达收敛的目标,这不利于模型训练过程中的收敛判定。另外,由于训练过程中,预测概率分布会通过分布损失的L1损失项,拟合目标概率分布的形状,一个一直变化的目标概率分布,无法让预测概率分布学习到有用的形状信息,其中,L1损失项将在后续计算模型损失的过程中进行详细说明。

有鉴于此,当目标概率分布收敛到一定状态时,将停止目标概率分布的变化,使它保持不变。假设该状态对应的标准差阈值为t,那么目标概率分布为:

其中,

这样,在模型训练过程中,能够根据预测坐标和样本坐标之间的差异,动态确定标准差的取值,使得能够尽量保障目标概率分布与预测概率分布能够相交,更好的发挥基于目标概率分布和预测概率分布确定的分布损失,在模型训练过程中的作用。

之后,在确定横轴和纵轴上的标准差后,采用如下公式得到目标均方差矩阵:

其中,

进而,基于得到的目标均值矩阵和目标协方差矩阵,对标准高斯分布进行参数赋值后,得到预设关键点1对应的目标概率分布。

这样,通过基于预设关键点对应的样本坐标,在样本图像空间上,建立以样本坐标处概率值最大的目标概率分布,为针对模型预测结果创建的预测概率分布提供了比较依据。

进一步的,处理设备针对各预设关键点,分别确定对应的预测概率分布和目标概率分布之后,可以采用如下公式,计算对应的分布损失:

其中,

需要说明的是,本申请实施例中,由于 KL 散度的数值具有不稳定性,尤其是在分布的零概率密度上会表现出一定的波动;因此,可选的,可以在确定的分布损失时,在计算KL散度的基础上,添加了一个额外的 L1 损失项。

可选的,处理设备基于针对各预设关键点确定的分布损失,调整初始姿态估计模型的模型参数之前,还可以针对各预设关键点,分别执行以下操作:基于对应的预测坐标和样本坐标之间的坐标差异,计算位置损失。

具体的,在计算位置损失时,可以采用如下公式进行计算:

其中,

这样,通过计算根据预测坐标和样本坐标间的坐标差异,得到的位置损失,能够在计算得到的模型损失中,保留回归模型本身的回归损失的影响,以约束坐标回归值。

步骤204:处理设备基于各分布损失,调整初始姿态估计模型的模型参数。

本申请可行实施例中,在执行步骤204时,处理设备可以根据对应各预设关键点分别确定的分布损失,调整初始姿态估计模型的模型参数。

在另一些可行的实施例中,在引入位置损失的情况下,在模型参数调整过程中,可以基于各分布损失和各位置损失,调整初始姿态估计模型的模型参数,最终的损失函数形如如下所示:

Loss为针对一个预设关键点最终确定的损失值,

这样,能够在模型训练初期,避免出现由于预测概率分布离目标概率分布太远导致的,两个分布根本没有交叠区域的情况,进而避免出现由于两个分布没有交叠区域,导致的分布损失不变化的情况;而且,通过引入位置损失,能够确保模型尽快地拟合到初步收敛的状态,提高初始姿态估计模型的训练效率。

参阅图4D所示,其为本申请实施例中针对一个预设关键点计算模型损失的过程示意图,根据附图4D所示意的内容可知, 样本图像输入初始姿态估计模型后,得到模型针对预设关键点1输出的预测坐标和L个预测参数组;进而,针对预设关键点1,对预设的L个高斯分布分别进行参数赋值,并进行高斯混合处理,得到对应的预测概率分布,其中,为了便于直观的理解,图4D中示意的高斯分布图示,是在一维变量下的图示示意图;进而,结合针对预设关键点1获得的,预测概率分布与对应的目标概率分布之间的差异,确定分布损失。

步骤205:处理设备判定是否达到模型收敛条件,若是,执行步骤206,否则,返回执行步骤202。

需要说明的是,本申请实施例中,预设的收敛条件可以是:总训练轮数达到第一阈值,或者,计算得到的模型损失连续低于第二阈值的次数达到第三阈值,其中,第一阈值、第二阈值,以及第三阈值的取值根据实际的处理需要设置。

步骤206:处理设备输出训练后的目标姿态估计模型。

具体的,处理设备针对初始姿态估计模型,迭代执行步骤202-204示意的训练过程,直至满足预设的收敛条件,得到训练后的目标姿态估计模型。

进而,处理设备可以依据获得的目标姿态估计模型,在不同的业务场景下进行业务处理。

参阅图5A所示,其为本申请实施例中借助于目标姿态估计模型实现业务处理的过程示意图,下面结合附图5A,对采用目标姿态估计模型执行的业务处理过程进行说明:

步骤501:处理设备获取待处理图像。

在本申请可行的实现方式中,处理设备可以获取图像采集设备采集的待处理图像,或者,可以从客户端设备处,获取相关对象选定的待处理图像。

在另一些可行的实现方式中,为了降低模型的处理压力,可以将获取的原始图像进行裁剪后,得到待处理图像。

具体的,处理设备获取原始图像后,针对原始图像进行对象识别处理,确定原始图像中包含待识别对象的目标区域,其中,待识别对象是姿态估计所针对的对象;再从原始图像中裁剪出目标区域对应的图像内容,得到待处理图像。

例如,参阅图5B所示,其为本申请实施例中整理得到待处理图像的过程示意图,根据图5B所示意的内容可知,在针对“人”进行姿态估计的情况下,处理设备获取原始图像之后,可以根据实际的姿态估计需要,针对原始图像进行目标检测,以目标检测框的形式,标识出姿态估计所针对的人体区域或人体局部区域,其中,目标检测过程中采用的检测方式,可以是通用的人体区域检测方式(如YOLO算法),或者,人体局部区域检测方式;之后,将目标检测框标出的区域(记为ROI区域),从原始图像中裁剪下来,作为目标姿态估计模型的输入。

需要说明的是,本申请实施例中,针对原始图像裁剪得到待处理图像的过程,也适用于模型训练阶段样本图像的生成。

这样,通过对原始图形进行兴趣区域的裁剪,使得在得到的待处理图像中,能够尽量避免引入背景内容的干扰,保障对于指定对象的姿态估计效果。

步骤502:处理设备采用目标姿态估计模型,针对待处理图像中的待识别对象进行姿态估计处理,得到各预设关键点在待处理图像中的坐标信息。

具体的,处理设备将待处理图像,输入目标姿态估计模型,得到完成姿态估计处理后,对应各预设关键点预测的坐标信息。

例如,参阅图5C所示,其为本申请实施例中姿态估计过程示意图,根据图5C示意的内容可知,处理设备将待处理图像输入目标姿态估计模型中,得到目标姿态模型输出的,各预设关键点各自对应的预测坐标。

这样,在具体执行姿态估计任务的过程中,不需针对各预设关键点分别确定预测概率分布,预测概率分布的确定过程仅停留在模型训练阶段;可以将基于模型输出计算预测概率分布的功能,视为一个后接于姿态估计模型的插件,因而在基于训练后的目标姿态估计模型进行处理时,可以直接去掉相关的插件而不参加整体耗时,这使得在提升模型训练效果的同时,不会为模型的应用过程带来资源占用负担,保障了姿态估计的高效性。

进一步的,处理设备获取各预设关键点在待处理图像中的坐标信息后,可以基于各坐标信息之间的位置关系,确定待处理图像中待识别对象的状态特征;再基于状态特征,与各候选状态各自对应的候选状态特征的匹配情况,确定待识别对象匹配的目标状态。

需要说明的是,本申请实施例中,可以针对各候选状态预存对应的候选状态特征,其中,各候选状态可以从以下类型的状态中选取:不同的肢体姿态、不同的手势,以及不同对象的身份验证状态;在候选姿态是不同的肢体姿态或不同手势的情况下,预存的候选状态特征可以表征出相应的姿态或者手势下,各预设关键点的相对位置;在候选状态表征的是身份验证状态的情况下,候选状态特征具体可以是用于实现身份验证的特征,如掌纹特征、虹膜特征等。

基于此,处理设备可以依据各预设关键点之间的位置关系,确定待识别对象的状态特征,进而依据状态特征,确定待识别对象对应的目标状态,其中,待识别对象是指待处理图像中的,姿态估计所针对的对象。

这样,借助于姿态估计结果,能够在各样的应用场景中,实现对待识别对象的状态判定。

下面结合附图,以应用目标姿态估计模型进行的几种业务处理为例,对涉及到的业务处理过程进行说明:

参阅图6A所示,其为本申请实施例中掌纹识别流程示意图,下面结合附图6A,对基于目标姿态估计模型实现掌纹识别的过程进行说明:

随着民众对隐私问题的关注度的逐渐提高,掌纹识别在支付、核身等实际应用场景迎来更广泛的应用前景;本申请所提供的人体姿态估计技术可应用于人体的手部,用于实时地检测手部关键点,以完成手掌区域的定位。

具体的,在识别每位用户的掌纹之前,可以将手掌检测模型与应用人体姿态估计技术的手掌关键点检测模型(即目标姿态估计模型),一起构成手掌识别组件,并将用户的手掌注册到后台注册库中。

之后,在每次的识别过程中,获取拍摄的图像后,针对拍摄的图像先后进行手掌检测和手部姿态估计处理,最终在图像中确定手部区域,并从图像中截取手部区域;进而将手部区域的图像,与注册库中的每一张照片进行掌纹识别比对,识别用户的身份,完成身份验证,其中,经过手掌检测后,能够从图像中大致确定手部区域,经过手部姿态估计处理后,能够确定手部各预设关键点的位置,使得能够精确化的定位手部区域。

参阅图6B所示,其为本申请实施例中借助于目标姿态估计模型实现动作识别时的处理逻辑示意图,本申请提出的人体姿态估计可应用在动作、手势和步态识别上,如判断摔倒情况和疾病信号,健身、体育和舞蹈的自动教学等。结合附图6B所示意的内容可知,在进行动作识别、手势识别、步态识别的过程中,涉及到的处理逻辑为:拍摄图像后,通过目标检测,定位人体或手部区域;再采用目标姿态估计模型,实现人体姿态估计,定位人体或手部的预设关键点;进而,依据确定的各预设关键点,实现兴趣区域(ROI)的提取,再依据确定的兴趣区域,完成后续的动作、手势、步态识别。

另外,申请人对发明构思阶段想到的姿态估计方式,与本申请提出的姿态估计方式进行了比较,得到以下比较结果。

具体的,参阅表1所示,其为本申请实施例中模型测试效果比对表,申请人测试了本申请提出的姿态估计方式,与其他可行的姿态估计方式,在公开数据集MSCOCO的验证集上的处理效果,评价处理效果的指标包括:参数量、GFLOPs和mAP。其中,参数量和GFLOPs表征模型处理的速度,参数量和GFLOPs越小,模型处理速度越快;mAP表征模型预测的准确度,mAP越高,模型预测得越准确。

表1

需要说明的是,ResNet-50和Stemnet都是较小的骨干网络,ResNet-152和HRNet都是较大的骨干网络。HRNet的W系数越大,代表它的网络层数越深越宽,模型也越大。相比较而言,ResNet-50比Stemnet大,而HRNet-W32和ResNet-152差不多大。

综上,当和其他实现位姿估计的方式,以同样级别大小的骨干网络进行比较时,基于本申请提出的模型训练方式训练得到的目标姿态估计模型,能够超过其他所有方法的性能,且参数量和GFLOPs能维持在一个较小的范围内。值得注意的是,SimpleBaselines是热图模型,本申请的处理性能优于热图模型,因此,基于本申请提出的训练方式,训练得到的目标姿态估计模型具有明显的处理优势,远超过目前其他可行的方法。

这样,基于本申请提出的姿态估计模型的训练方式,能够在尽少增加耗时的前提下,促使回归模型(即初始姿态估计模型)学习达到比肩热图模型的性能;而且,本申请带来的耗时代价极小,可适用于实时人体姿态估计场景;综合来看,本申请相当于创新性地提出了一种训练方式,借助于高斯混合处理来表征预设关键点的位置,并通过蒙特卡罗估计来最小化预测概率分布与目标概率分布之间的差异,借此来完成模型的训练。

基于同一发明构思,参阅图7所示,其为本申请实施例中姿态估计模型的训练装置的逻辑结构示意图,姿态估计模型的训练装置700中包括获取单元701,以及训练单元702,其中,

获取单元701,用于获取各训练样本;一条训练样本包括:一个样本图像,以及各预设关键点在一个样本图像中的样本坐标,各预设关键点用于姿态定位;

训练单元702,用于基于各训练样本,对初始姿态估计模型进行多轮迭代训练,获得目标姿态估计模型,其中,在一轮迭代训练过程中,执行以下操作:

对选取的训练样本中包含的样本图像进行姿态估计,获得经过回归处理得到的,各预设关键点各自对应的预测坐标和L个预测参数组,其中,L个预测参数组是分别针对预设的L个分布函数确定的;

针对各预设关键点,分别执行以下操作:基于对应的预测坐标和L个预测参数组,聚合L个分布函数,获得相应的预测关键点在样本图像中的预测概率分布,并根据预测概率分布与对应的目标概率分布之间的分布差异,确定分布损失,其中,目标概率分布是基于预测关键点的样本坐标确定的,在样本图像上的概率分布;

基于各分布损失,调整初始姿态估计模型的模型参数。

可选的,预设的L个分布函数为L个高斯分布;基于对应的预测坐标和L个预测参数组,聚合L个分布函数,获得相应的预测关键点在样本图像中的预测概率分布时,训练单元702用于:

针对每个高斯分布,分别执行以下操作:基于对应的预测坐标,确定高斯分布的均值矩阵,并基于对应的一个预测参数组,确定高斯分布对应的协方差矩阵和分量权重,得到参数赋值后的高斯分布结果;

按照针对L个高斯分布分别确定的分量权重,对L个高斯分布结果进行高斯混合处理,获得相应的预测关键点在样本图像中的预测概率分布。

可选的,目标概率分布,是采用以下方式确定的:

基于对应的预测关键点的样本坐标,确定目标均值矩阵,并分别确定在对应的各坐标轴上的标准差,以及根据各坐标轴上的标准差,确定目标高斯分布对应的目标协方差矩阵;

基于目标均值矩阵和目标协方差矩阵,对标准高斯分布进行参数赋值,得到目标概率分布。

可选的,分别确定在对应的各坐标轴上的标准差时,训练单元702用于:

基于样本坐标与预测关键点的预测坐标,确定表征样本坐标与预测坐标之间的坐标差异的范数值;

在确定范数值超过设定阈值时,将范数值确定为目标高斯分布在各坐标轴上的标准差;以及,在确定范数值未超过设定阈值时,将设定阈值确定为目标高斯分布在各坐标轴上的标准差;目标高斯分布在各坐标轴上的标准差取值相同。

可选的,基于各分布损失,调整初始姿态估计模型的模型参数之前,训练单元702还用于:

针对各预设关键点,分别执行以下操作:基于对应的预测坐标和样本坐标之间的坐标差异,计算位置损失;

基于各分布损失,调整初始姿态估计模型的模型参数,包括:

基于各分布损失和各位置损失,调整初始姿态估计模型的模型参数。

可选的,获得目标姿态估计模型之后,装置还包括处理单元703,处理单元703用于:

获取待处理图像;

采用目标姿态估计模型,针对待处理图像中的待识别对象进行姿态估计处理,得到各预设关键点在待处理图像中的坐标信息。

可选的,获取待处理图像时,处理单元703用于:

获取原始图像;

针对原始图像进行对象识别处理,确定原始图像中包含待识别对象的目标区域,其中,待识别对象是姿态估计所针对的对象;

从原始图像中裁剪出目标区域对应的图像内容,得到待处理图像。

可选的,得到各预设关键点在待处理图像中的坐标信息之后,处理单元703还用于:

基于各坐标信息之间的位置关系,确定待处理图像中待识别对象的状态特征;

基于状态特征,与各候选状态各自对应的候选状态特征的匹配情况,确定待识别对象匹配的目标状态。

在介绍了本申请示例性实施方式的姿态估计模型的训练方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思,在本申请实施例中的电子设备对应的是处理设备的情况下,参阅图8所示,其为应用本申请实施例的一种电子设备的硬件组成结构示意图,电子设备800可以至少包括处理器801、以及存储器802。其中,存储器802存储有计算机程序,当计算机程序被处理器801执行时,使得处理器801执行上述任意一种姿态估计模型的训练的步骤。

在一些可能的实施方式中,根据本申请的电子设备可以包括至少一个处理器、以及至少一个存储器。其中,存储器存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的姿态估计模型的训练的步骤。例如,处理器可以执行如图2中所示的步骤。

与上述方法实施例基于同一发明构思,本申请提供的姿态估计模型的训练的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的姿态估计模型的训练中的步骤,例如,电子设备可以执行如图2中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 一种书法训练方法、装置、电子设备及存储介质
  • 工作量评估及模型训练方法、电子设备及存储介质
  • 一种三维姿态估计方法、装置、设备和计算机存储介质
  • 神经网络模型的优化方法及装置、电子设备和存储介质
  • 三维模型处理方法和装置、电子设备、计算机可读存储介质
  • 模型训练方法、头部姿态估计方法、电子设备及存储介质
  • 模型训练方法、头部姿态估计方法、电子设备及存储介质
技术分类

06120116482382