掌桥专利:专业的专利平台
掌桥专利
首页

模型训练方法、姿态估计方法、装置及电子设备

文献发布时间:2023-06-19 10:19:37


模型训练方法、姿态估计方法、装置及电子设备

技术领域

本申请涉及计算机技术中的计算机视觉、增强现实、深度学习等人工智能技术领域,尤其涉及一种模型训练方法、姿态估计方法、装置及电子设备。

背景技术

人体姿态估计算法可以检测出图片或视频中各个人体关键点(例如,关节点、骨骼等)的位置,在人体交互、动作识别、行为监控、美体等领域具有十分广泛的应用价值。

对于人体姿态估计,人体姿态估计模型是关键,目前在人体姿态估计模型的训练过程中,常采用的方法是直接将样本图像输入用于检测人体各关键点的热图(heatmap)的待训练模型进行训练。

发明内容

本申请提供一种模型训练方法、姿态估计方法、装置及电子设备。

第一方面,本申请一个实施例提供一种模型训练方法,所述方法包括:

获取样本图像;

将所述样本图像输入第一模型进行训练,得到目标姿态估计模型;

其中,所述目标姿态估计模型包括人像分割网络和姿态估计模型,所述姿态估计模型的输入包括所述人像分割网络的输出。

利用样本图像对第一模型进行训练,得到的目标姿态估计模型包括人像分割网络和姿态估计模型,而不是仅对姿态估计模型进行训练得到用于姿态估计的模型,在本实施例中,所述姿态估计模型的输入包括所述人像分割网络的输出,也就是说,目标姿态估计模型是在人像分割网络后添加姿态估计模型,相对姿态估计模型,增加了人像分割网络的模型,通过人像分割网络可获得更多的图像语义信息,姿态估计模型的输入包括人像分割网络的输出,即目标姿态估计模型中的姿态估计模型可在人像分割网络的输出的基础上进行姿态估计,如此,可提高训练得到的目标姿态估计模型的性能。

第二方面,本申请一个实施例提供一种姿态估计方法,所述方法包括:

获取待测图像;

通过目标姿态估计模型对所述待测图像进行人体姿态估计,输出所述待测图像的多个关键点的预测热图;

其中,所述目标姿态估计模型包括人像分割网络和姿态估计模型,所述人像分割网络的输入包括所述待测图像,所述姿态估计模型的输入包括所述人像分割网络的输出。

采用的是包括人像分割网络和姿态估计模型的目标姿态估计模型对待测图像进行姿态估计,即姿态估计模型的输入包括所述人像分割网络的输出,也就是说,目标姿态估计模型是在人像分割网络后添加姿态估计模型,相对姿态估计模型,增加了人像分割网络的模型,通过人像分割网络可获得更多的图像语义信息,姿态估计模型的输入包括人像分割网络的输出,即目标姿态估计模型中的姿态估计模型可在人像分割网络对待测图像进行处理得到的输出的基础上进行姿态估计,提高多个关键点的检测精确性,即提高姿态估计的精确性。

第三方面,本申请一个实施例提供一种模型训练装置,所述装置包括:

第一获取模块,用于获取样本图像;

训练模块,用于将所述样本图像输入第一模型进行训练,得到目标姿态估计模型;

其中,所述目标姿态估计模型包括人像分割网络和姿态估计模型,所述姿态估计模型的输入包括所述人像分割网络的输出。

第四方面,本申请一个实施例提供一种姿态估计装置,所述装置包括:

第二获取模块,用于获取待测图像;

姿态检测模块,用于通过目标姿态估计模型对所述待测图像进行人体姿态估计,输出所述待测图像的多个关键点的预测热图;

其中,所述目标姿态估计模型包括人像分割网络和姿态估计模型,所述人像分割网络的输入包括所述待测图像,所述姿态估计模型的输入包括所述人像分割网络的输出。

第五方面,本申请一个实施例还提供一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请各实施例提供的模型训练方法或姿态估计方法。

第六方面,本申请一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请各实施例提供的模型训练方法或姿态估计方法。

第七方面,本申请一个实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序用于使所述计算机执行本申请各实施例提供的模型训练方法或姿态估计方法。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是本申请提供的一个实施例的模型训练方法的流程示意图之一;

图2是本申请提供的一个实施例的模型训练方法的流程示意图之二;

图3是本申请提供的一个实施例的姿态估计方法的流程示意图;

图4是本申请提供的一个实施例的模型训练方法的原理示意图;

图5是本申请提供的一个实施例的模型训练装置的结构图;

图6是本申请提供的一个实施例的姿态估计装置的结构图;

图7是用来实现本申请实施例的模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

如图1所示,根据本申请的实施例,本申请提供一种模型训练方法,方法包括:

步骤S101:获取样本图像。

样本图像的数量有多个,用于对第一模型进行训练。需要说明的是,样本图像中可包括人体,可选的,可以是包括各种姿态的人体,以便提高训练得到的目标姿态估计模型对人体姿态检测的能力。

步骤S102:将样本图像输入第一模型进行训练,得到目标姿态估计模型。

其中,目标姿态估计模型包括人像分割网络和姿态估计模型,姿态估计模型的输入包括人像分割网络的输出。可以理解,第一模型可包括初始人像分割网络和初始姿态估计模型,初始人像分割网络的输入包括述样本图像,初始姿态估计模型的输入包括初始人像分割网络的输出,通过样本图像对第一模型进行训练,训练完成后得到的目标姿态模型包括初始人像分割网络训练后的网络(即人像分割网络)和初始姿态估计模型训练后的模型(即姿态估计模型)。

需要说明的是,人像分割网络对图像进行处理可得到分割图像(例如,二值图像),人像分割网络可提取图像的语义信息(体现在输出的分割图像中),例如,可获得更多有关前景和背景的区分信息,上述丰富的语义信息对后续姿态估计模型进行人体姿态估计具有较大的帮助,如此,人像分割网络得到的分割图像输出给姿态估计模型进行姿态估计,可降低把背景误检为关键点的可能性,如此,可提高训练得到的目标姿态估计模型的性能,可提高后续通过目标姿态估计模型进行姿态估计的精确性。

上述人像分割网络有多种,在本申请中不作限定,例如,作为一个示例,人像分割网络可以包括但不限于Mask RCNN(Mask Region Convolutional Neural Networks,掩膜区域卷积神经网络)模型、FCN(Fully Convolutional Networks,全卷积神经网络)模型、U-net(网络结构类似U字型的分割网络,与FCN相似,分为下采样阶段和上采样阶段,例如,可适用于生物医学图像等图像的分割)模型、Segnet(用于进行像素级别图像分割的全卷积网络,是一种图像语义分割深度网络)模型、DeepLab(带空洞卷积和全连接条件随机场的语义分割网络,可以理解为一种深度卷积神经网络)等。

姿态估计模型用于对图像中人体姿态进行估计,也可以理解为检测图像中多个关键点的热图(heatmap),多个关键点即是人体的多个关键点,可预先设置,例如,可以包括人体的多个关节点(比如,肩关节、肘关节、腕掌关节、脚关节、踝关节等,在此不再一一罗列)以及骨骼等。姿态估计模型有多种,在本申请中不作限定,例如,作为一个示例,姿态估计模型可以包括但不限于CPM(Convolutional Pose Machines,卷积姿态机)模型即卷积姿态估计器模型、OpenPose(一种基于卷积神经网络和监督学习并以Caffe为架构开发的开源库,其中,Caffe全拼为Convolutional Architecture For Fast Feature Embedding,快速特征嵌入的卷积结构)等。

在本实施例的模型训练方法中,利用样本图像对第一模型进行训练,得到的目标姿态估计模型包括人像分割网络和姿态估计模型,而不是仅对姿态估计模型进行训练得到用于姿态估计的模型,在本实施例中,所述姿态估计模型的输入包括所述人像分割网络的输出,也就是说,目标姿态估计模型是在人像分割网络后添加姿态估计模型,相对姿态估计模型,增加了人像分割网络的模型,通过人像分割网络可获得更多的图像语义信息,姿态估计模型的输入包括人像分割网络的输出,即目标姿态估计模型中的姿态估计模型可在人像分割网络的输出的基础上进行姿态估计,如此,可提高训练得到的目标姿态估计模型的性能。

在一个实施例中,第一模型包括初始人像分割网络和初始姿态估计模型,初始人像分割网络的输入包括述样本图像,初始姿态估计模型的输入包括初始人像分割网络的输出;

在本实施例中,如图2所示,将样本图像输入第一模型进行训练,得到目标姿态估计模型的步骤S102,包括:

步骤S1021:将样本图像输入初始人像分割网络,利用初始人像分割网络输出的第一分割图像以及样本图像对应的真实分割图像,确定第一损失值。

初始人像分割网络对输入的样本图像进行处理,可得到第一分割图像(例如,可以是第一二值图像),每个样本图像有对应的真实分割图像(例如,真实二值图像),得到的第一分割图像与真实分割图像之间可能存在差异,差异越大,表示初始人像分割网络对样本图像进行分割的效果越差,得到的第一分割图像的质量越差,如此,可利用第一分割图像以及样本图像对应的真实分割图像,确定第一损失值。

步骤S1022:利用初始姿态估计模型根据第一分割图像输出的热图以及样本图像对应的真实热图,确定第二损失值。

步骤S1023:依据第一损失值和第二损失值,对第一模型进行训练,得到目标姿态估计模型。

初始人像分割网络将得到的第一分割图像输出至初始姿态估计模型,初始姿态估计模型对第一分割图像进行姿态检测,可输出对应的热图,该第一分割图像可以对关键点位置范围进行约束,做到进一步纠偏,可提高初始姿态估计模型对姿态估计的精确性。每个样本图像有对应的真实热图,初始姿态估计模型得到的热图与对应的真实热图之间可能存在差异,差异越大,表示姿态估计模型的姿态检测效果越差,得到的热图的质量越差,如此,可利用输出的热图以及对应的真实热图,确定第二损失值。利用第一损失值和第二损失值进行模型训练,得到目标姿态估计模型。

需要说明的是,对于多个关键点,每个样本图像对应的真实热图有多张,每个关键点对应一张真实热图,初始姿态估计模型对于每个关键点,输出一张对应的热图,即初始姿态估计模型根据第一分割图像像输出的热图包括多张热图,根据输出的每张热图与对应的真实热图,可计算一个损失值(例如,L1损失值),将每张热图对应的损失值求和得到第二损失值。

即在本实施例中,将初始人像分割模型和初始姿态估计模型进行整体训练,既考虑了初始人像分割模型得到的第一分割图像与真实分割图像之间的差异,而且还考虑了初始姿态估计模型输出的热图以及对应的真实热图之间的差异,利用第一损失值和第二损失值进行模型训练,可提高模型训练的效果,提高得到的目标姿态估计模型的性能。

作为一个示例,第一损失值为第一损失函数的值,第一损失函数可以包括交叉熵损失函数,第一损失值即为交叉熵损失值。第二损失值为第二损失函数的值,第二损失函数可以包括L1损失(L1Loss,也可称为L1范数损失函数)函数,第二损失值即为L1损失函数的值。

在一个实施例中,依据第一损失值和第二损失值,对第一模型进行训练,得到目标姿态估计模型,包括:计算第一损失值与第二损失值之和,得到总损失值;根据总损失值,对第一模型进行训练,得到目标姿态估计模型。

即在本实施例中,利用第一损失值和第二损失值之和对第一模型进行训练,可提高模型训练的效果,提高得到的目标姿态估计模型的性能。

在一个实施例中,样本图像为样本人体框图;

在本实施例中,获取样本图像,包括:

获取样本图片;对样本图片进行人体检测,确定样本图片中的人体框;对样本图片中的人体框进行剪裁,得到样本人体框图。

样本图片中可能包括背景,图片中的背景容易对人体姿态检测产生干扰,因此,在本实施例中,可对样本图片进行去背景处理,得到样本图像,即样本人体框图。例如,可先对样本图片进行人体检测,以确定样本图片的人体框(例如,可以是矩形框),人体框中的区域包括图片中的人体所在的区域,若样本图片中包括多个人体,则可确定多个人体框,人体框与人体一一对应。然后通过对样本图片中的人体框进行剪裁,即可得到样本人体框图,即得到用于训练的样本图像,其中包括样本图片中的人体。需要说明的是人体检测的方式有多种,在本申请中不作限定。

在本实施例中,通过样本人体框图对第一模型进行训练,可减少样本图片中背景的干扰,可提高训练效果,从而提高得到的目标姿态模型的性能。

上述各实施的模型训练方法,可应用于人体姿态估计场景等,上述样本图像可以是包括人体的图像。例如,上述各实施的模型训练方法可应用于人体二维(2d)姿态估计、人体三维(3d)姿态估计等场景。

如图3所示,根据本申请的实施例,本申请提供姿态估计方法,方法包括:

步骤S301:获取待测图像;

步骤S302:通过目标姿态估计模型对待测图像进行人体姿态估计,输出待测图像的多个关键点的预测热图;

其中,目标姿态估计模型包括人像分割网络和姿态估计模型,人像分割网络的输入包括待测图像,姿态估计模型的输入包括人像分割网络的输出。

待测图像输入目标姿态估计模型进行姿态估计,目标姿态模型对待测图像进行姿态估计,即是对待测图像中多个关键点进行检测,通过目标姿态模型进行姿态检测,得到待测图像的多个关键点的预测热图,每个关键点对应一张预测热图,即得到多张预测热图。需要说明的是,待测图像输入人像分割网络,通过人像分割网络可得到待测图像的第二分割图像(例如,第二二值图像),第二分割图像输出至姿态估计模型,姿态估计模型根据第二分割图像输出待测图像的多个关键点的预测热图。

需要说明的是,目标姿态估计模型是训练后的模型,其中的人像分割网络和姿态估计模型均是训练后的模型,目标姿态估计模型可以是通过上述各实施例的模型训练方法进行模型训练得到的目标姿态估计模型,例如,本实施例的目标姿态估计模型是通过样本图像对第一模型进行训练得到。各实施例的技术特征可一一对应,在此不再赘述。

在本实施例的姿态估计方法中,采用的是包括人像分割网络和姿态估计模型的目标姿态估计模型对待测图像进行姿态估计,即姿态估计模型的输入包括所述人像分割网络的输出,也就是说,目标姿态估计模型是在人像分割网络后添加姿态估计模型,相对姿态估计模型,增加了人像分割网络的模型,通过人像分割网络可获得更多的图像语义信息,姿态估计模型的输入包括人像分割网络的输出,即目标姿态估计模型中的姿态估计模型可在人像分割网络对待测图像进行处理得到的输出的基础上进行姿态估计,提高多个关键点的检测精确性,即提高姿态估计的精确性。

在一个实施例中,通过目标姿态估计模型对待测图像进行人体姿态估计,输出待测图像的多个关键点的预测热图,包括:对待测图像进行人体检测,确定待测图像中的人体框;对待测图像中的人体框进行剪裁,得到待测人体框图;通过目标姿态估计模型对待测人体框图进行人体姿态估计,输出待测图像的多个关键点的预测热图。

待测图像中可能包括背景,容易对人体姿态检测产生干扰,因此,在本实施例中,可对待测图像进行去背景处理,得到待测人体框图,将其输入目标姿态估计模型进行姿态估计。例如,可先对待测图像进行人体检测,以确定待测图像的人体框(例如,可以是矩形框),待测图像的人体框中的区域包括待测图像中的人体所在的区域,若待测图像中包括多个人体,则可确定多个人体框,人体框与人体一一对应。然后通过对待测图像中的人体框进行剪裁,即可得到待测人体框图,其中包括待测图像中的人体,将其输入目标姿态估计模型进行姿态估计,得到多个关键点的预测热图,可提高姿态估计的精确性。需要说明的是人体检测的方式有多种,在本申请中不作限定。

上述各实施的姿态估计方法,可应用于人体姿态估计场景等,上述待测图像可以是在人体姿态估计场景中的待测图像。例如,上述各实施的姿态估计方法可应用于人体二维(2d)姿态估计、人体三维(3d)姿态估计等场景。

下面以一个具体实施例对上述姿态估计的过程加以说明。

如图4所示,为本申请实施例的模型训练方法的原理图,以人体2d姿态估计为例进行说明,首先构建第一模型,即构建初始人像分割网络和初始姿态估计模型,在人像分割网络的基础上,在后面添加一个2d的人体姿态估计模型,训练时同时对人像分割网络的输出和姿态估计模型的输出分别进行监督和约束。

首先,获取样本图片,对样本图片进行人体检测(检测的结果可能有多个人),得到样本图片的人体检测框(即人体框),然后根据检测框范围对样本图片对应的人体区域进行裁剪,再对每个裁剪后得到的样本人体框图输入第一模型进行训练。

训练时,对初始人像分割网络输出的分割图像和对应的真实分割图像计算交叉熵损失(CELoss)函数的值,初始人像分割网络输出的分割图像传递至姿态估计模型,对姿态估计模型输出的热图和对应的真实热图计算L1损失(L1Loss)函数的值,其中,人像分割网络对应的第一损失值相当于中继监督,使得网络学习到了更多有关前景和背景的区分信息,这些丰富的语义信息对后面的姿态估计模型进行人体的关键点检测具有较大的帮助,降低了把背景误检为关键点的可能性,进一步提升了在杂乱背景、复杂光照、人体移动模糊等情况下关键点检测的精度。利用交叉熵损失函数的值和L1损失函数的值,进行模型训练,可提高整体模型的训练效果,提高训练完成后得到的目标姿态估计模型的性能,得到的目标姿态估计模型包括人像分割模型和姿态估计模型,人像分割模型即为初始分割网络训练完成后的模型,姿态估计模型即为初始姿态估计模型训练完成后的模型。

预测时,可获取待测图像,对其进行人体检测,并对待测图像的人体框进行剪裁,得到待测人体框图,将其输入目标姿态估计模型,通过目标姿态估计模型,其中,待测图像的待测人体框图输入人像分割网络,通过人像分割网络可得到待测人体框图的分割图像(例如,二值图像),测人体框图的分割图像输出至姿态估计模型,姿态估计模型根据测人体框图的分割图像输出待测人体框图的多个关键点的预测热图。即在本实施例中,不仅可以获取到关键点位置信息的热图输出,同时还可以获取到人像分割的中间输出即待测人体框图对应的分割图像。

综上,本申请的实施例中,在人像分割网络基础上添加一个人体姿态估计模型,同时对人像分割网络输出的分割图像和输出的关键点的热图进行监督,使得后面姿态估计模型可以学习到更多人像和背景的先验信息,这些前后景的语义信息对人体姿态估计模型进行人体关键点检测是有较大的帮助的,尤其是对在背景环境比较杂乱、光照比较复杂以及人体快速移动造成的模糊等情况下关键点检测的精度提升十分明显。另外,人像分割网络的输出对应的第一损失值相当于网络的中继监督,可以降低网络梯度消失的概率,使得网络可以更快收敛。而且人像分割网络对应的损失是像素级分类损失,十分密集的监督,具有很丰富的语义信息,对关键点检测具有较大增益。

如图5所示,根据本申请的实施例,本申请还提供一种模型训练装置500,装置500包括:

第一获取模块501,用于获取样本图像;

训练模块502,用于将样本图像输入第一模型进行训练,得到目标姿态估计模型;

其中,目标姿态估计模型包括人像分割网络和姿态估计模型,姿态估计模型的输入包括人像分割网络的输出。

在一个实施例中,第一模型包括初始人像分割网络和初始姿态估计模型,初始人像分割网络的输入包括述样本图像,初始姿态估计模型的输入包括初始人像分割网络的输出;

训练模块,包括:

第一确定模块,用于将样本图像输入初始人像分割网络,利用初始人像分割网络输出的第一分割图像以及样本图像对应的真实分割图像,确定第一损失值;

第二确定模块,用于利用初始姿态估计模型根据第一分割图像输出的热图以及样本图像对应的真实热图,确定第二损失值;

模型确定模块,用于依据第一损失值和第二损失值,对第一模型进行训练,得到目标姿态估计模型。

在一个实施例中,模型确定模块,包括:

计算模块,用于计算第一损失值与第二损失值之和,得到总损失值;

确定子模块,用于根据总损失值,对第一模型进行训练,得到目标姿态估计模型。

在一个实施例中,样本图像为样本人体框图;

第一获取模块,包括:

图片获取模块,用于获取样本图片;

第一检测模块,用于对样本图片进行人体检测,确定样本图片中的人体框;

第一剪裁模块,用于对样本图片中的人体框进行剪裁,得到样本人体框图。

上述各实施例的模型训练装置为实现上述各实施例的模型训练方法的装置,技术特征对应,技术效果对应,在此不再赘述。

如图6所示,根据本申请的实施例,本申请还提供一种姿态估计装置600,装置600包括:

第二获取模块601,用于获取待测图像;

姿态检测模块602,用于通过目标姿态估计模型对待测图像进行人体姿态估计,输出待测图像的多个关键点的预测热图;

其中,目标姿态估计模型包括人像分割网络和姿态估计模型,人像分割网络的输入包括待测图像,姿态估计模型的输入包括人像分割网络的输出。

在一个实施例中,姿态检测模块602,包括:

第二检测模块,用于对待测图像进行人体检测,确定待测图像中的人体框;

第二裁剪模块,用于对待测图像中的人体框进行剪裁,得到待测人体框图;

姿态检测子模块,用于通过目标姿态估计模型对待测人体框图进行人体姿态估计,输出待测图像的多个关键点的预测热图。

上述各实施例的姿态估计装置为实现上述各实施例的姿态估计方法的装置,技术特征对应,技术效果对应,在此不再赘述。

根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图7所示,是根据本申请实施例的模型训练方法或姿态估计方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的模型训练方法或姿态估计方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的模型训练方法或姿态估计方法。

本申请实施例的计算机程序产品,包括计算机程序,所述计算机程序用于使计算机执行本申请各实施例提供的模型训练方法或姿态估计方法。

存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的模型训练方法对应的程序指令/模块(例如,附图5所示的第一获取模块501、训练模块502),或者如本申请实施例中的姿态估计方法对应的程序指令/模块(例如,附图6所示的第二获取模块601、姿态检测模块602)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的模型训练方法或姿态估计方法。

存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据键盘显示的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至键盘显示的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

模型训练方法或姿态估计方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息,以及产生与键盘显示的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASMC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

根据本申请实施例的模型训练方案,利用样本图像对第一模型进行训练,得到的目标姿态估计模型包括人像分割网络和姿态估计模型,而不是仅对姿态估计模型进行训练得到用于姿态估计的模型,在本实施例中,所述姿态估计模型的输入包括所述人像分割网络的输出,也就是说,目标姿态估计模型是在人像分割网络后添加姿态估计模型,相对姿态估计模型,增加了人像分割网络的模型,通过人像分割网络可获得更多的图像语义信息,姿态估计模型的输入包括人像分割网络的输出,即目标姿态估计模型中的姿态估计模型可在人像分割网络的输出的基础上进行姿态估计,如此,可提高训练得到的目标姿态估计模型的性能。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

相关技术
  • 姿态估计模型训练方法、姿态估计方法、装置和电子设备
  • 人体姿态估计分组模型训练方法、姿态估计方法及装置
技术分类

06120112501259