导航：首页> 对金属材料的镀覆；用金属材料对材料的镀覆；表面化学处理；金属材料的扩散处理；真空蒸发法、溅射法、离子注入法或化学气相沉积法的一般镀覆；金属材料腐蚀或积垢的一般抑制〔2〕>人体姿态估计模型、模型训练方法及人体姿态估计方法

人体姿态估计模型、模型训练方法及人体姿态估计方法

文献发布时间：2023-06-19 16:04:54

技术领域

本申请涉及人体姿态估计技术领域，特别涉及一种人体姿态估计模型、模型训练方法及人体姿态估计方法。

背景技术

人体姿态估计是基于图片或者视频对人体关键点位置进行预测的一种算法，可广泛应用于人体交互、安防、健康、增强显示等领域。

一般情况下，常见的人体姿态估计模型通常是采用单目图像作为训练图像，并基于单目图像输出人体关键点的热图信息，然后将其和真值热图信息计算距离损失来进行模型训练。然而，在复杂背景(例如，遮挡等)以及人体快速移动造成的模糊情况下，基于单目图像训练得到得到人体姿态模型检测出的人体关键点的准确性不高(例如，将背景显示的物体识别为人体关键点)，容易造成关键点误检从而影响人体姿态估计的稳定性。

进一步地，虽然目前也有研究者以视频为训练对象，采用LSTM等循环神经网络确定人体关键点的热图信息，然后将其和真值热图信息计算距离损失来进行模型训练以避免遮挡以及人体快速移动所造成的人体关键点的不准确的问题。但是，将视频作为训练对象的循环神经网络需要消耗大量计算资源以及运行时间，限制了训练得到的人体姿态估计模型的应用，例如，无法应用于边缘设备中等。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种人体姿态估计模型、模型训练方法及人体姿态估计方法。

为了解决上述技术问题，本申请实施例第一方面提供了了一种人体姿态估计模型的训练方法，所述的训练方法包括：

获取训练样本集中的当前帧图像、当前帧图像对应的真值特征图及上一帧图像的前序特征图，其中，上一帧图像与当前帧图像为相邻图像帧，所述前序特征图基于预设前序特征模型得到，所述预设前序特征模型是基于单帧图像所构建的模型以对所述人体姿态估计模型进行优化；

将所述前序特征图及所述当前帧图像输入待训练人体姿态估计模型，得到所述当前帧图像对应的预测特征图；

根据各所述当前帧图像对应的预测特征图及所述真值特征图对所述待训练人体姿态估计模型进行迭代优化，得到人体姿态估计模型。

本申请实施例第二方面提供了一种人体姿态估计模型，其特征在于，由采用如上项所述的人体姿态估计模型的训练方法训练得到，其中，所述人体姿态估计模型包括第二特征模块及信息融合模块：

所述第二特征模块，用于获取当前帧图像训练特征图；所述第二特征模块的结构与预设前序特征模型的第一特征模块的模型结构相同，所述预设前序特征模型用于获取上一帧图像的前序特征图；

所述信息融合模块，用于融合所述训练特征图与所述前序特征图得到所述当前帧图像对应的预测特征图。

本申请实施例第三方面提供了一种人体姿态估计方法，应用采用如上项所述的人体姿态估计模型；所述的方法包括：

获取当前帧图像及上一帧图像的前序特征图；其中，所述当前帧图像与所述上一帧图像为相邻图像帧，所述前序特征图为上一帧图像输入至所述人体姿态估计模型得到；

通过所述人体姿态估计模型融合所述当前帧图像与所述前序特征图，获取所述当前帧图像的目标特征图；

根据所述目标特征图确定所述当前帧图像对应的目标人体姿态。

本申请实施例第四方面提供了一种人体姿态估计模型的训练装置，包括：

第一获取模块，获取训练样本集中的当前帧图像、当前帧图像对应的真值特征图及上一帧图像的前序特征图，其中上一帧图像与当前帧图像为相邻图像帧；其中，所述前序特征图基于预设前序特征模型得到，所述预设前序特征模型是基于单帧图像所构建的模型以对所述人体姿态估计模型进行优化；

第二获取模块，将所述前序特征图及当前帧图像输入待训练人体姿态估计模型，得到所述当前帧图像对应的预测特征图；

训练模块，根据所述训练样本集中各所述当前帧图像对应的预测特征图及所述真值特征图对所述待训练人体姿态估计模型进行迭代优化，得到人体姿态估计模型；其中，所述人体姿态估计模型是基于所述相邻图像帧训练得到的模型。

本申请实施例第五方面提供一种人体姿态估计装置，其应用采用上述人体姿态估计模型的训练方法训练得到的人体姿态估计模型，包括：

第三获取模块，获取当前帧图像及上一帧图像的前序特征图；其中，所述当前帧图像与所述上一帧图像为相邻图像帧，所述前序特征图为上一帧图像输入至所述人体姿态估计模型得到；

第四获取模块，通过所述人体姿态估计模型融合所述当前帧图像与所述前序特征图，获取所述当前帧图像的目标特征图；

估计模块，根据所述目标特征图确定所述当前帧图像对应的目标人体姿态。

本申请实施例第六方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的人体姿态估计模型的训练方法中的步骤，和/或以实现如上所述的人体姿态估计方法。

本申请实施例第七方面提供了一种电子设备，其包括：处理器及存储器；其中:

所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述处理器执行所述计算机可读程序时实现如上所述的人体姿态估计模型的训练方法中的步骤，和/或实现如上所述的人体姿态估计方法。

本申请的有益效果为：本实施例通过采用基于单帧图像帧训练得到的前序特征模型对人体姿态估计进行监督，可以利用单帧图像帧的数据丰富性特点，同时将当前帧图像以及上一帧图像的前序特征图作为人体姿态估计模型的输入项，可以学习到相邻图像帧间的时空信息，从而可以提高训练得到的人体姿态估计模型的模型性能。此外，本申请实施例直接将前序特征图作为输入项，无需对前序特征图进行特征提取，从而不会增加人体姿态估计模型的计算量以及人体姿态估计所花费的时长。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的人体姿态估计模型的训练方法的流程图。

图2为本申请提供的人体姿态估计模型的训练方法的原理流程图。

图3为本申请提供的人体姿态估计模型的训练方法中的人体姿估计模型的结构原理图。

图4为本申请提供的人体姿态估计方法的流程图。

图5为本申请提供的人体姿态估计方法的原理流程图。

图6为本实施例提供的人体姿态估计模型的训练装置的结构原理图。

图7为本实施例提供的人体姿态估计装置的结构原理图。

图8为本申请提供的电子设备的结构原理图。

具体实施方式

本申请提供一种人体姿态估计模型、模型训练方法及人体姿态估计方法，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种人体姿态估计模型的训练方法，该方法可以由人体姿态估计模型的训练装置或者电子设备来执行，该装置或者电子设备可以由软件和/或硬件的方式实现，该装置或者电子设备可以集成在任何具有网络通信功能的智能设备中。

如图1和图2所示，本实施例提供的人体姿态估计模型的训练方法具体包括：

S10、获取训练样本集中的当前帧图像、当前帧图像对应的真值特征图及上一帧图像的前序特征图，其中上一帧图像与当前帧图像为相邻图像帧。

在一个实现方式，训练样本集可以包括若干训练图像组，若干训练图像组中的每个训练图像组均包括当前帧图像，上一帧图像的前序特征图，以及当前帧图像的真值特征图，上一帧图像和当前帧图像为一视频帧序列中的相邻图像帧，即上一帧图像和当前帧图像包含于同一视频帧序列中，按照图像帧采集顺序上一帧图像位于当前帧图像之前，并且上一帧图像与当前帧图像相邻。

在一个实现方式中，上一帧图像的前序特征图的获取方式包括：将当前帧图像的上一帧图像输入预设前序特征模型，通过预设前序特征模型获取上一帧图像的前序特征图。

更具体地，预设前序特征模型可为经过训练的网络模型或待训练的网络模型，预设前序特征模型的输入项为上一帧图像，输出项为上一帧图像的前序特征图，其中，预设前序特征模型基于单帧图像训练得到。具体地，若预设前序特征模型为经过训练的网络模型，则其是以单帧图像为训练输入项来获取人体关键点的热图信息，然后将其和真值热图信息计算损失项(例如，距离损失等)并进行迭代优化得到的最佳模型。

应当理解的是，预设前序特征模型在本实施例中作为工具网络，其与人体姿态估计模型独立设置，用于根据前序特征图对人体姿态估计模型的参数进行优化。

在一个实现方式中，若预设前序特征模型为待训练的网络模型，则在步骤S10之前，还包括：

获取预设前序特征模型对应的训练样本集，其中，训练样本集包括若干单帧图像帧；

基于训练样本集对待训练前序特征模型进行训练，以得到预设前序特征模型。

具体地，待训练前序特征模型的模型结构与预设前序特征模型的模型结构相同，两者的区别在于待训练前序特征模型的模型参数为初始模型参数，预设前序特征模型的模型参数为基于训练样本集训练得到的模型参数。其中，训练样本集包括若干单帧图像帧，若干单帧图像帧中的各单帧图像帧均携带有标注特征图，并以标注特征图作为监督标签，对待训练前序特征模型进行训练，以得到最佳的预设前序特征模型。本实现方式采用包括单帧图像帧的训练样本集训练待训练前序特征模型，使得预设前序特征模型的训练过程利用到单帧图像帧的训练样本集的数量大以及场景丰富的特点，从而可以提高训练得到的预设前序特征模型的模型精度。

在一种实现方式中，若干单帧图像帧可以是通过单目相机采集到的单目图像，或者是，在视频帧序列中随机选取的图像帧，或者是，部分单帧图像帧是通过单目相机采集到的单目图像，部分单帧图像帧是在视频帧序列中随机选取的图像帧等。当然，当训练样本集中包括在视频帧序列中随机选取的图像帧时，训练样本集中包括各在视频帧序列中随机选取的图像帧可以是从一个视频帧序列中选取到的图像帧，也可以是，从多个视频帧序列中选取到的图像帧。

需要说明的是，当当前帧图像为视频帧序列的首帧图像帧时，将当前帧图像作为当前帧图像的上一帧图像，即若当前帧图像为视频帧序列的首帧图像帧时，则将当前帧图像输入预设前序特征模型，通过预设前序特征模型确定当前帧图像的特征图，并将当前帧图像的特征图作为当前帧图像对应的前序特征图。

S20、将前序特征图及当前帧图像输入待训练人体姿态估计模型，得到当前帧图像对应的预测特征图。

具体地，待训练人体姿态估计模型为预先构建的神经网络模型，待训练人体姿态估计模型配置有初始模型参数，对待训练人体姿态估计模型的初始模型参数进行迭代优化可得到最佳参数。

在一个实现方式中，将前序特征图以及当前帧图像输入待训练人体姿态估计模型，得到当前帧图像对应的预测特征图具体包括：

通过待训练人体姿态估计模型对当前帧图像进行特征提取，获取当前帧图像对应的训练特征图；

将训练特征图与前序特征图融合，得到当前帧图像对应的预测特征图。

具体地，前序特征图的图像尺寸与所述训练特征图的图像尺寸相同，例如，前序特征图的图像尺寸为224*224，训练特征图的图像尺寸为224*244，其中，训练特征图为待训练人体姿态估计模型对当前帧图像进行特征提取得到的。也就是说，待训练人体姿态估计模型仅对当前帧图像进行特征提取得到训练特征图，并将得到的训练特征图与前序特征图进行融合，使得前序特征图仅在前序特征图与训练特征图融合时才会参与计算，从而降低了增加前序特征图所带来的计算量，同时可以学习到上一帧图像与当前帧图像之间的时空信息，进而在不增加计算量的情况下可以提高训练得到的人体姿态估计模型的模型精确度。

在一个实现方式中，预设前序特征模型包括第一特征模块，待训练人体姿态估计模型包括第二特征模块，其中，第一特征模块的模型结构与第二特征模块的模型结构相同。也就是说，预设前序特征模型和待训练人体姿态估计模型包括相同的特征模块，以使得通过预设前序特征模型提取到的前序特征图和基于待训练人体姿态估计模型提取到的训练特征图的图像尺度相同，即前序特征图的图像尺寸与训练特征图的图像尺寸相同，前序特征图的通道数与训练特征图的通道数相同。例如，如图3所示，第一特征模块和第二特征模块均包括若干级联的残差单元、第一卷积单元和第二卷积单元，其中，第一卷积单元和第二卷积单元并行且均与若干级联的残差单元中的位于最后的残差单元相连接；第一卷积单元和第二卷积单元的模型结构相同，均包括依次级联的3*3卷积块、3*3卷积块、1*1卷积块以及1*1卷积块，卷积块包括依次级联的卷积层、归一化层以及激活层，卷积块前的n*n表示卷积块中的卷积层的卷积核为n*n卷积核，n＝1,3，归一化层采用BN层，激活层配置有relu激活函数。

在一个实现方式中，预设前序特征模型输出的特征图包括关键点位置分布图和关键点连接关系图，待训练人体姿态估计模型输出的特征图包括关键点位置分布图和关键点连接关系图，即基于预设前序特征模型确定的前序特征图包括前序关键点位置分布图以及前序关键点连接关系图，基于待训练人体姿态估计模型确定的训练特征图包括训练关键点位置分布图以及训练关键点连接关系图。基于此，上述将训练特征图与前序特征图融合，得到当前帧图像对应的预测特征图具体包括：

分别将训练关键点位置分布图与前序关键点位置分布图，以及训练关键点连接关系图与前序关键点连接关系图按通道拼接，得到拼接关键点位置分布图以及拼接关键点连接关系图；

根据拼接关键点位置分布图及拼接关键点连接关系分别确定预测关键点位置分布图及预测关键点连接关系图，得到当前帧图像对应的预测特征图。

在一种实现方式中，待训练人体姿态估计模型还包括信息融合模块，信息融合模块用于将训练关键点位置分布图与前序关键点位置分布图，以及训练关键点连接关系图与前序关键点连接关系图与按通道拼接，并基于拼接得到的关键点连接关系图以及关键点连接关系图确定预测特征图，其中，预测特征图包括预测关键点连接关系图和预测关键点连接关系图。本实施例通过信息融合模块实现了相邻图像帧的特征图融合，使得预测特征图融合了相邻图像帧所携带的特征信息，从而提高了预测特征图所携带的关键点信息的精确性。

在一个实现方式中，信息融合模块包括第一融合单元和第二融合单元，第一融合单元用于融合关键点位置分布图以及确定预测关键点位置分布图；第二融合单元用于融合关键点连接关系图以及确定预测关键点连接关系图。例如，如图3所示，第一融合单元与第一卷积单元相连接，第二融合单元与第二卷积单元相连接，第一融合单元的输入项包括第一卷积单元的输出项以及前序关键点位置分布图，第二融合单元的输入项包括第二卷积单元的输出项以及前序关键点连接关系图。其中，第一融合单元的模型结构与第二融合单元的模型结构相同，这里以第一融合单元为例加以说明。第一融合单元包括依次级联的连接层、3*3卷积块、3*3卷积块、1*1卷积块以及1*1卷积块，卷积块包括依次级联的卷积层、归一化层以及激活层，卷积块前的n*n表示卷积块中的卷积层的卷积核为n*n卷积核，n＝1,3，归一化层采用BN层，激活层配置有relu激活函数，连接层采用concat层。

S30、根据训练样本集中各当前帧图像对应的预测特征图及真值特征图对待训练人体姿态估计模型进行迭代优化，得到人体姿态估计模型。

具体地，真值特征图用于作为当前帧图像对应的真值，并基于训练样本集中各当前帧图像对应的真值特征图以及预测特征图确定损失项，基于损失项对待训练人体姿态估计模型的模型参数进行迭代优化得到最佳的人体姿态估计模型，即人体姿态估计模型，其中，真值特征图包括真值关键点位置分布图和真值关键点连接关系图。相应的，损失项包括基于真值关键点位置分布图和预测关键点位置分布图确定位置损失项，以及基于真值关键点连接关系图和预测关键点连接关系图确定的连接关系损失项，损失项为位置损失项和连接关系损失项的和。在一个典型实现方式中，位置损失项和连接关系损失项均可以为距离损失(L1Loss)，也可以是，位置损失项为距离损失(L1Loss)，连接关系损失项为交叉熵损失(CELoss)等。

需要说明的是，在待训练人体姿态估计模型的训练过程中，会检测待训练人体姿态估计模型的训练是否满足训练要求，在满足训练要求后停止对待训练人体姿态估计模型进行训练，并将训练后的待训练人体姿态估计模型作为人体姿态估计模型，其中，所述训练要求包括损失项小于预设损失阈值和训练次数阈值，满足训练要求指的是损失项小于预设损失阈值，或者训练次数达到预设次数阈值。

基于上述人体姿态估计模型的训练方法，本实施例提供了一种人体姿态估计方法，应用上述实施例所述的人体姿态估计模型的训练方法训练得到的人体姿态估计模型；如图4和图5所示，所述的方法包括：

H10、获取当前帧图像及上一帧图像的前序特征图；其中，当前帧图像述上一帧图像为相邻图像帧，前序特征图为上一帧图像输入至人体姿态估计模型得到；

H20、通过人体姿态估计模型融合当前帧图像与前序特征图，获取当前帧图像的目标特征图；

H30、根据目标特征图确定当前帧图像对应的目标人体姿态。

具体地，前序特征图为当前帧图像的上一帧图像的特征图，也就是说，前序特征图是将当前帧图像的前序图像帧作为人体姿态估计模型的输入项，通过人体姿态估计模型提取到的特征图。可以理解的是，在确定当前帧图像的上一帧图像对应的人体姿态时，会保存提取到的前序特征图，并在确定当前帧图像对应的目标人体姿态时，将前序特征图和当前帧图像输入人体姿态估计模型，以使得人体姿态估计模型可以学习到前序图像帧与当前帧图像之间的时空信息，从而可以提高后续确定的当前帧图像对应的目标人体姿态的精确度。

在一种实现方式中，当前帧图像与前序图像帧为视频帧序列中的相邻图像帧，例如，当前帧图像为视频帧训练中的第N帧视频帧，那么前序图像帧为视频帧序列中的第N-1帧视频帧。此外，为了使得人体姿态估计模型适用于视频帧序列中的每个图像帧，在当前帧图像为视频帧序列中的首帧图像帧时，将当前帧图像作为其自身的前序图像帧，也就是说，当当前帧图像为视频帧序列中的首帧图像帧时，当前帧图像输入人体姿态估计模型，通过人体姿态估计模型确定当前帧图像对应的候选特征图，然后复制候选特征图，并将复制得到的候选特征图与候选特征图融合，以得到当前帧图像对应的目标特征图。

在一种实现方式中，目标特征图包括目标关键点位置分布图以及目标关键点连接关系图，在获取到目标特征图后，基于目标关键点位置分布图提取当前帧图像中的各关键点位置，然后基于目标关键点连接关系图确定各关键点位置之间的连接关系，以得到当前帧图像中的各目标人体的关键点位置以及连接关系，从而确定目标人体的人体姿态。

本申请实施例还提供一种人体姿态估计模型的训练装置。该装置中未详细描述之处请详见前述人体姿态估计模型的训练方法实施例中的相关描述。

参见图6，图6是本申请一实施例提供的一种人体姿态估计模型的训练装置的示意框图。该装置包括：第一获取模块61、第二获取模块62及训练模块63。

其中，第一获取模块61，获取训练样本集中的当前帧图像、当前帧图像对应的真值特征图及上一帧图像的前序特征图，其中上一帧图像与当前帧图像为相邻图像帧；其中，前序特征图基于预设前序特征模型得到，预设前序特征模型是基于单帧图像所构建的模型；

第二获取模块62，将前序特征图及当前帧图像输入待训练人体姿态估计模型，得到当前帧图像对应的预测特征图；

训练模块63，根据训练样本集中各当前帧图像对应的预测特征图及真值特征图对待训练人体姿态估计模型进行迭代优化，得到人体姿态估计模型；其中，人体姿态估计模型是基于相邻图像帧训练得到的模型。

本申请实施例还提供一种人体姿态估计装置，该装置中未详细描述之处请详见前述人体姿态估计方法实施例中的相关描述。

参见图7，图7是本申请一实施例提供的一种人体姿态估计装置的示意框图。该装置包括：第三获取模块71、第四获取模块72及估计模块73。

第三获取模块71，获取当前帧图像及上一帧图像的前序特征图；其中，当前帧图像与上一帧图像为相邻图像帧，前序特征图为上一帧图像输入至人体姿态估计模型得到；

第四获取模块72，通过人体姿态估计模型融合当前帧图像与前序特征图，获取当前帧图像的目标特征图；

估计模块73，根据目标特征图确定当前帧图像对应的目标人体姿态。

本申请实施例还提供了一种电子设备，如图8所示，电子设备可以包括一个或多个处理器800(图8中仅示出一个)，存储器810以及存储在存储器810中并可在一个或多个处理器800上运行的计算机程序820，例如，人体姿态估计模型的训练方法和/或人体姿态估计方法的程序。一个或多个处理器800执行计算机程序820时可以实现人体姿态估计模型的训练方法和/或人体姿态估计方法实施例中的各个步骤。或者，一个或多个处理器800执行计算机程序820时可以实现人体姿态估计模型的训练装置和/或人体姿态估计装置实施例中各模块/单元的功能，此处不作限制。

示例性的，计算机程序820可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器810中，并由处理器800执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序820在处理单元中的执行过程。

例如，计算机程序820可以被分割成如下几个模块。各模块具体功能如下：

第一获取模块，获取训练样本集中的当前帧图像、当前帧图像对应的真值特征图及上一帧图像的前序特征图，其中上一帧图像与当前帧图像为相邻图像帧；其中，前序特征图基于预设前序特征模型得到，预设前序特征模型是基于单帧图像所构建的模型；

第二获取模块，将前序特征图及当前帧图像输入待训练人体姿态估计模型，得到当前帧图像对应的预测特征图；

训练模块，根据训练样本集中各当前帧图像对应的预测特征图及真值特征图对待训练人体姿态估计模型进行迭代优化，得到人体姿态估计模型；其中，人体姿态估计模型是基于相邻图像帧训练得到的模型。

又如，计算机程序820可以被分割成如下几个模块。各模块具体功能如下：

第三获取模块，获取当前帧图像及上一帧图像的前序特征图；其中，当前帧图像与上一帧图像为相邻图像帧，前序特征图为上一帧图像输入至人体姿态估计模型得到；

第四获取模块，通过人体姿态估计模型融合当前帧图像与前序特征图，获取当前帧图像的目标特征图；

估计模块，根据目标特征图确定当前帧图像对应的目标人体姿态。

本领域技术人员可以理解，图8仅仅是电子设备的示例，并不构成对电子设备的限定。电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备还可以包括输入输出设备、网络接入设备、总线等。

在一个实施例中，所称处理器800可以是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在一个实施例中，存储器810可以是电子设备的内部存储单元，例如电子设备的硬盘或内存。存储器810也可以是电子设备的外部存储设备，例如电子设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，存储器810还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器810用于存储计算机程序以及电子设备所需的其他程序和数据。存储器810还可以用于暂时地存储已经输出或者将要输出的数据。

本申请一实施例还提供了电子设备的另一种优选的实施例，在本实施例中，电子设备包括一个或多个处理器。一个或多个处理器用于执行存储在存储器的以下程序模块：

第一获取模块，用于获取获取训练样本集中的当前帧图像、当前帧图像对应的真值特征图及上一帧图像的前序特征图，其中上一帧图像与当前帧图像为相邻图像帧。

第二获取模块，用于将将前序特征图及当前帧图像输入待训练人体姿态估计模型，得到当前帧图像对应的预测特征图。

训练模块，用于根据训练样本集中各当前帧图像对应的预测特征图及真值特征图对待训练人体姿态估计模型进行迭代优化，得到人体姿态估计模型。

和/或，

第三获取模块，获取当前帧图像及其对应的前序特征图；

第四获取模块，将当前帧图像与所述第二前序特征图输输入人体姿态估计模型，获取当前帧图像的目标特征图；

估计模块，根据目标特征图确定当前帧图像对应的目标人体姿态。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请一实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时可实现获取姿态数据的方法和/或神经网络构建方法实施例中的各个步骤。

本申请一实施例还提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备可实现获取姿态数据的方法和/或神经网络构建方法实施例中的各个步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈振鹏;钱贝贝;陈宇;
专利申请人：奥比中光科技集团股份有限公司;

上一篇：一种高速熔覆系统
下一篇：一种根据拍照场景生成推荐拍照姿势的方法及系统