导航：首页> 电通信技术>一种基于三维信息的人体姿态迁移方法、装置、存储介质及终端

一种基于三维信息的人体姿态迁移方法、装置、存储介质及终端

文献发布时间：2023-06-19 10:32:14

技术领域

本发明涉及图像处理领域，特别涉及一种基于三维信息的人体姿态迁移方法、装置、存储介质及终端。

背景技术

姿态迁移技术是指将目标人体图像中的主体人物的动作姿态转移到待迁移人体图像集中的人体上（源主体人物）。具体是指在保持待迁移人体图像集中的人体外观（例如：脸部，身材，衣服）不变的基础上，驱动待迁移人体图像集中的人体的动作与目标图像中的主体人物的动作保持一致。

在现有的姿态迁移方案中，通常分为3种，分别是基于单张人体照片的姿态迁移、基于人体视频的姿态迁移、基于人体18个关键点的姿态迁移。在基于单张人体照片的姿态迁移和基于人体视频的姿态迁移方案中，由于目标人体图像中的主体人物与待迁移人体图像集中的人体身材比例尺度和姿态角度不一致，从而导致在具有衣服纹理的场景和姿态变换尺度大的场景中迁移效果差。另外，在基于人体18个关键点的姿态迁移中，由于人体结构较为复杂，从而导致输出的姿态迁移图像中的人体出现人体部件缺失或图像失真问题，从而降低了姿态迁移图像的鲁棒性。

发明内容

本申请实施例提供了一种基于三维信息的人体姿态迁移方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键／重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种基于三维信息的人体姿态迁移方法，该方法包括：

获取待迁移人体图像集和目标人体图像；

针对待迁移人体图像集和目标人体图像进行密集姿态估计，生成待迁移人体三维模型和目标人体三维模型；

将待迁移人体图像集和待迁移人体三维模型进行掩码处理，生成掩码后的待迁移人体图像集和掩码后的待迁移人体三维模型；

将掩码后的待迁移人体图像集、掩码后的待迁移人体三维模型、目标人体三维模型输入预先创建的人体姿态迁移网络中，输出待迁移人体图像集对应的姿态迁移图像；

其中，姿态迁移图像中的人体包括身份特征与姿态特征，身份特征为待迁移人体图像集中人体的身份特征，姿态特征为目标人体图像中人体的姿态特征。

可选的，针对待迁移人体图像集和目标人体图像进行密集姿态估计，生成待迁移人体三维模型和目标人体三维模型，包括：

分割出待迁移人体图像集中的待迁移人体区域；

分割出目标人体图像中的目标人体区域；

采用密集姿态估计算法创建三维模型；

根据创建的三维模型与待迁移人体区域生成待迁移人体三维模型；

根据创建的三维模型与目标人体区域生成目标人体三维模型。

可选的，根据创建的三维模型与待迁移人体区域生成待迁移人体三维模型，包括：

提取待迁移人体区域上所有描述人体的像素；

将待迁移人体区域上所有描述人体的像素映射至创建的三维模型上，生成待迁移人体三维模型。

可选的，根据创建的三维模型与目标人体区域生成目标人体三维模型，包括：

提取目标人体区域上所有描述人体的像素；

将目标人体区域上所有描述人体的像素映射至创建的三维模型上，生成目标人体三维模型。

可选的，预先创建的人体姿态迁移网络包括第一编码器、第二编码器、自适应调制模块、生成器；

将掩码后的待迁移人体图像集、掩码后的待迁移人体三维模型、目标人体三维模型输入预先创建的人体姿态迁移网络中，输出待迁移人体图像集对应的姿态迁移图像，包括：

将所述掩码后的待迁移人体图像集与掩码后的待迁移人体三维模型通道拼接后输入所述第一编码器中进行特征提取，输出待迁移人体的身份特征向量；

将身份特征向量输入自适应调制模块中进行特征计算，输出目标混合特征；

将目标人体三维模型输入第二编码器中进行特征提取，输出目标人体的姿态特征向量；

将目标混合特征与目标人体的姿态特征向量输入生成器中进行姿态迁移，输出待迁移人体图像集对应的姿态迁移图像。

可选的，目标混合特征的计算公式为：

其中，

可选的，第一编码器与第二编码器提取特征时采用卷积网络ResNet-50进行处理。

第二方面，本申请实施例提供了一种基于三维信息的人体姿态迁移装置，该装置包括：

图像获取模块，用于获取待迁移人体图像集和目标人体图像；

模型生成模块，用于针对迁移人体图像和目标人体图像进行密集姿态估计，生成待迁移人体三维模型和目标人体三维模型；

掩码处理模块，用于将待迁移人体图像集和待迁移人体三维模型进行掩码处理，生成掩码后的待迁移人体图像集和掩码后的待迁移人体三维模型；

姿态迁移图像输出模块，用于将掩码后的待迁移人体图像集、掩码后的待迁移人体三维模型、目标人体三维模型输入预先创建的人体姿态迁移网络中，输出待迁移人体图像集对应的姿态迁移图像；

第三方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，可包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，首先获取待迁移人体图像集和目标人体图像，然后针对待迁移人体图像集和目标人体图像进行密集姿态估计，生成待迁移人体三维模型和目标人体三维模型，其次将待迁移人体图像集和待迁移人体三维模型进行掩码处理，生成掩码后的待迁移人体图像集和掩码后的待迁移人体三维模型，最后将掩码后的待迁移人体图像集、掩码后的待迁移人体三维模型、目标人体三维模型输入预先创建的人体姿态迁移网络中，输出待迁移人体图像集对应的姿态迁移图像。由于本申请通过对待迁移人体图像集和目标人体图像进行密集姿态估计后生成待迁移人体三维模型和目标人体三维模型，并基于三维模型的三维信息进行人体姿态迁移，从而可以减少姿态迁移图像中人体部件缺失或图像失真的频率与程度，进一步提升了姿态迁移图像的鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种基于三维信息的人体姿态迁移方法的流程示意图；

图2是本申请实施例提供的一种基于三维信息的人体姿态迁移方法的结构图；

图3是本申请实施例提供的一种基于三维信息的人体姿态迁移过程的过程示意框图；

图4是本申请实施例提供的另一种基于三维信息的人体姿态迁移方法的结构图；

图5是本申请实施例提供的一种基于三维信息的人体姿态迁移装置的装置示意图；

图6是本申请实施例提供的一种终端的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供的技术方案中，由于本申请通过对待迁移人体图像集和目标人体图像进行密集姿态估计后生成待迁移人体三维模型和目标人体三维模型，并基于三维模型的三维信息进行人体姿态迁移，从而可以减少姿态迁移图像中人体部件缺失或图像失真的频率与程度，进一步提升了姿态迁移图像的鲁棒性，下面采用示例性的实施例进行详细说明。

下面将结合附图1-附图4，对本申请实施例提供的基于三维信息的人体姿态迁移方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的基于三维信息的人体姿态迁移装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。其中，本申请实施例中的基于三维信息的人体姿态迁移装置可以为用户终端，包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理（personal digital assistant，PDA）、5G网络或未来演进网络中的终端设备等。

请参见图1，为本申请实施例提供了一种基于三维信息的人体姿态迁移方法的流程示意图。如图1所示，本申请实施例的方法可以包括以下步骤：

S101，获取待迁移人体图像集和目标人体图像；

其中，待迁移人体图像集为源图像集，可以记为I_s，I_s通常情况下是两张人体照片，例如一个人的正面全身照和背面全身照。目标人体图像为另一个人的人体姿态图像，可以记为I_t，I_t是单张图像，通常情况下是一张人体照片，例如一个人的正面全身照或者背面全身照。

通常，在进行姿态迁移时，需要将目标人体图像I_t的主体人物的动作姿态转移到待迁移人体图像集I_s中的人体上。

在一种可能的实现方式中，在进行人体姿态迁移时，用户通过控制用户终端确定出待迁移人体图像集，再确定出目标人体图像，然后通过点击类似确定姿态迁移的按键后生成姿态迁移指令，当用户终端接收到姿态迁移指令后，获取用户最终确定出的待迁移人体图像集和目标人体图像。

S102，针对待迁移人体图像集和目标人体图像进行密集姿态估计，生成待迁移人体三维模型和目标人体三维模型；

其中，密集姿态估计(dense pose estimation，Densepose) 是将单张 2D 图片中所有描述人体的像素映射到一个 3D 的人体表面模型的过程，使得模型具有人体的3D特征（姿态，胖瘦，身材比例等）。

在一种可能的实现方式中，在针对步骤S101获取的待迁移人体图像集和目标人体图像分别进行密集姿态估计时，首先分割出待迁移人体图像集中图像的待迁移人体区域（即待迁移人体图像集中图像的前景），再分割出目标人体图像中的目标人体区域（即目标人体图像的前景），然后采用密集姿态估计算法创建三维模型，其次根据创建的三维模型与待迁移人体区域生成待迁移人体三维模型，最后根据创建的三维模型与目标人体区域生成目标人体三维模型。

通常，为了排除图像中的各种复杂的背景区域对姿态迁移任务的影响，从而将图像的前景和背景进行分割。

进一步地，在分割出待迁移人体图像集中图像的待迁移人体区域或分割出目标人体图像中的目标人体区域时，首先采用预设的人体分割算法对获取的待迁移图像集中图像进行前景区域与背景区域分割后得到前景区域和背景区域两个部分。本申请可以采用传统基于分水岭法的分割方法也可以采用深度学习的分割方法，本申请实施例对此不作具体限定。

进一步地，在根据创建的三维模型与待迁移人体区域生成待迁移人体三维模型时，首先提取待迁移人体区域上所有描述人体的像素，最后将待迁移人体区域上所有描述人体的像素映射至创建的三维模型上，生成待迁移人体三维模型。

进一步地，在根据创建的三维模型与目标人体区域生成目标人体三维模型时，首先提取目标人体区域上所有描述人体的像素，最后将目标人体区域上所有描述人体的像素映射至创建的三维模型上，生成目标人体三维模型。

S103，将待迁移人体图像集和待迁移人体三维模型进行掩码处理，生成掩码后的待迁移人体图像集和掩码后的待迁移人体三维模型；

其中，掩码又称为掩膜，记为mask，掩码处理一般用来对处理的图像(全部或者局部)进行遮挡，来控制图像处理的区域或处理过程。

通常，掩码的值分为两种，分别是0和非0。

在一种可能的实现方式中，为了更好的提取源图像I_s主体人物的身份特征，需要将待迁移图像集（源图像集）中图像和待迁移人体三维模型分别与各自对应的掩码值进行相乘，生成掩码后的待迁移人体图像集和掩码后的待迁移人体三维模型。

S104，将掩码后的待迁移人体图像集、掩码后的待迁移人体三维模型、目标人体三维模型输入预先创建的人体姿态迁移网络中，输出待迁移人体图像集对应的姿态迁移图像；

通常，预先创建的人体姿态迁移网络核心组件包括第一编码器E、第二编码器E、自适应调制模块A、生成器G。

在一种可能的实现方式中，在输入到预先创建的人体姿态迁移网络中进行姿态迁移时，首先将所述掩码后的待迁移人体图像集与掩码后的待迁移人体三维模型通道拼接后输入所述第一编码器中进行特征提取，输出待迁移人体的身份特征向量，再将身份特征向量输入自适应调制模块中进行特征计算，输出目标混合特征，然后将目标人体三维模型输入第二编码器中进行特征提取，输出目标人体的姿态特征向量，最后将目标混合特征与目标人体的姿态特征向量输入生成器中进行姿态迁移，输出待迁移人体图像集对应的姿态迁移图像。

进一步地，目标混合特征的计算公式为：

其中，

进一步地，第一编码器与第二编码器提取特征时采用卷积网络ResNet-50进行处理。

例如图2所示，图2是本申请实施例提供的一种基于三维信息的人体姿态迁移方法的结构图，用户终端首先获取到源图像集I_s与目标图像I_t，首先将源图像集I_s与目标图像I_t分别进行姿态估计后生成I_s对应的人体三维模型与目标人体三维模型，然后将源图像集I_s与I_s对应的人体三维模型分别和各自对应的掩码值进行相乘后生成掩码后的图像集与掩码后的I_s对应的人体三维模型，再将掩码后的图像集与掩码后的I_s对应的人体三维模型输入第一编码器E中进行通道拼接，生成I_s对应的人体身份特征向量，再将目标人体三维模型输入第二编码器E中进行特征提取，输出目标人体的姿态特征向量，其次将I_s对应的人体身份特征向量输入自适应调制模块中进行特征计算后输出混合特征，最后将混合特征与姿态特征输入生成器G中进行姿态迁移后输出迁移后的图像。

例如图3所示，图3是本申请提供的一种于三维信息的人体姿态迁移过程的过程示意图，首先对输入源图像分割前景（人体），再对目标图像分割前景（人体），然后针对源图像与目标图像中的前景进行密集姿态估计，最后通过深度学习的生成对抗网络实现人体姿态迁移。

请参见图4，为本申请实施例提供了一种预先训练的基于三维信息的人体姿态迁移模型训练方法的流程示意图。如图4所示，本申请实施例的方法可以包括以下步骤：

S201，获取待迁移人体图像集和目标人体图像；

S202，分割出待迁移人体图像集中的待迁移人体区域；

S203，分割出目标人体图像中的目标人体区域；

S204，采用密集姿态估计算法创建三维模型；

S205，提取待迁移人体区域上所有描述人体的像素；

S206，将待迁移人体区域上所有描述人体的像素映射至创建的三维模型上，生成待迁移人体三维模型；

S207，提取目标人体区域上所有描述人体的像素；

S208，将目标人体区域上所有描述人体的像素映射至创建的三维模型上，生成目标人体三维模型；

S209，将待迁移人体图像集和待迁移人体三维模型进行掩码处理，生成掩码后的待迁移人体图像集和掩码后的待迁移人体三维模型；

S210，将所述掩码后的待迁移人体图像集与掩码后的待迁移人体三维模型通道拼接后输入所述第一编码器中进行特征提取，输出待迁移人体的身份特征向量；

S211,将身份特征向量输入自适应调制模块中进行特征计算，输出目标混合特征；

S212，将目标人体三维模型输入第二编码器中进行特征提取，输出目标人体的姿态特征向量；

S213，将目标混合特征与目标人体的姿态特征向量输入生成器中进行姿态迁移，输出待迁移人体图像集对应的姿态迁移图像。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图5，其示出了本发明一个示例性实施例提供的基于三维信息的人体姿态迁移装置的结构示意图。该基于三维信息的人体姿态迁移装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括图像获取模块10、模型生成模块20、掩码处理模块30、姿态迁移图像输出模块40。

图像获取模块10，用于获取待迁移人体图像集和目标人体图像；

模型生成模块20，用于针对迁移人体图像和目标人体图像进行密集姿态估计，生成待迁移人体三维模型和目标人体三维模型；

掩码处理模块30，用于将待迁移人体图像集和待迁移人体三维模型进行掩码处理，生成掩码后的待迁移人体图像集和掩码后的待迁移人体三维模型；

姿态迁移图像输出模块40，用于将掩码后的待迁移人体图像集、掩码后的待迁移人体三维模型、目标人体三维模型输入预先创建的人体姿态迁移网络中，输出待迁移人体图像集对应的姿态迁移图像；

需要说明的是，上述实施例提供的基于三维信息的人体姿态迁移装置在执行基于三维信息的人体姿态迁移方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于三维信息的人体姿态迁移装置与基于三维信息的人体姿态迁移方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的基于三维信息的人体姿态迁移方法。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例的基于三维信息的人体姿态迁移方法。

请参见图6，为本申请实施例提供了一种终端的结构示意图。如图6所示，终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏（Display）、摄像头（Camera），可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器1001可集成中央处理器（Central Processing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。可选的，该存储器1005包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于三维信息的人体姿态迁移应用程序。

在图6所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的基于三维信息的人体姿态迁移应用程序，并具体执行以下操作：

获取待迁移人体图像集和目标人体图像；

针对待迁移人体图像集和目标人体图像进行密集姿态估计，生成待迁移人体三维模型和目标人体三维模型；

将待迁移人体图像集和待迁移人体三维模型进行掩码处理，生成掩码后的待迁移人体图像集和掩码后的待迁移人体三维模型；

在一个实施例中，处理器1001在执行针对待迁移人体图像集和目标人体图像进行密集姿态估计，生成待迁移人体三维模型和目标人体三维模型时，具体执行以下操作：

分割出待迁移人体图像集中的待迁移人体区域；

分割出目标人体图像中的目标人体区域；

采用密集姿态估计算法创建三维模型；

根据创建的三维模型与待迁移人体区域生成待迁移人体三维模型；

根据创建的三维模型与目标人体区域生成目标人体三维模型。

在一个实施例中，处理器1001在执行根据创建的三维模型与待迁移人体区域生成待迁移人体三维模型时，具体执行以下操作：

提取待迁移人体区域上所有描述人体的像素；

将待迁移人体区域上所有描述人体的像素映射至创建的三维模型上，生成待迁移人体三维模型。

在一个实施例中，处理器1001在执行根据创建的三维模型与目标人体区域生成目标人体三维模型时，具体执行以下操作：

提取目标人体区域上所有描述人体的像素；

将目标人体区域上所有描述人体的像素映射至创建的三维模型上，生成目标人体三维模型。

在一个实施例中，处理器1001在执行将掩码后的待迁移人体图像集、掩码后的待迁移人体三维模型、目标人体三维模型输入预先创建的人体姿态迁移网络中，输出待迁移人体图像集对应的姿态迁移图像时，具体执行以下操作：

将所述掩码后的待迁移人体图像集与掩码后的待迁移人体三维模型通道拼接后输入所述第一编码器中进行特征提取，输出待迁移人体的身份特征向量；

将身份特征向量输入自适应调制模块中进行特征计算，输出目标混合特征；

将目标人体三维模型输入第二编码器中进行特征提取，输出目标人体的姿态特征向量；

将目标混合特征与目标人体的姿态特征向量输入生成器中进行姿态迁移，输出待迁移人体图像集对应的姿态迁移图像。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，基于三维信息的人体姿态迁移的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：程斌;徐善;袁东东;张世豪;李萌;
专利申请人：北京智源人工智能研究院;