导航：首页> 一般的物理或化学的方法或装置>一种形象合成方法、装置、设备及存储介质

一种形象合成方法、装置、设备及存储介质

文献发布时间：2023-06-19 10:55:46

技术领域

本公开实施例涉及图像处理技术领域，尤其涉及一种形象合成方法、装置、设备及存储介质。

背景技术

网络直播，可让主播利用视频方式在网络上演播、与观众对话、演唱歌曲等，并将上述内容实时发布。然而，目前主播直播的方式，大部分都以真人进行主播，而真人产出短视频或直播内容的数量具有一定的限制。如何低成本的产出高质量的短视频或直播内容，是当前的研究热点。

目前常用的是利用虚拟主播进行网络直播，但需要构建虚拟主播对应的三维模型以及动画驱动，过程复杂，而且准确性低。

公开内容

本公开实施例提供一种形象合成方法、装置、设备及存储介质，可以简化形象合成的过程，提高形象合成结果的准确性。

第一方面，本公开实施例提供了一种形象合成方法，包括：

获取形象驱动参数和包含形象关键点检测结果的形象图片样本；

将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片；

其中，所述预先训练的形象合成网络包括仿射变换模块、运动估计模块和对抗生成模块；所述仿射变换模块用于根据所述形象驱动参数调整所述形象图片样本中形象关键点的位置，得到第一形象图片；所述运动估计模块用于根据所述形象关键点的位置变化调整所述第一形象图片中除所述形象关键点之外的其他像素点的位置，得到第二形象图片，所述形象关键点的位置变化为所述第一形象图片中形象关键点的位置相对于所述形象图片样本中形象关键点的位置的变化；所述对抗生成模块用于修正所述第二形象图片，得到目标图片。

第二方面，本公开实施例还提供了一种形象合成装置，包括：

获取模块，用于获取形象驱动参数和包含形象关键点检测结果的形象图片样本；

形象合成模块，用于将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片；

第三方面，本公开实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时实现如第一方面所述的形象合成方法。

第四方面，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的形象合成方法。

本公开实施例提供一种形象合成方法、装置、设备及存储介质，通过获取形象驱动参数和包含形象关键点检测结果的形象图片样本；将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片；其中，所述预先训练的形象合成网络包括仿射变换模块、运动估计模块和对抗生成模块；所述仿射变换模块用于根据所述形象驱动参数调整所述形象图片样本中形象关键点的位置，得到第一形象图片；所述运动估计模块用于根据所述形象关键点的位置变化调整所述第一形象图片中除所述形象关键点之外的其他像素点的位置，得到第二形象图片，所述形象关键点的位置变化为所述第一形象图片中形象关键点的位置相对于所述形象图片样本中形象关键点的位置的变化；所述对抗生成模块用于修正所述第二形象图片，得到目标图片。上述方案无需构建形象图片样本中形象的三维模型，简化了形象合成操作，而且在进行形象合成时首先基于形象驱动参数调整形象关键点的位置，然后基于形象关键点的位置变化调整其他的像素点，在此基础上对得到的形象进行修正，提高了形象合成结果的准确性。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例一提供的一种形象合成方法的流程图；

图2为本公开实施例二提供的一种形象合成方法的流程图；

图3为本公开实施例二提供的一种表情参数和头部姿态参数的确定过程示意图；

图4为本公开实施例二提供的一种特殊表情模板的示意图；

图5为本公开实施例三提供的一种形象合成方法的流程图；

图6为本公开实施例三提供的一种不同模式下形象关键点的位置变化示意图的；

图7为本公开实施例四提供的一种形象合成装置的结构图；

图8为本公开实施例五提供的一种电子设备的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的对象进行区分，并非用于限定这些对象进所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

实施例一

图1为本公开实施例一提供的一种形象合成方法的流程图，本实施例可适用于合成形象的情况，以根据合成的形象进行网络直播或生成视频等。该方法可以由形象合成装置来执行，该装置可以采用软件和/或硬件的方式实现，并可配置在具备数据处理功能的电子设备中。如图1所示，该方法可以包括如下步骤：

S110、获取形象驱动参数和包含形象关键点检测结果的形象图片样本。

形象驱动参数用于驱动当前选定的形象，使当前选定的形象生成形象驱动参数对应的表情和头部姿态。本实施例中当前选定的形象可以是形象图片样本中的形象，该形象可以是真实形象，也可以是虚拟形象，真实形象可以是现实中存在的形象，虚拟形象可以是现实中不存在的形象，例如可以是应用在电视剧、漫画、游戏等作品中的卡通形象或动漫形象等。可选的，可以从本地图片库中获取包含形象的图片作为形象图片样本，也可以通过网页在线获取包含形象的图片作为形象图片样本，还可以从视频中截取包含某个形象的图像帧作为形象图片样本，还可以由摄像头拍摄所得。形象图片样本中可以包括一个形象，也可以包含多个形象，当包含多个形象时，可以根据需求从中选取一个形象作为本方案待驱动的形象。

形象驱动参数可以包括表情参数和头部姿态参数。表情参数用于驱动形象图片样本中的形象，使其显示与表情参数对应的表情，例如表情参数对应的表情为高兴，则可以驱动形象图片样本中的形象显示高兴的表情。可选的，表情参数可以包括表情所对应关键点的位置信息，例如可以包括眉毛、眼睛、鼻子、嘴巴等关键点的位置信息。头部姿态参数用于驱动形象图片样本中形象的头部姿态，使其与头部姿态参数对应的头部姿态一致，例如头部姿态参数对应的头部姿态为低头，则可以驱动形象图片样本中形象的头部呈现低头的姿态。可选的，头部姿态参数可以包括头部的旋转角度参数，例如可以包括头部的俯仰角度pitch、偏航角度yaw以及翻滚角度roll等参数。实施例对形象驱动参数的获取方式不进行限定，例如可以通过文本或语音信号获取，也可以通过视频获取，还可以通过表情模板获取。利用形象驱动参数驱动形象图片样本中的形象，可以使形象图片样本中的形象生成各种各样的表情和头部姿态，有效解决了真人无法模仿某种表情或头部姿态的问题，尤其是在利用合成形象进行网络直播时，可以向用户展示丰富的表情和头部姿态，提升用户的体验感。

形象关键点检测也称为形象关键点定位或者形象对齐，是指定位出形象面部关键区域的位置，关键区域可以包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。实施例对形象关键点检测的具体方式不进行限定，例如可以采用基于深度学习的方法或基于级联形状回归(Cascaded Pose Regression，CPR)的方法等进行形象关键点检测。本实施例对形象图片样本中的形象进行关键点检测，在后续进行形象合成时，可以提高形象合成结果的准确性，使合成的形象更加真实。

S120、将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片。

形象合成网络用于基于形象驱动参数驱动形象图片样本中的形象，输出包含形象合成结果的图片，实施例将该包含形象合成结果的图片称为目标图片，整个过程无需针对形象图片样本中的形象构建三维模型，简化了形象合成的过程。形象合成网络的结构可以根据实际情况设定，为了提高合成结果的准确度，本实施例设置的形象合成网络包括仿射变换模块、运动估计模块和对抗生成模块。仿射变换模块用于根据形象驱动参数调整形象图片样本中形象的头部姿态和形象关键点的位置，从而可以确定形象关键点的位置变化，即调整后形象关键点的位置相对于调整前形象关键点的位置的变化，调整后形象关键点的位置为第一形象图片中形象关键点的位置，调整前形象关键点的位置为形象图片样本中形象关键点的位置。运动估计模块用于根据形象关键点的位置变化，对应的调整第一形象图片中其他像素点的位置，得到粗略的表情合成结果，即实施例所述的第二形象图片。对抗生成模块用于修正运动估计模块输出的第二形象图片，得到准确度更高的形象合成结果。本实施例在合成形象时先利用仿射变换模块对形象图片样本中的形象关键点进行仿射变换，得到形象关键点的位置变化，然后利用运动估计模块对形象的其他像素点进行同样的变换，得到粗略的结果，再通过对抗生成模块对粗略的结果进行修正，提高了形象合成结果的准确度，使得合成后的形象更加真实，尤其是在利用合成的形象进行网络直播或生成视频时，可以提升用户的体验感。

在一个示例中，对抗生成模块可以包括生成器和判别器，生成器用于根据稠密运动估计模块输出的第二形象图片中的形象生成一张新的形象，得到第三形象图片，判别器用于对第二形象图片和第三形象图片中的形象进行真假判断，即确定两张图片中的形象哪一个是原始形象，哪一个是生成器生成的形象。应用之前可以对形象合成网络进行训练，当判别器无法确定生成器生成的形象是否为真实时，训练过程结束。由此可以将形象驱动参数和形象图片样本输入训练好的形象合成网络，由训练好的形象合成网络输出包含形象合成结果的图片。后续可以利用合成的形象代替真实形象进行网络直播或批量生成视频等，从而有效解决利用真实形象生成视频或网络直播时，生成的短视频数量和直播内容数量具有一定限制的问题。实施例对视频的类型不进行限定，例如可以是教育类的短视频、搞笑类的短视频或才艺类的短视频等。

本公开实施例一提供一种形象合成方法，通过获取形象驱动参数和包含形象关键点检测结果的形象图片样本；将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片；其中，所述预先训练的形象合成网络包括仿射变换模块、运动估计模块和对抗生成模块；所述仿射变换模块用于根据所述形象驱动参数调整所述形象图片样本中形象关键点的位置，得到第一形象图片；所述运动估计模块用于根据所述形象关键点的位置变化调整所述第一形象图片中除所述形象关键点之外的其他像素点的位置，得到第二形象图片，所述形象关键点的位置变化为所述第一形象图片中形象关键点的位置相对于所述形象图片样本中形象关键点的位置的变化；所述对抗生成模块用于修正所述第二形象图片，得到目标图片。上述方案无需构建形象图片样本中形象的三维模型，简化了形象合成操作，而且在进行形象合成时首先基于形象驱动参数调整形象关键点的位置，然后基于形象关键点的位置变化调整其他的像素点，在此基础上对得到的形象进行修正，提高了形象合成结果的准确性。

实施例二

图2为本公开实施例二提供的一种形象合成方法的流程图，本实施例以通过文本的方式获取形象驱动参数为例，对形象合成的过程进行描述，参考图2，该方法可以包括如下步骤：

S210、获取用于供虚拟主播表演的给定文本，并将所述给定文本转换成音频信号。

其中，所述虚拟主播的形象为所述形象图片样本中的形象。可选的，可以从网络或本地中获取给定文本，也可以从剧本中选取部分作为给定文本。实施例不限定给定文本的语言类型，例如可以是中文、英文或同时包含中文和英文等。考虑到文本缺乏表达信息，无法准确的表达人物的表情和姿态，实施例将给定文本转换成音频信号，基于音频信号生成形象驱动参数。可选的，可以采用TTS(Text to Speech，从文本到语音)模块将给定文本转换成音频信号，具体的，可以将给定文本转换成时间对齐的特征，例如梅尔谱或基频等，然后利用wavenet、waveglow或transformer等方法将时间对齐的特征转换成音频信号。

S220、根据所述音频信号的语音特征生成各时间点对应的第一表情参数和头部姿态参数。

本实施例的给定文本以中文文本、英文文本或者同时包含中文和英文的文本为例，相应的，音频信号为中文音频信号、英文音频信号或同时包含中文和英文的音频信号。语音特征的准确性直接影响后续形象驱动参数的准确性，进而影响形象合成结果的准确性。可选的，可以采用端到端的语音识别网络确定音频信号的语音特征，端到端的语音识别网络可以包括但不限于DeepSpeech网络。以通过DeepsSeech网络提取音频信号的语音特征为例，通过DeepSpeech网络输出的语音特征的维度为FT*W*D，其中，F为音频信号的帧率，例如可以为30fps，当然也可以是其他的帧率，T为音频信号的采样时长，W为音频信号对应的时域窗口的大小，D为音频信号对应的字典，例如当音频信号包含英文时，对应的字典可以包括26个英文字母和3个标记符，标记符可以包括静音、停顿和短停，当音频信号包含中文时，对应的字典可以包括62个的音素、5个声调符号和3个标记符，其中62个音素可以包括23个声母和39个韵母，5个声调符号可以包括阴平、阳平、上声、去声和平声。

在一个示例中，参考图3，可以将音频信号输入语音识别网络DeepSpeech，得到维度为FT*W*D的语音特征，并将该语音特征输入预先训练的参数生成网络，由预先训练的参数生成网络输出各时间点对应的表情参数和头部姿态参数。参数生成网络的结构可以根据实际情况设置，图3所示的参数生成网络以包括卷积模块和反卷积模块为例，考虑到语音特征为时间相关的特征，卷积模块可以包括时间卷积层和全连接层，其中，时间卷积层用于对输入的语音特征进行时间卷积，得到第一特征；全连接层用于根据第一特征确定各时间点对应的第一表情参数和头部姿态参数。例如当输入单个个体的语音特征时，输入时间卷积层的语音特征的维度为FT*W*D，则时间卷积层输出的第一特征的维度为W*D，消除了时间因素的影响。实施例对时间卷积层和全连接层的具体执行过程不进行限定。反卷积模块与卷积模块对应，由此可以得到各时间点对应的表情参数和头部姿态参数。考虑到参数生成网络输出的表情参数为有限个关键点的位置信息，头部姿态参数仅为头部的偏转角度，为了获取其他点的位置信息以及更直观的获取各时间点对应的表情和头部姿态，图3利用该表情参数和头部姿态参数驱动中性形象，使中性形象显示该表情参数对应的表情以及头部姿态参数对应的头部姿态，可选的，可以将驱动后的中性形象称为driving mesh，为后续形象的合成提供依据。中性形象可以是中性表情、头部未偏转的形象模型。相应的，可以将driving mesh的各顶点相对于中性形象各顶点的偏移量/运动量记为第一表情参数。

S230、对于所述各时间点中的每个时间点，当前时间点是否存在对应的表情脚本信息，若是，执行S240，否则执行S250。

可以理解的是，音频信号不一定能准确的反映该时间点的表情，此时可以通过添加表情脚本信息的方式弥补音频信号未囊括的表情，例如当某时间点存在表情脚本信息时，认为该时间点存在特殊表情，特殊表情可以是高兴、惊讶或生气等表情，例如表情脚本信息可以是在x秒时微笑。

S240、将所述当前时间点对应的所述第一表情参数作为表情驱动参数。

当当前时间点不存在表情脚本信息时，可以直接将第一表情参数作为表情驱动参数，用于驱动形象图片样本中的形象。

S250、解析所述对应的表情脚本信息，获取与所述对应的表情脚本信息对应的表情模板，得到第二表情参数。

当当前时间点存在表情脚本信息时，可以解析该表情脚本信息，确定该表情脚本信息对应的表情词，并基于表情词获取特殊表情模板。可选的，可以通过自然语言处理(Natural Language Processing，NLP)模块对表情脚本信息进行处理，识别其包含的表情词，基于表情词获取对应的特殊表情模板。图4示例性的提供了几种表情词对应的特殊表情模板，该特殊表情模板和对应的表情词可以关联存储，从而可以基于表情词获取对应的特殊表情模板。第二表情参数可以是该特殊表情模板所对应模型的顶点相对于中立表情模板所对应模型的顶点的偏移量/运动量。

S260、融合所述第一表情参数和第二表情参数，得到表情驱动参数。

当当前时间点存在表情模板信息时，可以融合第一表情参数和第二表情参数，将融合结果作为表情驱动参数，可以提高表情驱动参数的准确性，进而提高后续形象合成结果的准确性。可选的，可以确定表情脚本信息所对应表情出现的时间点以及所对应表情存在的持续时间；根据当前时间点表情脚本信息所对应表情出现的时间点以及所对应表情存在的持续时间确定第二表情参数在当前时间点的权重；根据权重对第二表情参数加权，并将加权后的第二表情参数与当前时间点第一表情参数的和，作为表情驱动参数。示例性的，当前时间点的表情驱动参数可以表示为：Vdisplacemennt＝α*V exp ression*δ+β*Vtalking(t')，式中，Vdisplacemennt为表情驱动参数，α和β为系数，具体数值可以根据实际情况设定，例如可以分别设置为0.5和0.5，δ为权重，δ＝1-2*|t'-t|/T，t'为当前时间点，t为表情脚本信息所对应表情出现的时间点，T为表情脚本信息所对应表情持续的时间，t'和t均为持续时间开始和结束之间的时间点，V exp ression为第二表情参数，Vtalking(t')为当前时刻的第一表情参数。示例性的，假定T＝2s，并从第一秒开始到第三秒结束，假定t＝2，t'＝2，则δ＝1，表示表情脚本信息所对应的表情在时间点为2s时变化程度最大。

S270、将所述表情驱动参数和头部姿态参数作为形象驱动参数。

S280、获取包含形象关键点检测结果的形象图片样本。

形象驱动参数和形象图片样本可以同时获取，也可以先获取形象驱动参数，再获取形象图片样本，或者先获取形象图片样本，再获取形象驱动参数，为了便于描述，本实施例以先获取形象驱动参数，再获取形象图片样本为例。

S290、将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片。

S2100、在所述目标图片中加入合成标记。

其中，所述合成标记用于表示所述目标图片中的形象为合成形象。合成标记可以显示在目标图片中，也可以采用一定的技术手段使其隐藏。实施例对合成标记的形式不进行限定。

本公开实施例二提供一种形象合成方法，通过文本获取形象驱动参数，在获取形象驱动参数的过程中，如果当前时间点不存在表情脚本信息，可以直接将通过文本得到的表情参数作为表情驱动参数，驱动形象图片样本，如果当前时间点存在表情脚本信息，可以获取表情脚本信息对应的表情模板，对通过文本得到的表情参数和通过表情模板得到的表情参数进行融合，得到表情驱动参数，驱动形象图片样本，提高了表情驱动参数的准确性，进而提高了形象合成结果的准确性。

实施例三

图5为本公开实施例三提供的一种形象合成方法的流程图，本实施例以通过视频的方式获取形象驱动参数为例，对形象合成的过程进行描述，参考图5，该方法可以包括如下步骤：

S310、采集包含样本形象的视频流，得到图像帧，并确定所述图像帧中样本形象的头部姿态参数和关键点的位置。

可选的，可以通过相机等图像采集设备采集包含样本形象的视频流，得到图像帧，并对图像帧中进行关键点检测，得到当前图像帧中形象关键点的位置以及头部姿态参数。

S320、根据设定时间内所述关键点的位置变化确定所述样本形象所处的模式。

其中，所述位置变化为所述关键点在所述设定时间内各个时间点的位置变化。可选的，可以统计一段时间内各关键点的位置变化，基于各关键点的位置变化确定样本形象所处的模式。不同的模式对应的关键点的位置变化不同，例如在处于表情模式时，各关键点的位置变化较大，在处于说话模式时，各关键点的位置变化较小。图6示例性的给出了两种模式下一些关键点的位置变化情况。横坐标代表的是一些关键点，纵坐标代表的是设定时间内各关键点的位置变化。其中实线代表是说话模式，虚线代表的是表情模式。如果设定时间内各关键点的位置变化较大，则认为该样本形象处于表情模式，如果设定时间内各关键点的位置变化较小，则认为该样本形象处于说话模式。可选的，在确定样本形象处于表情模式时，还可以基于表情模式下各关键点的位置对表情进行分类，例如当该模式下各关键点的位置与生气表情的各关键点的位置的差值小于设定阈值时，认为样本形象当前处于生气模式。

S330、确定与所述模式对应的表情基以及所述表情基的权重。

其中，所述表情基包括对应表情的关键点的位置。表情基可以自定义也可以直接调用预先创建好的。不同的模式采用的表情基不同，例如说话模式对应的表情基可以包括线性表情基，表情模式对应的表情基可以包括线性表情基和非线性表情基，线性表情基为线性可解耦的表情基，非线性表情基为不能解耦的表情基，例如大笑是一种非线性表情基，其表现为嘴巴张开、嘴角变化，眼睛和眉毛也相应的变化。

可选的，当所述模式为说话模式时，获取与所述说话模式对应的第一表情基；根据所述关键点在所述第一表情基中的位置和所述关键点在样本形象中的位置，确定所述第一表情基的权重；当所述模式为表情模式时，获取与所述表情模式对应的第二表情基；根据所述关键点在所述第二表情基中的位置和所述关键点在样本形象中的位置，确定所述第二表情基的权重。

第一表情基可以是线性可解耦的表情基，第二表情基可以是非线性不可解耦的表情基。假定该图像帧中样本形象包含m个关键点，分别为b1、b2、…、bm，对应的位置分别为B1、B2、…、Bm。当处于说话模式时，对应n个表情基，分别为A1、A2、…、An，表情基A1中关键点b1、b2、…、bm的位置分别为A11、A12、…、A1m，表情基A2中关键点b1、b2、…、bm的位置分别为A21、A22、…、A2m，依次类推，表情基An中关键点b1、b2、…、bm的位置分别为An1、An2、…、Anm。则可以建立表情基和图像帧中样本形象的映射关系，即W1*b1+W2*b1+…+Wn*b1＝B1，W1*b2+W2*b2+…+Wn*b2＝B2，…，W1*bm+W2*bm+…+Wn*bm＝Bm，解算上述方程组即可得到各表情基对应的权重，其中，W1为表情基A1对应的权重，W2为表情基A2对应的权重，依次类推，Wn为表情基An对应的权重。处于表情模式时，各表情基的权重的确定过程类似。

S340、根据所述表情基和所述表情基的权重，确定所述样本形象在所述模式下的表情驱动参数。

仍以说话模式为例，权重确定后，将其代入上述方程的左边，即可得到样本形象中各关键点的位置，得到该模式下的表情驱动参数。

S350、将所述头部姿态参数和表情驱动参数作为形象驱动参数。

S360、获取包含形象关键点检测结果的形象图片样本。

S370、将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片。

S380、在所述目标图片中加入合成标记。

本公开实施例三提供一种形象合成方法，在上述实施例的基础上，可以通过视频的方式获取形象驱动参数，而且在生成形象驱动参数时，基于样本形象中关键点的位置变化确定其所处的模式，进而得到该模式对应的表情基以及权重，基于表情基和对应的权重得到表情驱动参数，使得生成的表情驱动参数更加平滑和真实，提高了形象合成结果的准确性。

在上述实施例的基础上，还可以直接通过音频的方式获取形象驱动参数，该方式减少了文本到语音的转换过程。本方案可以通过文本、语音或视频等方式驱动形象图片样本中的形象，无需构建三维模型，简化了过程，而且合成结果的准确性和真实感较高。

实施例四

图7为本公开实施例四提供的一种形象合成装置的结构图，该装置可以执行上述实施例所述的形象合成方法，参考图7，该装置可以包括：

获取模块41，用于获取形象驱动参数和包含形象关键点检测结果的形象图片样本；

形象合成模块42，用于将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片；

本公开实施例四提供一种形象合成装置，通过获取形象驱动参数和包含形象关键点检测结果的形象图片样本，将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片；其中，所述预先训练的形象合成网络包括仿射变换模块、运动估计模块和对抗生成模块；所述仿射变换模块用于根据所述形象驱动参数调整所述形象图片样本中形象关键点的位置，得到第一形象图片；所述运动估计模块用于根据所述形象关键点的位置变化调整所述第一形象图片中除所述形象关键点之外的其他像素点的位置，得到第二形象图片，所述形象关键点的位置变化为所述第一形象图片中形象关键点的位置相对于所述形象图片样本中形象关键点的位置的变化；所述对抗生成模块用于修正所述第二形象图片，得到目标图片。上述方案无需构建形象图片样本中形象的三维模型，简化了形象合成操作，而且在进行形象合成时首先基于形象驱动参数调整形象关键点的位置，然后基于形象关键点的位置变化调整其他的像素点，在此基础上对得到的形象进行修正，提高了形象合成结果的准确性。

在上述实施例的基础上，获取模块41，包括：

给定文本获取单元，用于获取用于供虚拟主播表演的给定文本，并将所述给定文本转换成音频信号，所述虚拟主播的形象为所述形象图片样本中的形象；

头部姿态参数确定单元，用于根据所述音频信号的语音特征生成各时间点对应的第一表情参数和头部姿态参数；

表情驱动参数确定单元，用于对于所述各时间点中的每个时间点，若当前时间点不存在对应的表情脚本信息，则将所述当前时间点对应的所述第一表情参数作为表情驱动参数；若所述当前时间点存在对应的表情脚本信息，则解析所述对应的表情脚本信息，获取与所述对应的表情脚本信息对应的表情模板，得到第二表情参数；融合所述第一表情参数和第二表情参数，得到表情驱动参数；

形象驱动参数确定单元，用于将所述表情驱动参数和头部姿态参数作为形象驱动参数。

在上述实施例的基础上，头部姿态参数确定单元，具体用于：

确定所述音频信号的语音特征；

将所述语音特征输入预先训练的参数生成网络，由所述预先训练的参数生成网络输出各时间点对应的第一表情参数和头部姿态参数；

其中，所述预先训练的参数生成网络包括卷积模块和反卷积模块，所述卷积模块包括卷积层和全连接层，所述卷积层用于对输入的语音特征进行时间卷积，得到第一特征；所述全连接层用于根据所述第一特征确定各时间点对应的第一表情参数和头部姿态参数。

在上述实施例的基础上，所述语音特征的维度为FT*W*D，F为所述音频信号的帧率，T为采样时长，W为所述音频信号对应的时域窗口的大小，D为所述音频信号对应的字典；

所述字典包括中文字典和/或英文字典，所述英文字典包括英文字母和标记符，所述标记符用于表示静音、停顿或短停；所述中文字典包括音素、声调符号和标记符。

在上述实施例的基础上，表情驱动参数确定单元，具体用于：

确定所述表情脚本所对应表情出现的时间点以及所述所对应表情存在的持续时间；

根据当前时间点、所述表情脚本所对应表情出现的时间点以及所述所对应表情存在的持续时间确定所述第二表情参数在当前时间点的权重，所述当前时间点为所述持续时间开始和结束之间的时间点；

根据所述权重对所述第二表情参数加权，并将加权后的第二表情参数与当前时间点第一表情参数的和，作为表情驱动参数。

在上述实施例的基础上，获取模块41，包括：

图像采集单元，用于采集包含样本形象的视频流，得到图像帧，并确定所述图像帧中样本形象的头部姿态参数和关键点的位置；

模式确定单元，用于根据设定时间内所述关键点的位置变化确定所述样本形象所处的模式，所述位置变化为所述关键点在所述设定时间内各个时间点的位置变化；

权重确定单元，用于确定与所述模式对应的表情基以及所述表情基的权重，所述表情基包括关键点的位置；

表情驱动参数确定单元，用于根据所述表情基和所述表情基的权重，确定所述样本形象在所述模式下的表情驱动参数；

形象驱动参数确定单元，用于将所述头部姿态参数和表情驱动参数作为形象驱动参数。

在上述实施例的基础上，所述模式包括说话模式或表情模式；

权重确定单元，具体用于：

当所述模式为说话模式时，获取与所述说话模式对应的第一表情基；根据所述关键点在所述第一表情基中的位置和所述关键点在样本形象中的位置，确定所述第一表情基的权重；

当所述模式为表情模式时，获取与所述表情模式对应的第二表情基；根据所述关键点在所述第二表情基中的位置和所述关键点在样本形象中的位置，确定所述第二表情基的权重。

在上述实施例的基础上，该装置还可以包括：

合成标记生成模块，用于在由所述预先训练的形象合成网络输出包含形象合成结果的目标图片之后，在所述目标图片中加入合成标记，所述合成标记用于表示所述目标图片中的形象为合成形象。

本公开实施例提供的形象合成装置与上述实施例提供的形象合成方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例具备执行形象合成方法相同的有益效果。

实施例五

下面参考图8，其示出了适于用来实现本公开实施例的电子设备500的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。

实施例六

本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取形象驱动参数和包含形象关键点检测结果的形象图片样本；将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片；其中，所述预先训练的形象合成网络包括仿射变换模块、运动估计模块和对抗生成模块；所述仿射变换模块用于根据所述形象驱动参数调整所述形象图片样本中形象关键点的位置，得到第一形象图片；所述运动估计模块用于根据所述形象关键点的位置变化调整所述第一形象图片中除所述形象关键点之外的其他像素点的位置，得到第二形象图片，所述形象关键点的位置变化为所述第一形象图片中形象关键点的位置相对于所述形象图片样本中形象关键点的位置的变化；所述对抗生成模块用于修正所述第二形象图片，得到目标图片。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“获取形象驱动参数和包含形象关键点检测结果的形象图片样本的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，本公开提供了一种形象合成方法，包括：

获取形象驱动参数和包含形象关键点检测结果的形象图片样本；

将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标图片；

根据本公开的一个或多个实施例，本公开提供的形象合成方法中，所述获取形象驱动参数，包括：

获取用于供虚拟主播表演的给定文本，并将所述给定文本转换成音频信号，所述虚拟主播的形象为所述形象图片样本中的形象；

根据所述音频信号的语音特征生成各时间点对应的第一表情参数和头部姿态参数；

对于所述各时间点中的每个时间点，若当前时间点不存在对应的表情脚本信息，则将所述当前时间点对应的所述第一表情参数作为表情驱动参数；若所述当前时间点存在对应的表情脚本信息，则解析所述对应的表情脚本信息，获取与所述对应的表情脚本信息对应的表情模板，得到第二表情参数；融合所述第一表情参数和第二表情参数，得到表情驱动参数；

将所述表情驱动参数和头部姿态参数作为形象驱动参数。

根据本公开的一个或多个实施例，本公开提供的形象合成方法中，所述根据所述音频信号的语音特征生成各时间点对应的第一表情参数和头部姿态参数，包括：

确定所述音频信号的语音特征；

将所述语音特征输入预先训练的参数生成网络，由所述预先训练的参数生成网络输出各时间点对应的第一表情参数和头部姿态参数；

根据本公开的一个或多个实施例，本公开提供的形象合成方法中，所述语音特征的维度为FT*W*D，F为所述音频信号的帧率，T为采样时长，W为所述音频信号对应的时域窗口的大小，D为所述音频信号对应的字典；

根据本公开的一个或多个实施例，本公开提供的形象合成方法中，所述融合所述第一表情参数和第二表情参数，得到表情驱动参数，包括：

确定所述表情脚本信息所对应表情出现的时间点以及所述所对应表情存在的持续时间；

根据当前时间点、所述表情脚本信息所对应表情出现的时间点以及所述所对应表情存在的持续时间确定所述第二表情参数在当前时间点的权重，所述当前时间点为所述持续时间开始和结束之间的时间点；

根据所述权重对所述第二表情参数加权，并将加权后的第二表情参数与当前时间点第一表情参数的和，作为表情驱动参数。

根据本公开的一个或多个实施例，本公开提供的形象合成方法中，所述获取形象驱动参数，包括：

采集包含样本形象的视频流，得到图像帧，并确定所述图像帧中样本形象的头部姿态参数和关键点的位置；

根据设定时间内所述关键点的位置变化确定所述样本形象所处的模式，所述位置变化为所述关键点在所述设定时间内各个时间点的位置变化；

确定与所述模式对应的表情基以及所述表情基的权重，所述表情基包括关键点的位置；

根据所述表情基和所述表情基的权重，确定所述样本形象在所述模式下的表情驱动参数；

将所述头部姿态参数和表情驱动参数作为形象驱动参数。

根据本公开的一个或多个实施例，本公开提供的形象合成方法中，所述模式包括说话模式或表情模式；

所述确定与所述模式对应的表情基以及所述表情基的权重，包括：

根据本公开的一个或多个实施例，本公开提供的形象合成方法中，在由所述预先训练的形象合成网络输出包含形象合成结果的目标图片之后，还包括：

在所述目标图片中加入合成标记，所述合成标记用于表示所述目标图片中的形象为合成形象。

根据本公开的一个或多个实施例，本公开提供了一种形象合成装置，包括：

获取模块，用于获取形象动参数和包含形象关键点检测结果的形象图片样本；

形象合成模块，用于将所述形象驱动参数和形象图片样本输入预先训练的形象合成网络，由所述预先训练的形象合成网络输出包含形象合成结果的目标形象图片；

根据本公开的一个或多个实施例，本公开提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时实现如本公开任一所述的形象合成方法。

根据本公开的一个或多个实施例，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开任一所述的形象合成方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：焦少慧;张启军;王悦;崔越;
专利申请人：北京字节跳动网络技术有限公司;

上一篇：一种高效光催化分解水制氢的单质红磷负载的二氧化钛复合催化剂
下一篇：一种整体式多排高效贴装设备