一种基于音频和图像的数字人脸生成方法及系统

文献发布时间：2024-04-18 19:58:21

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于音频和图像的数字人脸生成方法及系统。

背景技术

随着近年来图像处理领域技术的发展，基于人工智能的音频驱动人脸视频在众多场景下使用广泛，例如，远程视频会议、虚拟角色生成、三维人脸动画制作和动画视频创作等。以前的大多数音频到面部动画工作都侧重于匹配语音内容，而忽略了样式/标识信息，因为标识通常会由于训练期间的模式折叠或平均而被绕过。

现有技术在进行口型同步面部驱动时没有捕捉说话者的身份或风格。因此，如果用两种不同的声音说同一句话，往往会生成相同的面部动画，但缺乏使其更具表现力和真实感所需的动态信息。可以看出，现有数字人脸生成方案存在如下问题：

1、语音和人脸运动很难人工同步。

2、对于同一段话，所生成的说话人视频对于不同的人脸和头部姿势会传达不同的个性。

3、对于真实的生成的说话人的感知变化不足，仅仅有嘴型的匹配和面部的运动，缺少面部的要素和头部姿势对于人脸表情的关联。

发明内容

基于此，本申请实施例提供了一种基于音频和图像的数字人脸生成方法及系统，能够通过音频信号来预测人脸关键点，从而很好地捕获表情以及头部姿势。

第一方面，提供了一种基于音频和图像的数字人脸生成方法，该方法包括：

根据预先获取的目标语料进行视频拍摄得到目标视频；其中，所述目标视频中包含人脸图像信息和音频信息；

对所述目标视频进行关键点提取以及音频提取分别得到人脸关键点以及音频内容；

将所述音频内容通过AutoVC encoder网络进行处理得到音频张量；其中，所述音频张量中包括时间步和每一时间步所对应输出向量；

将所述音频张量通过LSTM神经网络对人脸关键点变化进行预测，并根据人脸关键点变化预测结果对目标视频中的人脸图像进行映射生成动态数字人脸。

可选地，将所述音频张量通过LSTM神经网络对人脸关键点变化进行预测，具体包括：

基于音频内容的关键点变化驱动进行预测；以及，基于人物的语音特征提取从而进行预测。

可选地，所述基于音频内容的关键点变化驱动进行预测，包括：

通过

Δq

进行预测关键点变化，其中，q表示静态人脸关键点检测器输出3D的人脸关键点张量，t表示音频张量时间步中的帧数，C

可选地，所述基于人物的语音特征提取从而进行预测，包括：

通过

Δp

进行预测关键点变化，其中，h

可选地，根据人脸关键点变化预测结果对目标视频中的人脸图像进行映射，包括：

通过U-Net网络来进行实现，并将预测的每一帧关键点序列中连续的关键点用线段相连并渲染成不同的颜色，从而得到图像的特征；

将得到的图和原图在通道维度上进行拼接，从而得到预设大小的特征图；

通过类encoder-decoder的网络对该特征图映射为生成每一帧真人图像。

可选地，将得到的图和原图在通道维度上进行拼接，从而得到预设大小的特征图；通过类encoder-decoder的网络对该特征图映射为生成每一帧真人图像，包括：

所得到的特征图大小为256*256*6；

通过类encoder-decoder的网络对该特征图映射为生成每一帧真人图像中，该encoder-decoder结构中，encoder的结构为：由6层CNN组成，每层CNN跟随两个residualblock，从而形成bottleneck，encoder的输出直接输入到decoder中。

可选地，对所述目标视频进行关键点提取，包括：

使用预先设置的3D人脸关键点检测器来捕获输入的视频中的关键点。

可选地，将所述音频内容通过AutoVC encoder网络进行处理得到音频张量，还包括：

将所述音频内容进行解耦得到音频内容特征以及说话人身份特征；

根据音频内容特征以及说话人身份特征得到音频张量。

第二方面，提供了一种基于音频和图像的数字人脸生成系统，该系统包括：

拍摄模块，用于根据预先获取的目标语料进行视频拍摄得到目标视频；其中，所述目标视频中包含人脸图像信息和音频信息；

提取模块，用于对所述目标视频进行关键点提取以及音频提取分别得到人脸关键点以及音频内容；

处理模块，用于将所述音频内容通过AutoVC encoder网络进行处理得到音频张量；其中，所述音频张量中包括时间步和每一时间步所对应输出向量；

生成模块，用于将所述音频张量通过LSTM神经网络对人脸关键点变化进行预测，并根据人脸关键点变化预测结果对目标视频中的人脸图像进行映射生成动态数字人脸。

本申请实施例提供的技术方案中首先根据预先获取的目标语料进行视频拍摄得到目标视频；对目标视频进行关键点提取以及音频内容提取分别得到人脸关键点以及音频内容；然后将音频内容通过AutoVC encoder网络进行处理得到音频张量；最后将音频张量通过LSTM神经网络对人脸关键点变化进行预测，并根据人脸关键点变化预测结果对目标视频中的人脸图像进行映射生成动态数字人脸。可以看出，本发明的有益效果在于：

1、该方法能够通过音频信号来预测人脸关键点，从而很好地捕获表情以及头部姿势。

2、该方法实现了对语音内容特征以及语音人物特征进行解耦，进而生成了生动的说话人动态效果。

3、在实现上所耗费的资源较少，由于采用了关键点驱动方法，因此对于音频特征与人脸特征关联上，比传统的基于像素的方法更加简单和直接。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

图1为本申请实施例提供的一种基于音频和图像的数字人脸生成步骤流程图；

图2为本申请可选实施例提供的数字人脸生成流程图；

图3为本申请数字人脸生成网络结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本发明的描述中，术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

以前的大多数音频到面部动画工作都侧重于匹配语音内容，而忽略了样式/标识信息，因为标识通常会由于训练期间的模式折叠或平均而被绕过。相比之下，我们的方法将音频内容和说话人信息解开，并驱动地标捕捉与说话人相关的动态信息。

上述方法在进行口型同步面部驱动时没有捕捉说话者的身份或风格。因此，如果用两种不同的声音说同一句话，他们往往会生成相同的面部动画，但缺乏使其更具表现力和真实感所需的动态信息。

在人物的通用性方面，某些方法还是基于特定人物进行建模，这使得训练时间和资源大大增加。在“风格”感知面部头部驱动方面，上述方法中的身份信息主要集中在静态面部外观而不是说话者动态。说话人的意识包含许多方面，而不仅仅是静态外观。个人面部表情和头部运动都是说话者感知动画的重要因素。我们的方法通过联合学习静态外观和头部运动动态来解决说话人身份问题，以提供真实的驱动说话人头像。

本申请、设计出一种网络结构使得能通过音频信号来预测人脸关键点进而捕获表情以及头部姿势；并对语音内容特征以及语音人物特征进行解耦，进而生成基于说话语音的说话人动态效果，实现了真人的人脸关键点同步。

具体地，请参考图1，其示出了本申请实施例提供的一种基于音频和图像的数字人脸生成方法的流程图，该方法可以包括以下步骤：

步骤101，根据预先获取的目标语料进行视频拍摄得到目标视频。

其中，目标视频中包含人脸图像信息和音频信息。

在数据采集过程中，本申请相关语料指的是与所采集数据相关的文本、语音、图像等信息。具体来说，它包括了广义上的原始数据(如网页、社交媒体帖子等)，也包括由原始数据衍生出来的其他数据(如情感标签、实体识别结果等)。

步骤102，对目标视频进行关键点提取以及音频内容提取分别得到人脸关键点以及音频内容。

在关键点提取步骤中，使用现成的3D人脸关键点检测器来捕获输入的视频中的关键点。直接通过音频内容和图像来预测人脸关键点，其动态特性的保真度不够高。因此必须通过解耦所得的音频内容特征以及说话人身份特征嵌入来预测关键点才能保持高保真度。

步骤103，将音频内容通过AutoVC encoder网络进行处理得到音频张量。

其中，音频张量中包括时间步和每一时间步所对应输出向量。将音频内容进行解耦得到音频内容特征以及说话人身份特征；根据音频内容特征以及说话人身份特征得到音频张量。

在音频内容提取步骤中，采用AutoVC encoder来提取与说话人无关的音频语言内容。该过程即为content embedding。AutoVC encoder是一种基于LSTM的编码器网络，可以对音频进行说话人信息的摒弃并保留仅与内容相关的信息。通过content embedding过程，得到大小为T*D大小的张量A，其中T为时间步(即哪一帧)，D为每一时间步输出的向量大小。

步骤104，将音频张量通过LSTM神经网络对人脸关键点变化进行预测，并根据人脸关键点变化预测结果对目标视频中的人脸图像进行映射生成动态数字人脸。

在本申请实施例中，在神经网络预测关键点变化阶段，主要有两步，第一步为基于音频内容的关键点变化驱动，第二步为基于人物的语音特征提取。

在基于音频内容的关键点变化驱动步骤，音频数据在content embedding后得到的向量序列A需要再经过一组神经网络对人脸关键点进行映射。该步骤使用LSTM实现，因为需要获取音频序列内每一帧之间的变化关系。对于音频的每一帧t，其与往后18帧(0.3秒)合并作为一个序列样本输入到LSTM中。由静态人脸关键点检测器输出3D的人脸关键点张量q，大小为68*3(一共68个点，每个点对应3D中的x、y、z轴)，与LSTM一同输入到多层感知机中预测一整个语音片段的关键点变化。

在具体参数中，该LSTM有3层，隐藏层大小为256，MLP也有3层，其大小为512，256，204(这个大小对应了68个关键点，即68*3)。神经预测关键点变化的具体步骤公式如下：

Δq

在基于人物的语音特征提取中，该阶段用于预测人脸关键点的一些细微变化(如头部运动、眉毛和嘴部的关联等)，从而使得关键点变化得更自然。content embedding和speaker identity embedding的两种embedding的不同之处在于：前一种生成的关键点更为静态(特别是头部姿势、眼睛、眉毛等地方)，而后一种会变化得更多(但是嘴部的变化会更少)。这种方法对于同一个人的不同言辞所得到的embedding的相似性最大化而对不同的人的言辞所得到的embedding的相似性的最小化，从而得到可以用于分辨不同的人的语言特性。该embedding层的输出的维度为256，但缩减至128后可以提高对训练期间没有使用过的图像的泛化能力。通过这个方法所预测的人脸关键点的变化能反映说话人的特性(即同一个说话人的不同言辞所得到的关键点的变化应该是近似的)，从而关键点的变化会更加合理。与获取语音的内容特征相比，预测和谐的头部动作和面部表情需要更长时间的依赖性。声音的帧数与生成关键点的头部变化的时间并不是对等的，因为输入的语音的因素一般是持续几十毫秒，但此期间生成的头部姿态变化的幅度应该是需要更长时间才能完成(就是头部变化的幅度过大)。因此使得音频的帧数与生成的关键点变化更加匹配，则需要获取更长时间的依赖，此处使用了自注意力机制。该阶段具体关键点运算公式如下：

Δp

在关键点到图像映射中，这一步是真正实现了变化的关键点到真实图像之间的映射变化。前面部分输入的都是关键点和音频，因此这一步的目的是为了将预测的关键点与图像进行关联，并得到最终的图像输出。具体步骤大致解释为：使用类似U-Net的网络来是实现该过程，把预测的每一帧关键点序列中连续的关键点用线段相连并渲染成不同的颜色，从而得到图像的特征。将得到的图和原图在通道维度上进行拼接，从而得到大小为256*256*6的特征图。通过类encoder-decoder的网络对该特征图映射为生成每一帧真人图像。该encoder-decoder结构中，encoder的结构为：由6层CNN组成，每层CNN跟随两个residualblock，从而形成bottleneck。encoder的输出直接输入到decoder中，decoder的结构为与encoder一样，只是反着来。对于按顺序的两层CNN之间，都会存在短路连接。

如图2给出了本申请一个可选实施例中，本发明所输出的动态数字人脸可以生成2D数字名片，系统方法包括如下步骤：步骤一：需要进行数据的采集，对给定的相关语料，进行视频拍摄；步骤二：进行音频信息和视频人脸信息提取；步骤三：AutoVC encoder中进行进一步音频特征提取；步骤四：将得到的关键点与静态图像通过生成对抗网络进行特征映射与关联，实现静态图像的驱动。

在本申请中具体网络结构如图3所示，其中，神经网络的具体训练流程包括了：

对于每个关键点，计算出其图拉普拉斯坐标后再计算其距离，可以促进关键点的相对位置之间的正确性以及保留一些面部的细节特征。对于提取基于说话人的特征，需要选取同一段言辞由不同人物进行演讲的数据集，从而让模型学会如何提取出针对说话人的特征。而对于图像生成阶段的训练，使用成对的视频帧进行训练，并在高分辨率的视频上进行微调。其中人脸关键点帧率62.5FPS，音频采样频率为16KHz，mel频谱为62.5Hz，原音频的频率为16KHz。

综上可以看出，本申请具体公开了：

1、从音频内容特征到关键点驱动的方法：

音频数据在content embedding后得到的向量序列A需要再经过一组神经网络对人脸关键点进行映射。这种方法对于同一个人的不同言辞所得到的embedding的相似性最大化而对不同的人的言辞所得到的embedding的相似性的最小化，从而得到可以用于分辨不同的人的语言特性。通过基于人物的语音特征提取方法所预测的人脸关键点的变化能反映说话人的特性(即同一个说话人的不同言辞所得到的关键点的变化应该是近似的)，从而关键点的变化会更加合理。与获取语音的内容特征相比，预测和谐的头部动作和面部表情需要更长时间的依赖性。

2、从关键点到图像的转换生成方法：

使用类似U-Net的网络来是实现该过程，把预测的每一帧关键点序列中连续的关键点用线段相连并渲染成不同的颜色，从而得到图像的特征。该做法将预测的关键点与图像进行关联，并得到最终的真实图像的输出。

本申请实施例还提供的一种基于音频和图像的数字人脸生成系统。系统包括：

拍摄模块，用于根据预先获取的目标语料进行视频拍摄得到目标视频；其中，目标视频中包含人脸图像信息和音频信息；

提取模块，用于对目标视频进行关键点提取以及音频内容提取分别得到人脸关键点以及音频内容；

处理模块，用于将音频内容通过AutoVC encoder网络进行处理得到音频张量；其中，音频张量中包括时间步和每一时间步所对应输出向量；

生成模块，用于将音频张量通过LSTM神经网络对人脸关键点变化进行预测，并根据人脸关键点变化预测结果对目标视频中的人脸图像进行映射生成动态数字人脸。

本申请实施例提供的基于音频和图像的数字人脸生成系统用于实现上述基于音频和图像的数字人脸生成方法，关于基于音频和图像的数字人脸生成系统的具体限定可以参见上文中对于基于音频和图像的数字人脸生成方法的限定，在此不再赘述。上述基于音频和图像的数字人脸生成系统中的各个部分可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于设备中的处理器中，也可以以软件形式存储于设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：小哆智能科技(北京)有限公司;

上一篇：一种靶向GSK3β的纳米抗体及其制备方法
下一篇：信息分类方法、多媒体资源推送方法及装置