掌桥专利:专业的专利平台
掌桥专利
首页

一种结合神经纹理的可操控3D人脸重建方法及系统

文献发布时间:2023-06-19 16:06:26



技术领域

本发明涉及3D人脸重建技术领域,具体涉及一种结合神经纹理的可操控 3D人脸重建方法及系统。

背景技术

3D人脸重建是一个非常重要的计算机视觉任务,得到了广泛研究和应用。 数字化身生成包含众多技术环节,包括人脸重建、身体重建、声音重建等等, 其中人脸重建的发展较为成熟,人脸重建任务的重点,除了制作外形逼真的 3D模型之外,还包括非刚性运动的参数化建模,以控制和模拟面部的复杂表 情。市面已有的方法包括,借助采集系统(包括单目相机、深度相机、相机阵 列等)完成3D人脸模型的自动化、半自动化重建,但需要人工介入进行所谓 的RIG操作,也即骨骼/控制点绑定,以便于在后续的3D处理和渲染软件中 通过线性蒙皮算法(简称LBS),进行参数化控制,整个过程还无法实现全自 动化,因而限制了该服务的产能;还有一些基于统计的AI模型,例如BFM、 FLAME、FaceScape等,通过构建大规模人脸3D扫描数据,训练了可用的 3DMM模型,可以通过单张或多张图片进行参数估计,可以实现人脸的自动 化3D建模,但是一方面,重建后渲染输出的逼真度有限,另一方面,这些AI化的参数与主流的渲染引擎,例如U3D、UE4无法实现兼容,难以被程序 化自动操控。

发明内容

为此,本发明提供一种结合神经纹理的可操控3D人脸重建方法及系统, 以解决现有3D人脸重建存在的无法与主流的渲染引擎兼容、渲染输出的逼真 度有限、无法实现全自动化的问题。

为了实现上述目的,本发明提供如下技术方案:

根据本发明实施例的第一方面,提出了一种结合神经纹理的可操控3D人 脸重建方法,所述方法包括:

采集用户面部视频,所述视频包含自然的头部运动和面部表情变化,对所 述视频进行抽帧获取多张图片,构建训练集;

将获取的多张图片输入至预先构建的深度神经网络模型对模型进行训练, 并利用训练后的深度神经网络模型预测得到线性人脸模型参数,所述线性人脸 模型参数包括3D人脸几何形状参数和3D人脸贴图参数;

将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型,所述 人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的人脸 3D几何形状模型以及对应的人脸贴图。

进一步地,所述方法还包括:基于人脸线性参数化表示,将人脸的形状、 表情、外观分别表示为100维、50维、50维子空间,构建人脸线性参数化模 型:

分别用S和A表示人脸的3D几何形状和外观:

其中,S代表目标3D人脸的顶点位置,

A代表目标3D人脸的贴图像素值,

进一步地,所述方法还包括:构建深度神经网络模型,具体为:

所述深度神经网络模型包括第一编码器、解码器、神经纹理编码器以及渲 染器;

所述第一编码器的输入为图像{I

所述解码器包括第一解码器和第二解码器,所述第一解码器的输入为参数β

所述神经纹理编码器输入为3D人脸贴图A,输出为神经纹理{T

所述渲染器包括第一渲染器和第二渲染器,所述第一渲染器为神经渲染器, 输入为神经纹理T,输出为RGB图像

进一步地,所述方法还包括:

定义目标损失函数如下:

L=L

其中,

根据所述目标损失函数对深度神经网络模型进行训练直至模型收敛。

进一步地,所述方法还包括:

制作中性表情模型M

根据本发明实施例的第二方面,提出了一种结合神经纹理的可操控3D人 脸重建系统,所述系统包括:

图片获取模块,用于采集用户面部视频,所述视频包含自然的头部运动和 面部表情变化,对所述视频进行抽帧获取多张图片;

人脸重建模块,用于将获取的多张图片输入至预先构建的深度神经网络模 型对模型进行训练,并利用训练后的深度神经网络模型预测得到线性人脸模型 参数,所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数;

将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型,所述 人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的人脸 3D模型以及对应的人脸贴图。

本发明具有如下优点:

本发明提出的一种结合神经纹理的可操控3D人脸重建方法及系统,采集 用户面部视频,所述视频包含自然的头部运动和面部表情变化,对所述视频进 行抽帧获取多张图片,构建训练集;将获取的多张图片输入至预先构建的深度 神经网络模型对模型进行训练,并利用训练后的深度神经网络模型预测得到线 性人脸模型参数,所述线性人脸模型参数包括3D人脸几何形状参数和3D人 脸贴图参数;将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模 型,所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重 建的人脸3D几何形状模型以及对应的人脸贴图。其结果可以被主流渲染引擎兼容、并且通过引入神经纹理,使得渲染结果更加逼真。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对 实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下 面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种结合神经纹理的可操控3D人脸重建方 法的流程示意图;

图2为本发明实施例1提供的一种结合神经纹理的可操控3D人脸重建方 法中深度卷积神经网络模型的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由 本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的 实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。

实施例1

如图1所示,本实施例提出了一种结合神经纹理的可操控3D人脸重建方 法,该方法包括:

S100、采集用户面部视频,所述视频包含自然的头部运动和面部表情变化, 对所述视频进行抽帧获取多张图片,构建训练集;

S200、将获取的多张图片输入至预先构建的深度神经网络模型对模型进行 训练,并利用训练后的深度神经网络模型预测得到线性人脸模型参数,所述线 性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数;

S300、将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型, 所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的 人脸3D几何形状模型以及对应的人脸贴图。

本实施例提出的通过多张图片实现自动化3D人脸重建的方法,其结果可 以被主流渲染引擎兼容、并且通过引入神经纹理,使得渲染结果更加逼真,具 体实施步骤如下:

1、通过任意录像设备(例如手机)采集一段时长大概5s的用户面部的视 频;该视频包含自然的头部运动和面部表情变化;通过抽帧获得N张图片作 为系统的输入。

2、基于人脸线性参数化表示(例如采用FLAME模型),将人脸的形状、 表情、外观分别表示为100维、50维、50维子空间,记作:

S和A分别表示人脸的3D几何形状和外观(Albedo贴图);

其中,S代表目标3D人脸的顶点位置,

A代表目标3D人脸的贴图像素值,

3、构建一个神经网络,如图2所示,由四部分组成,分别是编码器Encoder、 解码器Decoder、神经纹理编码器NTexture、渲染器NRender。

编码器Encoder的输入是图像{I

解码器包含两部分,Decoder-1的输入为{β

神经纹理编码器的输入是A,输出是神经纹理{T

渲染器也包含两部分,NRender-1的输入为T,输出为

4、定义目标损失函数如下:

L=L

其中,

根据上述网络结构和损失函数的定义,在训练数据集上进行模型训练,得 到优化的深度神经网络模型Model。该Model的输入为多张图像,预测得到线 性人脸模型参数{β

5、为了使步骤(4)中得到的模型和贴图兼容于主流的渲染引擎,制作中 性表情模型M

实施例2

与上述实施例1相对应的,本实施例提出了一种结合神经纹理的可操控 3D人脸重建系统,所述系统包括:

图片获取模块,用于采集用户面部视频,所述视频包含自然的头部运动和 面部表情变化,对所述视频进行抽帧获取多张图片,构建训练集;

人脸重建模块,用于将获取的多张图片输入至预先构建的深度神经网络模 型对模型进行训练,并利用训练后的深度神经网络模型预测得到线性人脸模型 参数,所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数;

将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型,所述 人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图,得到重建的人脸 3D模型以及对应的人脸贴图。

本发明实施例提供的一种结合神经纹理的可操控3D人脸重建系统中各部 件所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述, 但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是 显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均 属于本发明要求保护的范围。

相关技术
  • 一种结合神经纹理的可操控3D人脸重建方法及系统
  • 人脸纹理特征提取、3D人脸重建方法及设备及存储介质
技术分类

06120114702198