掌桥专利:专业的专利平台
掌桥专利
首页

一种基于iOS面部捕捉驱动数字人的校准方法

文献发布时间:2024-04-18 19:52:40


一种基于iOS面部捕捉驱动数字人的校准方法

技术领域

本发明涉及虚拟数字人领域,具体涉及一种基于iOS面部捕捉驱动数字人的校准方法。

技术背景

当前方案用iOS面部表情捕捉驱动虚幻数字人,基于iOS的52个面部表情特征捕捉进行数据输出和驱动。但当前在最小值校准和最大值校准方面仍存在问题。

最小值校准是指使用iPhone的深度摄像头进行面部捕捉;在最小值校准时经常会遇到演员面部放松,但是各个blendshape初始值不为零的情况,会导致诸如虚拟角色嘴部无法闭合或者眉头始终紧锁等不自然表情。

当前最小值校准方案如下:在演员面部放松时,记录下各个blendshape的值作为基准值Vi,在之后的面捕过程中,对于实时获得的数值Vr,进行(Vr-Vi)/(1-Vi)的计算,相当于以Vi为零点,对Vr进行了一次0到1之间的映射。这样便能确保在演员面部放松时,虚拟角色的各个blendshape值为零。但是当前方案需要在UE蓝图中添加52个数据映射,添加过程较为复杂,校准效率低,且不易更改。

而最大值校准是由于每个演员的表情幅度各不相同,若用同一套标准可能无法完美驱动数字人。比如嘴部移动参数为0~1,但演员面部移动最大幅度只能达到0~0.8,所以数字人面部移动幅度即无法达到0.8~1。

当前最大值校准一般采用AI机器学习方法,对演员进行视频采集,并通过机器学习训练模型,对演员的表情数据进行映射输出,成本较高,且只能针对单一演员。

发明内容

针对上述存在的拘束局限性,本发明提出了一种基于iOS面部捕捉驱动数字人的校准方法,在最小值校准时不需要在UE蓝图中逐个添加映射,最大值校准时也不需要进行模型训练或手动调整,可直接对演员进行面部数据特征的采集并自动调整输出系数。

为实现上述目的,本发明采用了以下技术方案:

一种基于iOS面部捕捉驱动数字人的校准方法,所述校准方法包括:

采集演员面部放松时的若干记录点的面部表情数据,得到对应记录点的最小面部数据;

采集演员执行若干特殊表情时若干记录点的面部表情数据,得到对应记录点的最大面部数据;

在进行最小值校准时,采集若干记录点的面部表情数据,并按照最小值校准公式进行计算,得到该记录点对应的最小值校准结果;

在进行最大值校准时,采集若干记录点的面部表情数据,并按照最大值校准公式进行计算,得到该记录点对应的最大值校准结果;

在进行实际面部捕捉时,采集若干记录点的面部表情数据,并按照表情校准公式进行计算,得到该记录点对应的表情校准结果。

本发明与现有技术相对比,本发明具有以下优点:

在最小值校准时不需要在UE蓝图中逐个添加映射,最大值也不需要进行模型训练或手动调整,可直接对演员进行面部数据特征的采集并自动调整输出系数,校准过程操作简单、执行效率高、硬件成本低。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的一种基于iOS面部捕捉驱动数字人的校准方法的步骤图。

图2为本发明实施例提供的一种基于iOS面部捕捉驱动数字人的校准系统的结构图。

图3为本发明实施例提供的特殊表情最大幅度笑的示意图。

图4为本发明实施例提供的特殊表情向左看的示意图。

图5为本发明实施例提供的特殊表情向右看的示意图。

图6为本发明实施例提供的特殊表情最大幅度张嘴的示意图。

图7为本发明实施例提供的特殊表情向左撅嘴的示意图。

图8为本发明实施例提供的特殊表情向右撅嘴的示意图。

图9为本发明实施例提供的特殊表情皱眉的示意图。

图10为本发明实施例提供的特殊表情挑眉的示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。为了进一步了解本发明,下面结合最佳实施例对本发明作进一步的详细说明。

本发明的发明点是提供一种基于iOS面部捕捉驱动数字人的校准方法;所述方法包括以下步骤:

步骤1、采集演员面部放松时的若干记录点的面部表情数据,得到对应记录点的最小面部数据Vmin

步骤2、采集演员执行若干特殊表情时若干记录点的面部表情数据,得到对应记录点的最大面部数据Vmax

步骤3、在进行最小值校准时,采集若干记录点的面部表情数据VR

步骤4、在进行最大值校准时,采集若干记录点的面部表情数据VR

步骤5、在进行实际面部捕捉时,采集若干记录点的面部表情数据VR

本发明的另一方面是,提供一种基于iOS面部捕捉驱动数字人的校准系统;参考图2,所述校准系统包括以下模块:面部表情采集模块、数据校准模块、数据接口模块、参数配置模块。

所述校准系统各模块说明如下:

所述面部表情采集模块用于拍摄演员面部表情并获得若干记录点的面部表情数据;

所述数据校准模块用于对所采集的面部表情数据按照所述校准方法进行校准,得到校准后的面部表情数据(即表情校准结果);

所述数据接口模块用于所述校准系统与外部系统进行数据交互的模块;

所述参数配置模块用于对数据校准模块、数据接口模块进行参数配置。

作为一种实施例,所述记录点的总数为52个,对应的是借助虚幻引擎进行面部捕捉时需要的52个数据映射。

所述记录点的面部表情数据即为blendshape的值。

作为一种实施例,所述特殊表情包括以下8种特殊表情动作:最大幅度笑、向左看、向右看、最大幅度张嘴、向左撅嘴、向右撅嘴、皱眉及挑眉。

参考图3-10所示,分别为上述8种特殊表情动作的表情捕捉示意图。

作为一种实施例,所述最小值校准公式为:

VA

其中VA

作为一种实施例,所述最小值校准公式还可以是以下形式:

VA

其中VA

作为一种实施例,所述最大值校准公式为:

其中VB

作为一种实施例,所述最大值校准公式还可以是以下形式:

其中VB

作为一种实施例,所述表情校准公式为:

其中V

作为一种实施例,所述表情校准公式还可以是以下形式:

其中V

需要说明的是,γ

γ

其中α

作为一种实施例,所述面部表情数据借由iOS系统提供的ARKit面部捕捉方案及苹果深度摄像头进行采集。

作为一种实施例,本发明所述方法可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用计算机或任何其他类似硬件设备来实现。

本发明所述的方法可以软件程序的形式实施,所述软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,所述软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。

另外,本发明所述方法的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。

另外,本发明所述的方法的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本发明所述方法的程序指令,可被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。

作为一种实施例,本发明还提供一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述的多个实施例的方法和/或技术方案。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。

最后,需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

技术分类

06120116330268