掌桥专利:专业的专利平台
掌桥专利
首页

人脸关键点生成方法、装置、存储介质及电子设备

文献发布时间:2023-06-19 10:38:35


人脸关键点生成方法、装置、存储介质及电子设备

技术领域

本发明涉及计算机技术领域,具体涉及一种人脸关键点生成方法、装置、存储介质及电子设备。

背景技术

目前,虚拟形象合成可以应用在不同的场合,例如:在线教育过程中,由虚拟老师提供教学服务,不仅可以大大减轻教师的负担,还可以降低教学成本,比单纯的录播课等有更好的教学体验。除此之外,虚拟形象还可以应用在更广泛的场合中,例如:人工智能(Artificial Intelligence,AI)新闻主播、游戏、动画和应用程序等实际的商业场景中具有极大的商业价值。现有技术中对虚拟形象的合成,可以基于输入的声音数据,生成对应的嘴唇变化图像,以模拟说话时的嘴部动作,但现有合成的虚拟形象不够真实,降低了互动体验,现有的声音转关键点的虚拟形象技术完全依赖音频,对噪声环境下的声音,不同人的说话声的声音生成嘴唇变化图像的性能不够稳定。针对这一问题,亟待一种方法能够对输入的音频数据直接处理,并生成相应嘴部运动和面部表情自然变化的高质量虚拟形象。

发明内容

本申请实施例提供了一种人脸关键点生成方法、装置、存储介质及电子设备,可直接基于音频数据生成自然变化的虚拟形象,提高嘴部真实度。所述技术方案如下:

第一方面,本申请实施例提供了一种人脸关键点生成方法,包括:

对音频数据进行特征提取得到声音域特征;其中,所述声音域特征包括音素嘴型特征和声音编码特征;

对模板人脸进行特征提取得到人脸特征;

对人脸序列进行处理得到序列特征;其中,所述人脸序列包括角度序列约束特征和边界关键点约束特征;

将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征;

根据所述输入特征生成人脸关键点序列。

第二方面,本申请实施例提供了一种人脸关键点生成装置,所述装置包括:

第一提取模块,用于对音频数据进行特征提取得到声音域特征;其中,所述声音域特征包括音素嘴型特征和声音编码特征;

第二提取模块,用于对模板人脸进行特征提取得到人脸特征;

处理模块,用于对人脸序列进行处理得到序列特征;其中,所述人脸序列包括角度序列约束特征和边界关键点约束特征;

叠加模块,用于将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征;

生成模块,用于根据所述输入特征生成人脸关键点序列。

第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。

第四方面,本申请实施例提供了一种电子设备,包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适用于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括:

上述人脸关键点生成方法、装置、存储介质及电子设备工作时,对音频数据进行特征提取得到声音域特征,对模板人脸进行特征提取得到人脸特征,对人脸序列进行处理得到序列特征,将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征,根据所述输入特征生成人脸关键点序列。本申请实施例能够直接基于音频数据生成主要包括音素特征的相关特征,再进行处理得到自然变化的虚拟形象的人脸关键点相关信息,提高虚拟形象嘴部动作的真实度和流畅度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种通信系统架构示意图;

图2是本申请实施例提供的一种人脸关键点生成方法的流程示意图;

图3是本申请实施例提供的一种人脸关键点生成方法的另一流程示意图;

图4是本申请实施例提供的一种人脸关键点生成装置的结构示意图;

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述设计附图时,除非另有表示,不同附图中的相同数字表示相同的或相似的要素。以下示例性实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了解决上述提到的现有合成的虚拟形象不够真实,降低了互动体验,现有的声音转关键点的虚拟形象技术完全依赖音频,对噪声环境下的声音,不同人的说话声的声音生成嘴唇变化图像的性能不够稳定的问题,特提出了一种人脸关键点生成方法,本申请实施例方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系且安装有摄像头或可旋转摄像头的计算机系统上。该计算机系统可以是智能手机、笔记本电脑、平板电脑等设备的计算机系统。

图1为本申请提供的一种通信系统架构示意图。

请参见图1,通信系统01包括终端设备101、网络设备102、服务器103;当通信系统01包括核心网时,该网络设备102还可以与核心网相连。网络设备102还可以与互联网协议(Internet Protocol,IP)网络进行通信,例如,因特网(internet),私有的IP网,或其它数据网等。网络设备102为覆盖范围内的终端设备101和服务器103提供服务。用户可以使用终端设备101通过网络设备102与服务器103交互,以接收或发送消息等,终端设备101可以安装有各种通讯客户端应用,例如语音交互类应用、动画制作类应用等,服务器103可以是存储了本申请实施例提供的人脸关键点生成方法以及提供各种服务的服务器,用于对终端设备101上传的音频数据、模板人脸等文件检测存储和处理,并将处理结果发送给终端设备101。

在下述方法实施例中,为了便于说明,仅以各步骤的执行主体为计算机进行介绍说明。

下面将结合附图2至图3,对本申请实施例提供的人脸关键点生成方法进行详细介绍。

请参见图2,为本申请实施例提供了一种人脸关键点生成方法的流程示意图。所述方法可以包括以下步骤:

S201、对音频数据进行特征提取得到声音域特征。

一般的,所述声音域特征包括音素嘴型特征和声音编码特征,计算机首先标记音频数据中的音素和嘴型,其中,所述音素包括中文音素和英文音素,所述嘴型用嘴部张开大小表示,通过聚类算法对所述音素和所述嘴型进行分类得到分类结果,根据所述分类结果确定所述音素与所述嘴型的映射关系。之后计算机基于预设帧率计算在所述音频数据的时间区间上的中心位置,遍历所述时间区间提取所述中心位置前后预设长度的子时间区间内的梅尔倒谱系数MFCC声音特征,通过卷积神经CNN声音编码网络和全连接网络FC对所述MFCC声音特征进行处理得到声音编码特征。计算机再对所述音频数据进行处理得到音素序列,根据音素与嘴型的映射关系确定所述音素序列对应的嘴型特征,其中,所述嘴型特征与所述MFCC声音特征对齐,通过维度转换对所述嘴型特征进行处理得到音素嘴型特征,最后拼接所述声音编码特征和所述嘴型特征生成声音域特征。

S202、对模板人脸进行特征提取得到人脸特征。

一般的,人脸特征是指人脸关键点坐标信息特征,例如:计算机通过常见的人脸识别算法获取的81个人脸关键点坐标或者68个人脸关键点坐标。计算机识别数据集中模板人脸获取人脸关键点坐标信息,统计所述数据集中所有的所述人脸关键点坐标信息得到平均人脸关键点坐标信息,确定目标人脸关键点坐标信息,基于所述目标人脸关键点坐标信息和所述平均人脸关键点坐标信息得到初始输入特征,对所述初始输入特征进行处理得到人脸特征,所述数据集是指由用户提供的模板人脸集合,例如:人物人脸、动画人脸或虚拟形象等。

S203、对人脸序列进行处理得到序列特征。

一般的,所述人脸序列包括角度序列约束特征和边界关键点约束特征,用户可以实时人工设置或者选择已存储的现有模板,角度序列约束特征包括x,y两个方向的参数,边界关键点约束特征包括3个边界点参数。计算机获取角度序列约束特征和边界关键点约束特征,对所述角度序列约束特征进行处理得到角度序列约束序列,对所述边界关键点约束特征进行处理得到边界关键点约束序列,将所述角度序列约束序列和所述边界关键点约束序列进行叠加得到序列特征。

S204、将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征。

一般的,叠加是指将多个向量或者数组等集合融合为一个向量或者数组等集合,主要包括Cat叠加和Stack叠加,计算机可直接调用对应函数来进行处理。计算机将所述声音域特征、所述人脸特征和所述序列特征进行Cat叠加得到第一叠加特征,对所述第一叠加特征进行Stack叠加得到输入特征。Cat叠加可以理解为续接,不会增加维度,Stack叠加可以理解为叠加,会新加增加一个维度,增加的维度根据输入集合的维度来确定。

S205、根据所述输入特征生成人脸关键点序列。

一般的,所述人脸关键点序列包括序列大小与音频数据长度关联参数、人脸关键点个数和对应坐标。计算机对所述输入特征进行处理得到人脸关键点相关特征,通过多层全连接网络对所述人脸关键点相关特征进行处理得到人脸关键点序列,其中,所述所述对所述输入特征进行处理得到人脸关键点相关特征为使用长短期记忆(Long Short TermMemory,LSTM)神经网络。

由上述内容可知,对音频数据进行特征提取得到声音域特征,对模板人脸进行特征提取得到人脸特征,对人脸序列进行处理得到序列特征,将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征,根据所述输入特征生成人脸关键点序列。本申请实施例能够直接基于音频数据生成主要包括音素特征的相关特征,再进行处理得到自然变化的虚拟形象的人脸关键点相关信息,提高虚拟形象嘴部动作的真实度和流畅度。

请参见图3,为本申请实施例提供了一种人脸关键点生成方法的另一流程示意图。该人脸关键点生成方法可以包括以下步骤:

S301、标记音频数据中的音素和嘴型,通过聚类算法对所述音素和所述嘴型进行分类得到分类结果。

一般的,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素,所述音素包括中文音素和英文音素,所述嘴型用嘴部张开大小表示,例如:中文中的32个音素b、p、m、f...,英文中的48个音素,其中元音音素20个、辅音音素28个。计算机标记音频数据中的音素和嘴型,例如:标记出音频数据中的“普通话”的音素为p、u、t、o、ng、h、u、a,共8个音素,对应嘴型为2、28、9、24、22、21、28、23,其中嘴型2对应嘴部张开大小为1cm,嘴型28对应嘴部张开大小为2cm等,根据实际情况将嘴部张开大小分为10组为0-0.5cm、0.5cm-1cm,...,4.5cm-5cm,所以嘴型2在第2组,嘴型28在第4组等,计算机利用类别均值Kmeans等聚类算法,将音素按照嘴型的大小聚类为不同的分组,得到分类结果,例如:音素p、u、t在第1组,音素o、ng、h在第2组等。

S302、根据所述分类结果确定所述音素与所述嘴型的映射关系。

一般的,计算机得到分类结果后,根据所述分类结果确定所述音素与所述嘴型的映射关系,例如:音素p对应嘴型类别1,音素o对应嘴型类别2,音素u对应嘴型类别1等。

S303、基于预设帧率计算在所述音频数据的时间区间上的中心位置。

一般的,帧率是指以帧称为单位的位图图像连续出现在显示器上的频率/速率。计算机要基于音频数据生成人脸关键点序列,所述人脸关键点序列对应连续帧的人脸关键点坐标,因此需要先确定生成的虚拟形象视频的帧率,例如:确定帧率为每秒25帧,音频数据为3分钟,则生成视频有4500帧,每秒音频数据的MFCC特征数量是100个,1秒有100个MFCC特征与音频时长有关系,1秒有25个对应的生成的人脸,将100个MFCC特征分成25份,确定25份中各份的中心位置的MFCC特征为该生成的人脸的中心位置的特征。

S304、遍历所述时间区间提取所述中心位置前后预设长度的子时间区间内的梅尔倒谱系数MFCC声音特征,通过卷积神经CNN声音编码网络和全连接网络FC对所述MFCC声音特征进行处理得到声音编码特征。

一般的,预设长度的子时间区间是指生成的每一帧人脸图像对应的音频数据的时长,例如:预设长度的子时间区间为150ms。计算机确定所述音频数据的时间区间上的中心位置后,遍历所述时间区间提取所述中心位置前后预设长度的子时间区间内的梅尔倒谱系数MFCC声音特征,对所述MFCC声音特征进行处理得到声音编码特征,例如:将子时间区间内的音频数据提取其13维度的MFCC特征,MFCC的一阶导数特征(12维)、二阶导数特征(11维),Cat联合起来后组成36个MFCC相关维度的(1,36)维度的第一声音特征,遍历音频数据,得到中心位置前后对应时间共300ms对应的(30,36)维度的第二声音特征,利用卷积网络和全连接网络作为声音特征编码器对所述第二声音特征特征提取得到声音编码特征,其中,所述第一声音特征、所述第二声音特征用数组表示,所述声音编码特征用一维向量表示。

S305、对所述音频数据进行处理得到音素序列,根据音素与嘴型的映射关系确定所述音素序列对应的嘴型特征。

一般的,计算机根据自动语音识别(Automatic Speech Recognition,ASR)将音频数据标注为音素序列,或者自然语言处理(Natural Language Processing,NLP)在人机对话中生成的文字回答脚本或人为编辑的文字脚本中进行读取对齐处理得到的音素标注。其中所述音素序列包含音素类别、起始时间、截止时间等信息,根据音素与嘴型的映射关系确定所述音素序列对应的嘴型特征,例如:为与声音特征同步,计算机将音素按起始时间T0、截止时间T1,每0.01秒标记一次其嘴型类别,组成一个一维的嘴型特征数组,嘴型特征数组大小为(T1-T0)/0.01,同一音素的嘴型特征具有统一的嘴型类别编号。最后将该一维嘴型特征数组转换二维的one-hot嘴型特征数组,并与音频数据提取的MFCC声音特征对齐,其中,所述音素序列和嘴型特征用数组来表示。

S306、通过维度转换对所述嘴型特征进行处理得到音素嘴型特征,拼接所述声音编码特征和所述嘴型特征生成声音域特征。

一般的,计算机确定所述音素序列对应的嘴型特征后,直接将所述嘴型特征用one-hot特征一维化,得到顺序排列的一维嘴型特征,不需通过全连接神经网络进行处理,例如:转换前连续两个one-hot嘴型特征是[[0,1,0,…0,0],[0,0,…0,1]],维度转换后的嘴型特征是[0,1,0,…,0,0,0,0,…0,1],所述声音编码特征用MFCC声音特征通过多层全连接网络输出声音编码特征向量,然后和one-hot嘴型特征进行Cat连接,生成声音域特征,例如:得到声音编码特征为[0,1,2,3],嘴型特征为[4,5,6,7,8],则生成的声音域特征为[0,1,2,3,4,5,6,7,8]。其中,所述嘴型特征由二维的one-hot数组表示,所述音素嘴型特征和所述声音域特征用一维向量表示

S307、识别数据集中模板人脸获取人脸关键点坐标信息,统计所述数据集中所有的所述人脸关键点坐标信息得到平均人脸关键点坐标信息。

一般的,数据集是计算机中有用户预先提供的多份模板人脸的集合。计算机在识别数据集中模板人脸获取人脸关键点坐标信息之前,还包括:基于人脸检测算法检测原始图像数据集中人脸图像,获取检测结果文件,所述人脸检测算法包括人脸识别dlib人脸图像中提取关键点算法、用户预设的人脸关键点定位模型算法或者人工智能公开平台调用算法(如百度,旷世平台),解析所述检测结果文件生成模板人脸,其中,所述检测结果文件中的信息包括所述脸颊坐标、眉坐标、眼坐标、口坐标及鼻坐标的多个人脸关键点坐标。计算机得到声音特征之后,识别数据集中模板人脸获取人脸关键点坐标信息,统计所述数据集中所有的所述人脸关键点坐标信息得到平均人脸关键点坐标信息,例如:利用Dlib特征识别或深度网络等神经网络识别一号模板人脸中68个人脸关键点坐标信息为((73,25),(85,30),(90,34),...),识别二号模板人脸中68个人脸关键点坐标信息为((65,20),(87,32),(92,30),...),则平均人脸关键点坐标信息为((69,22.5),(86,31),(91,32),...)。

S308、确定目标人脸关键点坐标信息,基于所述目标人脸关键点坐标信息和所述平均人脸关键点坐标信息得到初始输入特征,对所述初始输入特征进行处理得到人脸特征。

一般的,计算机得到平均人脸关键点坐标信息后,确定目标人脸关键点坐标信息,基于所述目标人脸关键点坐标信息和所述平均人脸关键点坐标信息得到初始输入特征,对所述初始输入特征进行处理得到人脸特征,例如:计算机确定一号模板人脸中68个人脸关键点坐标信息((73,25),(85,30),(90,34),...)为目标人脸关键点坐标信息,将所述目标人脸关键点坐标信息减去所述平均人脸关键点坐标信息((69,22.5),(86,31),(91,32),...)后,得到初始输入特征可表示为((4,2.5),(-1,-1),(-1,2),...)。通过人脸关键点特征提取模块(由多层全连接网络组成)对所述初始输入特征进行处理得到人脸特征,其中,所述初始输入特征用数组表示,所述人脸特征用向量表示。

S309、获取角度序列约束特征和边界关键点约束特征,对所述角度序列约束特征进行处理得到角度序列约束序列。

一般的,所述人脸序列包括角度序列约束特征和边界关键点约束特征,用户可以人工设置或者选择模板,角度序列约束特征包括x,y两个方向的参数,边界关键点约束特征包括3个边界点参数,例如:角度序列约束特征为(30,60),30表示x坐标轴方向转动30度,60表示y坐标轴方向转动60度,边界关键点约束特征为((35,70),(55,120),(75,70)),表示生成人脸的左边界点、下边界点和右边界点三个点的坐标。计算机通过序列特征提取模块(由单层全连接网络组成)对所述角度序列约束特征维度(N,2)进行处理得到角度序列约束序列维度(N,12),其中,所述角度序列约束特征和所述边界关键点约束特征用数组表示,所述角度序列约束序列用向量表示。例如:对于连续N个人脸计算机得到所述角度序列约束特征维度为(N,2),2代表为角度x,y方向参数,通过序列特征提取模块(由多层全连接网络组成)后的角度序列约束序列维度为(N,12)。

S310、对所述边界关键点约束特征进行处理得到边界关键点约束序列,将所述角度序列约束序列和所述边界关键点约束序列进行叠加得到序列特征。

一般的,计算机得到角度序列约束序列后,通过序列特征提取模块(由单层全连接网络组成)对所述边界关键点约束特征进行处理得到边界关键点约束序列,其中,所述边界关键点约束序列用向量来表示,将所述角度序列约束序列和所述边界关键点约束序列进行叠加得到序列特征,例如:对于连续N个人脸计算机得到所述边界关键点约束序列为为(N,6),通过序列特征提取模块(由单层全连接网络组成)后的边界关键点约束序列维度为(N,36)。本例中的边界关键点约束序列与S309中的角度序列约束序列进行叠加得到序列特征为(N,48),所述序列特征用向量来表示。

S311、将所述声音域特征、所述人脸特征和所述序列特征进行Cat叠加得到第一叠加特征,对所述第一叠加特征进行Stack叠加得到输入特征。

一般的,所述声音域特征对应一帧生成人脸对应的声音域特征,所述人脸特征表示一帧生成人脸对应的人脸特征,所述序列特征表示一帧生成人脸对应的序列特征,例如:假设嘴型分类类别数C为32,则一帧生成人脸对应的所述声音域特征维度为(1,256+30*C)即(1,1216),所述人脸特征维度为(1,512),所述序列特征维度为(1,48),计算机将一个所述所述声音域特征、所述人脸特征和所述序列特征进行Cat叠加得到第一叠加特征,例如:N为大于1的整数,将N帧的所述声音域特征进行叠加得到维度为(N,1216)第一声音域叠加特征,将N帧的所述人脸特征进行叠加得到维度为(N,512)第一人脸叠加特征,将N帧的所述序列特征进行叠加得到维度为(N,8)第一序列叠加特征。计算机得到第一叠加特征后,对所述第一叠加特征进行Stack叠加得到输入特征,例如:第一声音域叠加特征维度为(N,1216),第一人脸叠加特征维度为(N,512),第一序列叠加特征维度为(N,48),计算机进行Stack叠加得到输入特征维度为(N,1776)。

S312、对所述输入特征进行处理得到人脸关键点相关特征,通过多层全连接网络对所述人脸关键点相关特征进行处理得到人脸关键点序列。

一般的,计算机得到输入特征后,使用长短期记忆LSTM神经网络对所述输入特征进行处理得到人脸关键点相关特征,其中,所述LSTM神经网络具有256个隐藏节点,3层,所述人脸关键点相关特征用向量表示。计算机得到人脸关键点相关特征后,通过多层全连接网络对所述人脸关键点相关特征进行处理得到人脸关键点序列,其中,所述人脸关键点序列包括序列大小与音频数据长度关联参数S、人脸关键点个数P和对应坐标N,N恒等于2,所述人脸关键点序列用数组(S,P,N)表示,例如计算机得到人脸关键点序列为(1,50,2),表示生成一帧人脸,生成人脸有50个人脸关键点以及每个人脸关键点的x、y轴坐标((125,75),(130,80),(140,83)...)。通过多层全连接网络对所述人脸关键点相关特征进行处理得到人脸关键点序列,编码后用(S,512)维度向量表示上述人脸特征,例如上述50个人脸关键点特征通过多层全连接网络后编码为(1,512)表示生成一帧人脸。

本申请实施例的方案在执行时,对音频数据进行特征提取得到声音域特征,对模板人脸进行特征提取得到人脸特征,对人脸序列进行处理得到序列特征,将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征,根据所述输入特征生成人脸关键点序列。本申请实施例能够直接基于音频数据生成主要包括音素特征的相关特征,再进行处理得到自然变化的虚拟形象的人脸关键点相关信息,提高虚拟形象嘴部动作的真实度和流畅度。

下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。

请参见图4,其示出了本申请一个示例性实施例提供的人脸关键点生成装置的结构示意图,以下简称生成装置4。生成装置4可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。包括:

第一提取模块401,用于对音频数据进行特征提取得到声音域特征;其中,所述声音域特征包括音素嘴型特征和声音编码特征;

第二提取模块402,用于对模板人脸进行特征提取得到人脸特征;

处理模块403,用于对人脸序列进行处理得到序列特征;其中,所述人脸序列包括角度序列约束特征和边界关键点约束特征;

叠加模块404,用于将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征;

生成模块405,用于根据所述输入特征生成人脸关键点序列。

可选地,所述第一提取模块401,还包括:

拼接单元,用于对音频数据进行特征提取得到声音编码特征;对所述音频数据进行处理得到音素嘴型特征;拼接所述声音编码特征和所述嘴型特征生成声音域特征。

遍历单元,用于基于预设帧率计算在所述音频数据的时间区间上的中心位置;遍历所述时间区间提取所述中心位置前后预设长度的子时间区间内的梅尔倒谱系数MFCC声音特征;通过卷积神经CNN声音编码网络和全连接网络FC对所述MFCC声音特征进行处理得到声音编码特征。

对齐单元,用于对所述音频数据进行处理得到音素序列;根据音素与嘴型的映射关系确定所述音素序列对应的嘴型特征;其中,所述嘴型特征与所述MFCC声音特征对齐;通过维度转换对所述嘴型特征进行处理得到音素嘴型特征。

分类单元,用于标记音频数据中的音素和嘴型;其中,所述音素包括中文音素和英文音素,所述嘴型用嘴部张开大小表示;通过聚类算法对所述音素和所述嘴型进行分类得到分类结果;根据所述分类结果确定所述音素与所述嘴型的映射关系。

可选地,所述第二提取模块402,还包括:

识别单元,用于识别数据集中模板人脸获取人脸关键点坐标信息;统计所述数据集中所有的所述人脸关键点坐标信息得到平均人脸关键点坐标信息;确定目标人脸关键点坐标信息,基于所述目标人脸关键点坐标信息和所述平均人脸关键点坐标信息得到初始输入特征;对所述初始输入特征进行处理得到人脸特征。

可选地,所述处理模块403,还包括:

获取单元,用于获取角度序列约束特征和边界关键点约束特征;对所述角度序列约束特征进行处理得到角度序列约束序列;对所述边界关键点约束特征进行处理得到边界关键点约束序列;将所述角度序列约束序列和所述边界关键点约束序列进行叠加得到序列特征。

可选地,所述叠加模块404,还包括:

合并单元,用于将所述声音域特征、所述人脸特征和所述序列特征进行Cat叠加得到第一叠加特征;对所述第一叠加特征进行Stack叠加得到输入特征。

可选地,所述生成模块405,还包括:

处理单元,用于对所述输入特征进行处理得到人脸关键点相关特征;通过多层全连接网络对所述人脸关键点相关特征进行处理得到人脸关键点序列;其中,所述人脸关键点序列包括序列大小与音频数据长度关联参数、人脸关键点个数和对应坐标。

本申请实施例和图2至图3的方法实施例基于同一构思,其带来的技术效果也相同,具体过程可参照图2至图3的方法实施例的描述,此处不再赘述。

所述装置4可以为实现相关功能的现场可编程门阵列(field-programmable gatearray,FPGA),专用集成芯片,系统芯片(system on chip,SoC),中央处理器(centralprocessor unit,CPU),图形处理器(Graphics Processing Unit,GPU),嵌入式神经网络处理器(Neural Network Processing Unit,NPU),张量处理器(Tensor Processing Unit,TPU)等类似的服务端和移动端的图像处理器、神经网络加速处理器,网络处理器(networkprocessor,NP),数字信号处理电路,微控制器(micro controller unit,MCU),还可以采用可编程控制器(programmable logic device,PLD)或其他集成芯片。

本申请实施例的方案在执行时,对音频数据进行特征提取得到声音域特征,对模板人脸进行特征提取得到人脸特征,对人脸序列进行处理得到序列特征,将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征,根据所述输入特征生成人脸关键点序列。本申请实施例能够直接基于音频数据生成主要包括音素特征的相关特征,再进行处理得到自然变化的虚拟形象的人脸关键点相关信息,提高虚拟形象嘴部动作的真实度和流畅度。

本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述的方法步骤,具体执行过程可以参见图2或图3所示实施例的具体说明,在此不进行赘述。

本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的模板的控制方法。

请参见图5,为本申请实施例提供了一种电子设备的结构示意图。如图5所示,所述电子设备5可以包括:至少一个处理器501,至少一个网络接口504,用户接口503,存储器505,至少一个通信总线502。

其中,通信总线502用于实现这些组件之间的连接通信。

其中,用户接口503可以包括显示屏(Display)、麦克风(Microphone),可选用户接口503还可以包括标准的有线接口、无线接口。

其中,网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中,处理器501可以包括一个或者多个处理核心。处理器501利用各种借口和线路连接整个终端500内的各个部分,通过运行或执行存储在存储器505内的指令、程序、代码集或指令集,以及调用存储在存储器505内的数据,执行终端500的各种功能和处理数据。可选的,处理器501可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责进行深度学习网络中所有张量运算,并负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器501中,单独通过一块芯片进行实现。

其中,存储器505可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器505可用于存储指令、程序、代码、代码集或指令集。存储器505可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示,作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及人脸关键点生成应用程序。

在图5所示的电子设备500中,用户接口503主要用于为用户提供输入的接口,获取用户输入的数据;而处理器501可以用于调用存储器505中存储的人脸关键点生成应用程序,并具体执行以下操作:

对音频数据进行特征提取得到声音域特征;其中,所述声音域特征包括音素嘴型特征和声音编码特征;

对模板人脸进行特征提取得到人脸特征;

对人脸序列进行处理得到序列特征;其中,所述人脸序列包括角度序列约束特征和边界关键点约束特征;

将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征;

根据所述输入特征生成人脸关键点序列。

在一个实施例中,处理器501执行所述对音频数据进行特征提取得到声音域特征,包括:

对音频数据进行特征提取得到声音编码特征;

对所述音频数据进行处理得到音素嘴型特征;

拼接所述声音编码特征和所述嘴型特征生成声音域特征。

在一个实施例中,处理器501执行所述对音频数据进行特征提取得到声音编码特征,包括:

基于预设帧率计算在所述音频数据的时间区间上的中心位置;

遍历所述时间区间提取所述中心位置前后预设长度的子时间区间内的梅尔倒谱系数MFCC声音特征;

通过卷积神经CNN声音编码网络和全连接网络FC对所述MFCC声音特征进行处理得到声音编码特征。

在一个实施例中,处理器501执行所述对所述音频数据进行处理得到音素嘴型特征,包括:

对所述音频数据进行处理得到音素序列;

根据音素与嘴型的映射关系确定所述音素序列对应的嘴型特征;其中,所述嘴型特征与所述MFCC声音特征对齐;

通过维度转换对所述嘴型特征进行处理得到音素嘴型特征。

在一个实施例中,处理器501执行所述对音频数据进行特征提取得到声音域特征之前,还包括:

标记音频数据中的音素和嘴型;其中,所述音素包括中文音素和英文音素,所述嘴型用嘴部张开大小表示;

通过聚类算法对所述音素和所述嘴型进行分类得到分类结果;

根据所述分类结果确定所述音素与所述嘴型的映射关系。

在一个实施例中,处理器501执行所述对模板人脸进行特征提取得到人脸特征,包括:

识别数据集中模板人脸获取人脸关键点坐标信息;

统计所述数据集中所有的所述人脸关键点坐标信息得到平均人脸关键点坐标信息;

确定目标人脸关键点坐标信息,基于所述目标人脸关键点坐标信息和所述平均人脸关键点坐标信息得到初始输入特征;

对所述初始输入特征进行处理得到人脸特征。

在一个实施例中,处理器501执行所述对人脸序列进行处理得到序列特征,包括:

获取角度序列约束特征和边界关键点约束特征;

对所述角度序列约束特征进行处理得到角度序列约束序列;

对所述边界关键点约束特征进行处理得到边界关键点约束序列;

将所述角度序列约束序列和所述边界关键点约束序列进行叠加得到序列特征。

在一个实施例中,处理器501执行所述将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征,包括:

将所述声音域特征、所述人脸特征和所述序列特征进行Cat叠加得到第一叠加特征;

对所述第一叠加特征进行Stack叠加得到输入特征。

在一个实施例中,处理器501执行所述根据所述输入特征生成人脸关键点序列,包括:

对所述输入特征进行处理得到人脸关键点相关特征;

通过多层全连接网络对所述人脸关键点相关特征进行处理得到人脸关键点序列;其中,所述人脸关键点序列包括序列大小与音频数据长度关联参数、人脸关键点个数和对应坐标。

本申请实施例的技术构思和图2或图3的技术构思相同,具体过程可参照图2或图3的方法实施例,此处不再赘述。

在本申请实施例中,对音频数据进行特征提取得到声音域特征,对模板人脸进行特征提取得到人脸特征,对人脸序列进行处理得到序列特征,将所述声音域特征、所述人脸特征和所述序列特征叠加生成输入特征,根据所述输入特征生成人脸关键点序列。本申请实施例能够直接基于音频数据生成主要包括音素特征的相关特征,再进行处理得到自然变化的虚拟形象的人脸关键点相关信息,提高虚拟形象嘴部动作的真实度和流畅度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

相关技术
  • 人脸关键点生成方法、装置、存储介质及电子设备
  • 人脸关键点检测方法、装置、电子设备及存储介质
技术分类

06120112623192