掌桥专利:专业的专利平台
掌桥专利
首页

语音驱动唇形生成方法、装置及存储介质

文献发布时间:2024-04-18 19:58:21


语音驱动唇形生成方法、装置及存储介质

技术领域

本申请涉及人工智能技术领域,尤其涉及一种语音驱动唇形生成方法、装置及存储介质。

背景技术

语音驱动唇形生成是一种先进的人工智能技术,用于通过语音输入生成高质量的唇形图像。通过语音驱动唇形生成技术,可以实现高度逼真的唇形动画,使虚拟角色或人工智能助理的口型与语音输入完美匹配。这种技术在电影、动画、虚拟现实、游戏、语音合成和人机交互等领域具有广泛的应用潜力。

数字人生动真实的说话能力是展现数字人表现力的关键要素,其中的核心问题是保持唇形和语音内容的同步性。现有的一些语音驱动唇形生成方法,使用深度神经网络来预测与音频输入相对应的嘴唇运动,但提取的唇部表观先验信息不够准确,导致唇形同步不准确。

发明内容

本申请实施例提供一种语音驱动唇形生成方法、装置及存储介质,用以解决现有技术中唇形同步的准确性低的技术问题。

第一方面,本申请实施例提供一种语音驱动唇形生成方法,包括:

将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征;

将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征;

基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形。

在一些实施例中,所述将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征,包括:

基于对比约束将运动信息从所述初始纹理特征中解耦;所述对比约束用于最大化具有相同识别码的每一人脸图像的纹理特征和每一人脸图像对应的成对图像的纹理特征的相似性;

计算所有人脸图像的解耦后的初始纹理特征的平均值,得到所述人脸图像的目标纹理特征。

在一些实施例中,所述方法还包括:

将多帧人脸图像输入至运动编码器中进行运动特征提取,得到每一人脸图像的初始运动特征;

将纹理信息从所述初始运动特征中解耦,得到所述人脸图像的目标运动特征;

判断能否根据所述人脸图像的目标纹理特征和所述人脸图像的目标运动特征还原人脸,并根据判断结果验证所述人脸图像的目标纹理特征的有效性。

在一些实施例中,所述将纹理信息从所述初始运动特征中解耦,得到所述人脸图像的目标运动特征,包括:

基于正交约束将纹理信息从所述初始运动特征中解耦;所述正交约束用于正交化每一人脸图像的纹理特征和运动特征;

确定所述人脸图像的目标运动特征为任一解耦后的初始运动特征。

在一些实施例中,所述基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形,包括:

获取所述人脸图像的表情特征并基于语音输入确定唇形运动特征;

基于所述人脸图像的目标纹理特征、所述人脸图像的表情特征和所述唇形运动特征生成人脸唇形。

在一些实施例中,所述基于所述人脸图像的目标纹理特征、所述人脸图像的表情特征和所述唇形运动特征生成人脸唇形,包括:

将所述人脸图像的表情特征和所述唇形运动特征进行特征融合,得到融合运动特征;

基于所述人脸图像的目标纹理特征和所述融合运动特征,利用生成对抗网络StyleGAN生成人脸唇形。

在一些实施例中,所述方法还包括:

根据所述人脸图像的目标运动特征对所述融合运动特征进行相似性约束。

第二方面,本申请实施例提供一种语音驱动唇形生成装置,包括:

第一获取模块,用于将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征;

第一解耦模块,用于将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征;

生成模块,用于基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形。

第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的语音驱动唇形生成方法。

第四方面,本申请实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的语音驱动唇形生成方法。

第五方面,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的语音驱动唇形生成方法。

本申请实施例提供的语音驱动唇形生成方法、装置及存储介质,通过纹理编码器获取每一人脸图像的初始纹理特征,并将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征,从而基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形,避免了运动信息对生成结果的影响,提升了唇形生成及同步的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音驱动唇形生成方法的流程示意图;

图2是本申请实施例提供的语音驱动唇形生成方法的示例场景的特征解耦框架图;

图3是本申请实施例提供的一种语音驱动唇形生成方法的示例场景的唇形生成框架图;

图4是本申请实施例提供的一种语音驱动唇形生成装置的结构示意图;

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

语音驱动唇形生成技术利用深度学习算法,将语音信号与唇形图像之间的复杂关系进行建模,并在生成唇形时实现高度的同步性。

现有的一些方法已经能做到语音驱动,例如,Wav2Lip是一种从音频输入和人脸的单个静止图像生成谈话头部视频的方法。它使用深度神经网络来预测与音频输入相对应的嘴唇运动,然而它仅能合成嘴部,并且分辨率较低。再例如,有的方法使用一种高分辨率的唇形运动生成模型,先对参考图像的特征图进行空间变形,以更好地保留高频细节。为了能够控制说话风格,StyleTalk从驱动音频中提取运动信息,从风格视频中提取风格信息提取其说话风格编码比如情绪,在合成说话唇形的同时能够控制说话的风格或者情绪。StyleTalker提出了基于对比学习的唇形判别器,提升了说话视频的唇形同步性,另外提出的自回归先验和条件顺序变分自编码器使其既可以使用视频驱动,也可以使用音频驱动。

然而以上方法都存在一个显著的问题,没有显式地把运动和表观解耦。由于唇形运动在人脸整体运动占比较低,细节表现容易在优化中被忽略,且已有算法中唇部的表观特征和运动特征的耦合,容易干扰到最终的唇形驱动效果。即在使用语音唇形同步算法时,提供唇部表观先验的输入图像中混杂了唇部运动状态信息,现有唇形同步算法在提取先验信息时没有将表观信息和运动信息进行解耦,从而影响了最终唇形同步的准确性。

基于上述技术问题,本申请实施例提出一种语音驱动唇形生成方法,通过纹理编码器获取每一人脸图像的初始纹理特征,并将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征,从而基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形,避免了运动信息对生成结果的影响,提升了唇形生成及同步的准确性。

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1是本申请实施例提供的语音驱动唇形生成方法的流程示意图,如图1所示,本申请实施例提供一种语音驱动唇形生成方法包括:

步骤101、将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征。

具体地,所述多帧人脸图像是同一个人的一段说话视频的不同帧对应的图像。所述纹理编码器用于提取人脸图像中的纹理特征。将多帧人脸图像输入纹理编码器中,输出每一人脸图像的初始纹理特征。

例如,获取同一个人的一段说话视频中第一帧至第t帧对应的图像,记为

步骤102、将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征。

具体地,在本申请实施例中,所述运动信息指人脸的表情、姿态等信息。将运动信息从所述初始纹理特征中解耦,从而得到几乎不包含运动信息的目标纹理特征。

可选地,由于帧间的运动信息是不同的,所以帧间相似约束能够尽可能避免纹理特征中包含运动信息,利用相似性度量的方法约束多帧人脸纹理编码的一致性,将运动信息从初始纹理特征中解耦,得到人脸图像的目标纹理特征。

例如,将多帧人脸图像

再例如,将多帧人脸图像

再例如,将多帧人脸图像

步骤103、基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形。

具体地,在获得人脸图像的目标纹理特征后,基于目标纹理特征利用语音输入驱动唇形生成。

例如,从语音输入中提取唇形运动特征,并根据人脸图像的除嘴唇以外的信息获取表情特征,然后将人脸图像的目标纹理特征、表情特征和唇形运动特征作为人脸生成器的输入,进行唇形的生成。

再例如,从语音输入中提取唇形运动特征,并根据人脸图像的除嘴唇以外的信息获取表情特征,然后基于人脸图像的目标纹理特征、表情特征和唇形运动特征,利用更加先进的生成对抗网络(Style Generative Adversarial Networks,StyleGAN)来进行唇形的生成。

本申请实施例提供的语音驱动唇形生成方法,通过将运动信息从所述初始纹理特征中解耦,只采用解耦后得到的目标纹理特征作为唇形生成的参考先验,避免了运动信息对生成结果的影响,提升生成唇形的准确性和鲁棒性、提高唇形同步的准确率。

在一些实施例中,所述将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征,包括:

基于对比约束将运动信息从所述初始纹理特征中解耦;所述对比约束用于最大化具有相同识别码的每一人脸图像的纹理特征和每一人脸图像对应的成对图像的纹理特征的相似性;

计算所有人脸图像的解耦后的初始纹理特征的平均值,得到所述人脸图像的目标纹理特征。

具体地,为了尽可能避免所述初始纹理特征中包含运动信息,基于对比约束将运动信息从所述初始纹理特征中解耦。所述对比约束是基于对比学习算法设计的,先为每一人脸图像确定一个与之相对应的成对图像,所述成对图像可以选择与人脸图像的纹理信息相同且运动信息不同的同一人(同一ID)的图像,也可以选择与人脸图像的纹理信息和运动信息相同的其他人(不同ID)的图像。

通过纹理编码器得到多个初始纹理特征对,每个初始纹理特征对包括一个人脸图像的初始纹理特征和该人脸图像对应的成对图像的初始纹理特征,即索引值相同的人脸图像的初始纹理特征和成对图像的初始纹理特征;然后通过最大化具有相同识别码(ID)的初始纹理特征对的相似性进行约束,实现将运动信息从所述初始纹理特征中的解耦。

然后计算所有人脸图像的解耦后的初始纹理特征的平均值,将该平均值作为人脸图像最终的目标纹理特征。

例如,图2是本申请实施例提供的语音驱动唇形生成方法的示例场景的特征解耦框架图,如图2所示,输入多帧人脸图像

再例如,输入多帧人脸图像

其中,L

通过上述对比约束将运动信息从所述初始纹理特征中解耦,然后将所有人脸图像的解耦后的初始纹理特征的平均值作为人脸图像的目标纹理特征。

本申请实施例提供的语音驱动唇形生成方法,基于对比学习设计对比约束对人脸图像的纹理特征进行相似性约束,尽可能避免该特征中包含运动信息,实现了运动信息从纹理特征中的解耦,使获得更为准确的目标纹理特征作为唇形生成的参考先验,提高唇形生成与同步的准确性。

在一些实施例中,所述方法还包括:

将多帧人脸图像输入至运动编码器中进行运动特征提取,得到每一人脸图像的初始运动特征;

将纹理信息从所述初始运动特征中解耦,得到所述人脸图像的目标运动特征;

判断能否根据所述人脸图像的目标纹理特征和所述人脸图像的目标运动特征还原人脸,并根据判断结果验证所述人脸图像的目标纹理特征的有效性。

具体地,所述运动编码器用于提取人脸图像的运动特征。将多帧人脸图像输入至运动编码器中进行运动特征提取,得到每一人脸图像的初始运动特征。然后,将纹理信息从运动特征中解耦,即避免运动特征中包含纹理信息。首先将多帧人脸图像输入至运动编码器中进行运动特征提取,得到每一人脸图像的初始运动特征,然后将纹理信息从所述初始运动特征中解耦,得到人脸图像的目标运动特征。

由于得到的所述人脸图像的目标运动特征以及目标纹理特征不一定具有完备性,比如目标纹理特征仅包含部分脸颊纹理信息,或者目标运动特征仅包含眉眼运动时,无法利用该目标纹理特征和目标运动特征成功还原人脸,则获取的目标运动特征以及目标纹理特征是无效的、无法使用的。

故在得到所述人脸图像的目标纹理特征以及目标运动特征后,还需要根据所述人脸图像的目标纹理特征和所述人脸图像的目标运动特征进行人脸还原,若还原成功,则表明目标运动特征以及目标纹理特征具有完备性和有效性,可以继续用于后续步骤。

例如,将所述人脸图像的目标纹理特征以及目标运动特征作为输入,利用人脸生成器判断能否成功还原人脸,若能成功还原人脸,则所述人脸图像的目标纹理特征以及目标运动特征是有效的;若还原人脸失败,则丢弃获得的人脸图像的目标纹理特征以及目标运动特征,并重新基于纹理编码器和运动编码器重新提取纹理特征和运动特征,并将纹理信息和运动信息进行解耦。

本申请实施例提供的语音驱动唇形生成方法,通过判断利用得到的目标纹理特征以及目标运动特征是否能够成功还原人脸,确定了目标纹理特征和目标运动特征是否具有完备性、是否是有效的,保障了人脸还原的有效性和成功率,并提高了唇形生成的准确性。

在一些实施例中,所述将纹理信息从所述初始运动特征中解耦,得到所述人脸图像的目标运动特征,包括:

基于正交约束将纹理信息从所述初始运动特征中解耦;所述正交约束用于正交化每一人脸图像的纹理特征和运动特征;

确定所述人脸图像的目标运动特征为任一解耦后的初始运动特征。

具体地,在得到运动编码器输出的每一人脸图像的初始运动特征之后,基于正交约束将纹理信息从运动特征中解耦,即使每一人脸图像的初始运动特征和对应的初始纹理特征尽可能正交(无关),以防止运动特征中包含纹理信息。

例如,如图2所示,输入多帧人脸图像

其中,L

在将纹理信息从初始运动特征中解耦后,选择任一解耦后的初始运动特征作为所述人脸图像的目标运动特征。

本申请实施例提供的语音驱动唇形生成方法,通过正交约束的方式将纹理信息从初始运动特征中解耦,获得准确的运动特征,为后续人脸的生成和唇形的生成提供了准确性的保障。

在一些实施例中,所述基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形,包括:

获取所述人脸图像的表情特征并基于语音输入确定唇形运动特征;

基于所述人脸图像的目标纹理特征、所述人脸图像的表情特征和所述唇形运动特征生成人脸唇形。

具体地,将所述人脸图像的目标纹理特征、所述人脸图像的表情特征和所述唇形运动特征作为人脸生成器的输入,实现唇形的生成。

其中,所述唇形运动特征是从语音输入中提取的。所述人脸图像的表情特征包含原所述人脸图像的眉眼表情和面部姿态信息。由于唇形生成只需要编辑嘴部,其他部位保持不变,因此将所述人脸图像的除嘴唇以外的信息作为输入,用于提供人脸姿态和眉眼表情等,获得所述人脸图像的表情特征。

例如,图3是本申请实施例提供的一种语音驱动唇形生成方法的示例场景的唇形生成框架图,如图3所示,基于人脸图像的目标纹理特征、人脸图像的表情特征和所述唇形运动特征,解码生成出对应的说话唇形。

其中,首先利用纹理编码器从人脸图像

将所述人脸图像的目标纹理特征、所述人脸图像的表情特征和所述唇形运动特征作为人脸生成器的输入,实现唇形的生成。

本申请实施例提供的语音驱动唇形生成方法,基于多种特征包括所述人脸图像的目标纹理特征、所述人脸图像的表情特征和所述唇形运动特征进行人脸唇形的生成,提升了生成唇形的准确性。

在一些实施例中,所述基于所述人脸图像的目标纹理特征、所述人脸图像的表情特征和所述唇形运动特征生成人脸唇形,包括:

将所述人脸图像的表情特征和所述唇形运动特征进行特征融合,得到融合运动特征;

基于所述人脸图像的目标纹理特征和所述融合运动特征,利用生成对抗网络StyleGAN生成人脸唇形。

具体地,先将所述人脸图像的表情特征和所述唇形运动特征进行特征融合,得到融合运动特征,然后将所述人脸图像的目标纹理特征和所述融合运动特征作为输入,采用先进的StyleGAN作人脸/唇形生成的模型进行唇形生成。

例如,将所述人脸图像的表情特征f

本申请实施例提供的语音驱动唇形生成方法,采用更加先进的StyleGAN生成模型作为最终的唇形生成器,能够得到高质量高分辨率的人脸图像,进一步提高唇形生成及同步的准确度。

在一些实施例中,所述方法还包括:

根据所述人脸图像的目标运动特征对所述融合运动特征进行相似性约束。

具体地,为降低训练的难度,还根据所述人脸图像的目标运动特征对所述融合运动特征进行相似性约束,以此来提升训练的收敛速度。

例如,先将所述人脸图像的表情特征f

本申请实施例提供的语音驱动唇形生成方法,根据所述人脸图像的目标运动特征对所述融合运动特征进行相似性约束,提升了训练的收敛速度,降低了训练难度。

图4是本申请实施例提供的一种语音驱动唇形生成装置的结构示意图,如图4所示,本申请实施例提供一种语音驱动唇形生成装置,包括第一获取模块401、第一解耦模块402和生成模块403。

所述第一获取模块401用于将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征。

所述第一解耦模块402用于将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征。

所述生成模块403用于基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形。

在一些实施例中,所述第一解耦模块包括:

第一解耦单元,用于基于对比约束将运动信息从所述初始纹理特征中解耦;所述对比约束用于最大化具有相同识别码的每一人脸图像的纹理特征和每一人脸图像对应的成对图像的纹理特征的相似性;

计算单元,用于计算所有人脸图像的解耦后的初始纹理特征的平均值,得到所述人脸图像的目标纹理特征。

在一些实施例中,还包括:

第二获取模块将多帧人脸图像输入至运动编码器中进行运动特征提取,得到每一人脸图像的初始运动特征;

第二解耦模块将纹理信息从所述初始运动特征中解耦,得到所述人脸图像的目标运动特征;

判断模块,用于判断能否根据所述人脸图像的目标纹理特征和所述人脸图像的目标运动特征还原人脸,并根据判断结果验证所述人脸图像的目标纹理特征的有效性。

在一些实施例中,所述第二解耦模块包括:

第二解耦单元,用于基于正交约束将纹理信息从所述初始运动特征中解耦;所述正交约束用于正交化每一人脸图像的纹理特征和运动特征;

确定单元,用于确定所述人脸图像的目标运动特征为任一解耦后的初始运动特征。

在一些实施例中,所述生成模块包括:

获取单元,用于获取所述人脸图像的表情特征并基于语音输入确定唇形运动特征;

生成单元,用于基于所述人脸图像的目标纹理特征、所述人脸图像的表情特征和所述唇形运动特征生成人脸唇形。

在一些实施例中,所述生成单元包括:

特征融合子单元,用于将所述人脸图像的表情特征和所述唇形运动特征进行特征融合,得到融合运动特征;

生成子单元,用于基于所述人脸图像的目标纹理特征和所述融合运动特征,利用生成对抗网络StyleGAN生成人脸唇形。

在一些实施例中,还包括:

约束子单元,用于根据所述人脸图像的目标运动特征对所述融合运动特征进行相似性约束。

具体地,本申请实施例提供的上述语音驱动唇形生成装置,能够实现上述语音驱动唇形生成方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

需要说明的是,本申请上述各实施例中对单元/模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

图5是本申请实施例提供的一种电子设备的结构示意图,如图5所示,所述电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行语音驱动唇形生成方法,该方法包括:

将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征;

将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征;

基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形。

具体地,处理器501可以是中央处理器(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD),处理器也可以采用多核架构。

存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在一些实施例中,还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法实施例提供的语音驱动唇形生成方法,该方法包括:

将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征;

将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征;

基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形。

具体地,本申请实施例提供的上述计算机程序产品,能够实现上述各方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

在一些实施例中,还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行上述各方法实施例提供的语音驱动唇形生成方法,该方法包括:

将多帧人脸图像输入至纹理编码器中进行纹理特征提取,得到每一人脸图像的初始纹理特征;

将运动信息从所述初始纹理特征中解耦,得到所述人脸图像的目标纹理特征;

基于所述人脸图像的目标纹理特征和语音输入生成人脸唇形。

具体地,本申请实施例提供的上述计算机可读存储介质,能够实现上述各方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

需要说明的是:所述计算机可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

另外需要说明的是:本申请实施例中术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。

本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。

本申请中的“基于A确定B”表示确定B时要考虑A这个因素。并不限于“只基于A就可以确定出B”,还应包括:“基于A和C确定B”、“基于A、C和E确定B”、基于“A确定C,基于C进一步确定B”等。另外还可以包括将A作为确定B的条件,例如,“当A满足第一条件时,使用第一方法确定B”;再例如,“当A满足第二条件时,确定B”等;再例如,“当A满足第三条件时,基于第一参数确定B”等。当然也可以是将A作为确定B的因素的条件,例如,“当A满足第一条件时,使用第一方法确定C,并进一步基于C确定B”等。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中,使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 语音遥控装置装置及方法、存储介质、电子装置
  • 一种语音学习方法、装置、语音设备及存储介质
  • 图像生成方法、装置,图像显示方法、装置和存储介质
  • 一种语音播报方法、装置、计算装置和存储介质
  • 语音处理方法及装置、家电设备、存储介质电子装置
  • 基于唇形的语音生成方法、装置和系统及存储介质
  • 唇形驱动模型的生成方法、装置、电子设备及存储介质
技术分类

06120116481586