掌桥专利:专业的专利平台
掌桥专利
首页

一种基于高斯泼溅方法的三维人脸生成与驱动方法

文献发布时间:2024-05-31 01:29:11


一种基于高斯泼溅方法的三维人脸生成与驱动方法

技术领域

本发明涉及视频处理和实时通讯领域,特别是涉及一种基于高斯泼溅方法的三维人脸生成与驱动方法。

背景技术

音频驱动的三维说话人脸,由于其多个视角可以观察的立体视觉特性,以及更加真实的视觉体验,在虚拟现实、增强现实以及立体视觉设备中不断得到应用,但是由于捕获三维人脸需要多个视角的图片视频来弥补空间信息不足的缺陷,于是使用带有拍照摄像功能的移动终端设备捕获三维人脸进行训练,并且实现音频实时驱动三维人脸具有重要意义。

近年来,随着针对三维人脸重建驱动技术的发展,人们已经不满足于简单地使用多个设备进行三维数据捕获的任务,对于使用带有拍照摄像功能的移动终端的三维信息捕获和驱动的需求日益增加,相应的应用也日益广泛,例如3D游戏中的虚拟数字人,或者具有深度捕获能力的相机来重建三维数字人和驱动数字人,这些应用的关键技术就是带有拍照摄像功能的移动终端三维重建与驱动技术。

带有拍照摄像功能的移动终端三维重建与驱动技术使用单个视频采集设备来采集单路视频序列,和之前的使用多个摄像机同时拍摄的多视点重建技术相比,由于缺少了其他相机带来的不同视角的信息补充,使用带有拍照摄像功能的移动终端三维重建降低了个人使用自己的手机、相机、摄像机等设备进行三维重建和驱动的门槛,但同时增加了缺乏其他视角信息的增益下如何提升三维表征的几何一致性以及音频驱动的困难。鉴于此,如何使用带有拍照摄像功能的移动终端设备提取的信息进行三维人脸重建与实时音频驱动成为了现有技术亟待解决的难题。。

首先,在现有技术中,实现三维人脸的实时渲染是一个挑战。由于三维渲染的计算复杂性较高,现有技术难以在保证渲染质量的同时实现实时性,这限制了三维人脸技术在实时通讯、虚拟现实等领域的应用。而且,在现有技术中,数据集的更新策略往往较为固定,无法根据实际需求进行灵活调整,这导致数据集的更新效率较低,无法满足实际应用中对数据集不断更新和优化的需求。此外,在现有技术中,当使用带有拍照摄像功能的移动终端设备进行视频采样时,如果人脸发生移动或晃动,存在人脸在驱动过程中的偏移问题,会导致后续渲染质量出现问题。

需要说明的是,在上述背景技术部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于克服上述背景技术的缺陷,提供一种基于高斯泼溅方法的三维人脸生成与驱动方法。

为实现上述目的,本发明采用以下技术方案:

一种基于高斯泼溅方法的三维人脸生成与驱动方法,包括如下步骤:

S1、从包含人脸图像的视频序列中提取待编码的帧和音频序列,预处理视频中的图像信息,并对音频进行编码处理;

S2、根据预处理的图像信息计算空间位置和人脸位置,构建空间点云及其特征并转换为高斯点云分布,然后将高斯点云转化为光栅化图像,以形成高斯泼溅空间;

S3、经过模型的训练,将音频编码的结果与高斯泼溅空间中的点的特征进行融合和对齐,从而将音频编码嵌入到高斯泼溅渲染的三维空间中,得到音频驱动高斯泼溅模型,以实现音频驱动三维人脸的说话和运动。

进一步地:

步骤S1中,根据脸部关键点及视频边框的位置和距离,按照人脸始终保持在视频的中心区域原则对视频边缘进行调整,使捕获的说话人脸位于视频的中心区域。

步骤S1中,调整视频的帧率、分辨率以及视频格式,与训练目标进行对齐。

步骤S2中,空间点云的特征包括位姿、颜色和透明度。

步骤S2中,根据当前说话人的面部特征和视点区域的相关性,预测其说话时面部的活动区域和范围,确定空间中虚拟相机和视角位姿,根据Structure from motions算法设置空间中高斯点的位置,将三维空间的点映射到高斯空间中,并使用设置好的高斯点的位置生成高斯函数,根据高斯函数生成所述光栅化图像。

步骤S3中,将音频编码的结果输入到高斯泼溅的空间中点的位置坐标、旋转和缩放尺度的特征上,使用音频来控制三维空间的高斯表征和调制方式,从而将音频编码的结果和高斯泼溅空间中点的特征进行融合和对齐。

步骤S3中,在三维人脸的生成与驱动过程中,引入文本和图片引导信息,添加逐阶段的文本和图片引导的数据集渐变生成效果,将文本和图片引导信息与空间点云进行融合,以指导三维人脸的生成和驱动;由此,实现文本和图片引导的三维生成框架与音频引导的三维驱动框架的结合。

步骤S3中,通过大语言模型将所述文本和图片编码为特征向量表示,在三维人脸的生成与驱动过程中,将文本和图像的特征向量与初始的三维人脸点云进行融合,在生成的不同阶段,让点云的数据集在特征向量的指导下,朝着文本和图像描述的方向进行调整和更新,在引导的不同阶段,文本和图像的特征向量指引点云从不同视角进行调整,以保证最终生成结果从多视角看与引导信息一致。

步骤S3中,通过逐阶段扩散模型来使用文本和图像的引导特征,在生成的不同阶段,让文本和图像的特征向量以“扩散”的方式渐进指导点云的修正。

所述方法还包括如下步骤:将生成的音频驱动的三维人脸与三维的人躯干上半身进行拼接,其中,将三维人脸的关键点与人躯干上半身的关键点进行对齐之后实现拼接。

一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现基于高斯泼溅方法的三维人脸生成与驱动方法。

本发明具有如下有益效果:

本发明提出一种基于高斯泼溅方法的三维人脸生成与驱动方法,可使用带有拍照摄像功能的移动终端设备拍摄人脸视频,使用高斯泼溅技术,将音频编码融合进入高斯泼溅的空间中,实现音频驱动人脸的良好表征,经过处理加速模型训练并实现音频驱动三维人脸,进一步地,还实现文本和图像编辑效果的多视角一致性,并且能够在不同设备上进行实时推理。

本发明实施例的优点主要有:

1)引入高斯泼溅模型在三维渲染方面,将音频编码之后,与高斯泼溅的空间中点进行融合,使得音频与三维高斯泼溅的空间进行对齐,利用高斯泼溅的可微光栅化渲染速度,实现实时性推理。

2)通过基于文本图片引导的逐阶段数据集更新策略,更新训练数据集,引入大语言模型的生成能力,调制生成效果,实现图片文本引导条件下的逐阶段数据集更新。

3)支持高保真、实时的音频驱动三维人脸生成与驱动,由于使用了高斯泼溅的加速效果和文本图片引导的渐进数据集更新方法,实现了高保真和实时的音频驱动的三维人脸合成效果。

4)在带有拍照摄像功能的移动终端设备采样视频过程中,提出人脸关键点检测的方式始终将脸型保持在视频区域的正中心,防止人脸在驱动过程中有较大的偏移,避免了脸移动和晃动导致后续渲染质量出现问题。

本发明可采用模块化的系统设计,并支持生成内容传输到移动设备上,与AR/VR设备无缝对接。

本发明实施例中的其他有益效果将在下文中进一步述及。

附图说明

图1A是本发明实施例的三维人脸生成与驱动方法训练流程图。

图1B是本发明实施例的三维人脸生成与驱动方法推理流程图。

图2是本发明实施例三维人脸生成与驱动方法的模块化示意图。

图3是本发明实施例的预处理模块的流程图。

图4是本发明实施例的音频驱动三维人脸模块的流程图。

图5是本发明实施例的音频实时驱动三维人脸推理生成模块的流程图。

图6是本发明实施例的信息处理与可视化呈现模块的流程图。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。

本发明实施例实现使用带有拍照摄像功能的移动终端音频驱动三维人脸的方案,在以下三个方面做出了优化:第一,在带有拍照摄像功能的移动终端便携设备采集人脸音频视频过程中,运行人脸关键点检测程序,确保人脸始终在视频的中心位置,避免人脸移动导致无法实现音频和三维人脸的对齐关系。第二,基于音频驱动三维人脸的方案,将音频经过编码之后映射到高斯泼溅的显式空间中,然后通过神经网络,实现音频驱动三维人脸。第三,使用渐进的逐阶段优化数据集的方式,将文本和图片引导内容用来优化高斯泼溅的三维场景,实现音频可驱动文本图片可生成的三维生成驱动效果。

本发明实施例可采用带有RGB视频拍摄功能的移动终端设备。相比于其他设备,RGB相机更加容易获得,例如手机前后摄像头或者电脑摄像头均是RGB相机,降低了三维人脸驱动设备的使用门槛。

带有拍照摄像功能的移动终端设备拍摄的RGB视频具有多种编码方式,例如具有MP4(MPEG-4Part 14),MOV(QuickTime封装格式),MKV(Matroska Video),AVI(Audio VideoInterleave),WMV(Windows Media Video),HEVC(High Efficiency Video Coding),,等视频格式,为了之后神经网络的训练,将视频统一处理成一致的格式,使用开源的FMMPEG(Fast Forward Mpeg,一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序)编码后输入到服务器端进行训练。针对在采集的过程中,由于视频中人脸以及上半身可能进行位置的小幅度或者大幅度的左右或者前后移动的问题,本发明实施例提出在采集视频过程中对于人脸进行关键点定位,以此在采集视频中将人脸关键点始终保持在视频中心,以此进行数据的对齐和裁剪。

为了进行音频驱动三维人脸,同时提升训练的速度,本发明实施例提出,将音频编码嵌入到高斯泼溅的空间中,利用高斯泼溅在三维空间中良好的显式表征能力以及快速的推理和训练速度。高斯泼溅是用于实时辐射场渲染的3D高斯分布描述的一种光栅化技术,它允许实时渲染从小图像样本中学习到的逼真场景。三维高斯泼溅(3D GaussianSplatting)方法具有良好新视角生成的能力,将音频进行编码之后输入到高斯泼溅的显式的空间中,可提升视觉捕获和音频驱动三维人脸的质量。本发明实施例将音频编码融合进入高斯泼溅的空间中,实现音频驱动人脸的良好表征。

本发明实施例进一步提出了图片文本引导生成编辑的三维说话人脸的方法。通过渐进的逐阶段的文本图片引导的三维人脸生成和驱动方法,逐阶段优化三维人脸引导生成的中间结果,逐阶段优化训练数据,实现了三维人脸的生成和音频驱动框架。

参阅图1至图6,本发明实施例提供一种基于高斯泼溅方法的三维人脸生成与驱动方法,包括如下步骤:

S1、从包含人脸图像的视频序列中提取待编码的帧和音频序列,预处理视频中的图像信息,并对音频进行编码处理;

S2、根据预处理的图像信息计算空间位置和人脸位置,构建空间点云及其特征并转换为高斯点云分布,然后将高斯点云转化为光栅化图像,以形成高斯泼溅空间;

S3、经过模型的训练,将音频编码的结果与高斯泼溅空间中的点的特征进行融合和对齐,从而将音频编码嵌入到高斯泼溅渲染的三维空间中,得到音频驱动高斯泼溅模型,以实现音频驱动三维人脸的说话和运动。

在优选的实施例中,步骤S1中,根据脸部关键点及视频边框的位置和距离,按照人脸始终保持在视频的中心区域原则对视频边缘进行调整,使捕获的说话人脸位于视频的中心区域。

在优选的实施例中,步骤S1中,调整视频的帧率、分辨率以及视频格式,与训练目标进行对齐。

在优选的实施例中,步骤S2中,根据当前说话人的面部特征和视点区域的相关性,预测其说话时面部的活动区域和范围,确定空间中虚拟相机和视角位姿,根据Structurefrom motions算法设置空间中高斯点的位置,将三维空间的点映射到高斯空间中,并使用设置好的高斯点的位置生成高斯函数,根据高斯函数生成所述光栅化图像。

在优选的实施例中,步骤S3中,将音频编码的结果输入到高斯泼溅的空间中点的位置坐标、旋转和缩放尺度的特征上,使用音频来控制三维空间的高斯表征和调制方式,从而将音频编码的结果和高斯泼溅空间中点的特征进行融合和对齐。

在优选的实施例中,步骤S3中,在三维人脸的生成与驱动过程中,引入文本和图片引导信息,添加逐阶段的文本和图片引导的数据集渐变生成效果,将文本和图片引导信息与空间点云进行融合,以指导三维人脸的生成和驱动;由此,实现文本和图片引导的三维生成框架与音频引导的三维驱动框架的结合。进一步优选,通过大语言模型将所述文本和图片编码为特征向量表示,在三维人脸的生成与驱动过程中,将文本和图像的特征向量与初始的三维人脸点云进行融合,在生成的不同阶段,让点云的数据集在特征向量的指导下,朝着文本和图像描述的方向进行调整和更新,在引导的不同阶段,文本和图像的特征向量指引点云从不同视角进行调整,以保证最终生成结果从多视角看与引导信息一致。更优选地,通过逐阶段扩散模型来使用文本和图像的引导特征,在生成的不同阶段,让文本和图像的特征向量以“扩散”的方式渐进指导点云的修正和完善。

以下进一步描述本发明具体实施例。

一种基于高斯泼溅方法的三维人脸生成与驱动方法,包括:人脸参数检测与人脸位置中心视频采集和预处理、音频引导的三维人脸驱动、逐阶段的文本图片引导三维生成与驱动等方面。

图1A和图1B分别示出了本发明实施例的三维人脸生成与驱动方法训练流程和推理流程。

预处理:

从采集的视频序列中提取待编码帧和音频序列,读取当前帧中的图像信息,计算脸部关键点,并对音频进行编码处理。

将当前的脸部关键点和视频边框计算位置和距离。按照人脸始终保持在视频的中心区域原则,将视频边缘进行裁剪和对齐,确保设备捕获的说话人脸位于视频区域的中心区域以便于后续模型的训练和构建。

将视频格式进行对齐,调整帧率和分辨率以及视频格式,与训练目标进行对齐。

音频驱动三维人脸的模型训练:

根据预处理的视频,计算空间位置和人脸位置,并构建空间中初始化空间点云。

根据空间点云,构建其位姿、协方差、颜色、透明度参数,转换为高斯分布,然后通过可微分高斯光栅化将高斯点云转化为图像,以形成高斯泼溅空间;其中,根据同一视点区域相关预测当前说话人脸说话区域和范围,确定空间中虚拟相机和视角位姿,根据Structure from motions算法设置空间中高斯点的位置,三维空间点通过Structure frommotions算法映射到高斯空间中,并使用设置好的高斯点的位置生成高斯函数,根据高斯函数生成光栅化图像。

通过训练,将音频经过编码之后,输入到高斯泼溅的空间中点的位置坐标,旋转和缩放尺度的特征上,使用音频来控制三维空间的高斯表征和调制方式,从而将音频编码的结果和高斯泼溅空间中点的特征进行融合和对齐,达到将音频编码嵌入到高斯泼溅渲染的三维空间中,以实现音频驱动的三维人脸进行说话和运动;训练过程中计算损失、调整高斯参数、以及自动密集化和修剪,实现模型的优化。

进一步地,将文本和图像作为额外的条件信息输入,通过大语言模型来编码文本描述和图像内容,得到相应的特征向量表示。在三维人脸的生成与驱动过程中,将文本和图像的特征向量与初始的三维人脸点云进行融合,引导点云的逐步修正和完善。即在生成的不同阶段,让点云的数据集在特征向量的指导下,朝着文本和图像描述的方向进行调整和更新。在引导的不同阶段,文本和图像的特征向量指引点云从不同视角进行调整,以保证最终生成结果从多视角看与引导信息一致。通过逐阶段扩散模型来使用文本和图像的引导特征。也就是说,在生成的不同阶段,让特征向量以“扩散”的方式渐进指导点云的修正,而不是一步到位地生硬调整。这样可以使生成过程更平滑自然。综上,通过逐步融合多源异构信息,让文本和图像的语义内容逐渐被三维点云吸收,从而实现语义级的精细化控制,使最终生成的三维人脸更符合条件信息的要求。这种融合语音、文本、图像多源信息的生成框架,可以产生更高质量、更可控的三维人脸。

进一步地,可以将训练的模型生成的音频驱动的三维人脸与三维人的躯干上半身进行拼接。通过提取关键点,将三维人脸的关键点与躯干上半身的关键点进行对齐之后拼接。

根据音频驱动的三维人脸驱动模式和融合方式,可得到训练好的神经网络参数文件。

音频实时驱动三维人脸推理生成:

将训练得到的神经网络参数文件导入之后,可以进行音频实时驱动三维人脸推理生成。

输入移动终端RGB相机实时捕获的视频和驱动音频,利用高斯泼溅的三维渲染,实现音频驱动三维人脸实现32FPS的实时驱动效果。

根据输入指令,实现音频三维人脸驱动不同视角可视化验证效果,针对于用户需要的AR/VR等设备需求,提取输入的视角位姿,进行定向渲染,实现不同视角可视化效果。

图2示出了三维人脸生成与驱动方法的模块化表示,包括:预处理模块201、音频驱动三维人脸模块202(训练部分)、音频实时驱动三维人脸推理生成203以及信息处理与可视化设备呈现204。

如图3所示,预处理模块包括:

301、设备备读取与编码:使用带有拍照摄像功能的移动终端从读入的视频序列中提取待编码帧和音频序列,使用开源算法DeepSpeech,Wav2Vec,HuBERT等算法对音频进行编码处理,同时对训练数据视频序列里面的人眼的眨眼通过开源代码OpenFace进行提取。

302、人脸关键点提取与对齐:将人脸的关键点进行提取,结合视频的边框,实现人脸关键点对齐之后的边缘调节,确保输入视频数据中人脸始终处于视频中心区域。

303、视频流帧率分辨率处理:对输入视频流进行帧率、分辨率转换,为了规范数据的格式,也是因为模型已经确定了神经网络的输出输出的维度,所以需要对于输入的视频进行帧率和格式的变化,将原始视频流处理为每秒25帧,分辨率调整为450x450像素。

如图4所示,音频驱动三维人脸生成模块包括如下二个部分:

401、建立高斯泼溅音频人脸融合对齐:基于高斯泼溅框架,建立音频驱动下的人脸形变空间。将经过运动结构恢复(SfM:Structure from Motion)方法初始化的空间点映射到高斯空间中,将音频经过编码的结果与高斯泼溅的点的特征如坐标进行融合和对齐,实现音频驱动三维人脸与高斯泼溅方法结合起来。

402、图片文本引导数据集逐阶段渐进更新:在驱动过程中,将输入的文本和图像编码经过大语言模型输出得到相应向量,让这些文本编码的向量逐阶段的引导三维人脸音频编码数据集的数据更新,也就是说让数据集在生成过程中逐步的更新到文本和图片所描述的样子,实现文本图片引导的三维生成框架与音频引导的三维驱动框架的结合。

如图5所示,音频实时驱动三维人脸推理生成模块包括如下三个部分:

501、加载保存的网络参数:训练结束神经网络参数信息导入,加载保存的网络参数。该模型具体包括:(1)高斯泼溅的模型(2)音频编码与高斯泼溅点融合的模型(3)逐阶段文本图像引导生成模型。导入于GPU显存中,准备部署推理。

502、接收来自麦克风或其他源的实时音频流,以及用户想要得到的文本和图像描述,传输到服务器端,模型的训练过程在服务器端,模型展示结果需要在服务器处理之后,传输到移动端。将音频进行处理和嵌入编码,实现语音的快速特征化,作为神经网络的条件输入驱动面部运动。

503、多视角渲染实时推理。用户可以自定义相机的参数:位置、视角、镜头等,生成对应视角下的脸部序列。提取视角特征,与音频嵌入编码一起输入到模型中,实现精确的音频-视角对齐,从而稳定地输出任意视点下的语音驱动效果。

如图6所示,信息处理与可视化设备呈现包括如下二个部分:

601、信息编码呈现。服务器端生成语音驱动的三维数字人脸序列后,需要传输给各类客户端终端进行信息呈现。待传输的视频流,先采用H.264等编解码方案进行高效压缩编码,减少传输带宽需求。然后通过网络传输接口(例如5G、WiFi),实时可靠地发送视频数据。

602、设备呈现。对于普通的个人智能设备,收到传输的视频数据流后,利用内置解码器取得原始RGB图像。直接在面板或屏幕上按帧展示,用户可以看到语音驱动下连续的说话数字人脸。对接增强现实/虚拟现实设备,除解码外,额外引入立体渲染流程:(1)解析传入额外的相机参数,提取左右眼视角(2)模拟双目间隔拍摄,生成异视差图像对(3)分别在左右显示器渲染,佩戴设备后用户感受逼真3D效果。

综上所述,本发明实施例的重要改进点包括:1、带有拍照摄像功能的移动终端视频捕获与数据处理,通过捕获的人脸关键点参数捕获调整视频裁剪区域和调整帧率;2、构建音频驱动三维说话人脸的模型框架,使用高斯泼溅方法驱动人脸动态说话:3、图片文本引导的高斯泼溅模型,逐阶段更新数据集优化高斯泼溅点。

本发明可应用于带有拍照摄像功能的移动终端视频数据处理,通过音频驱动三维人脸的算法,实现从带有拍照摄像功能的移动终端设备中处理对齐人脸视频,经过神经网络对齐音频和高质量几何一致的三维人脸,并且可以实现实时音频驱动和图片文本编辑三维人脸,有效提升逼真度和音频嘴型对应关系。

与现有技术相比,本发明实施例的优点主要有:

1)引入高斯泼溅模型在三维渲染方面,将音频编码之后,与高斯泼溅的空间中点进行融合,使得音频与三维高斯泼溅的空间进行对齐,利用高斯泼溅的可微光栅化渲染速度,实现实时性推理。

2)通过基于文本图片引导的逐阶段数据集更新策略,更新训练数据集,引入大语言模型的生成能力,调制生成效果,实现图片文本引导条件下的逐阶段数据集更新。

3)支持高保真、实时的音频驱动三维人脸生成与驱动,由于使用了高斯泼溅的加速效果和文本图片引导的渐进数据集更新方法,实现了高保真和实时的音频驱动的三维人脸合成效果。

4)在带有拍照摄像功能的移动终端设备采样视频过程中,提出人脸关键点检测的方式始终将脸型保持在视频区域的正中心,防止人脸在驱动过程中有较大的偏移,避免了脸移动和晃动导致后续渲染质量出现问题。

本发明可采用模块化的系统设计,并支持生成内容传输到移动设备上,与AR/VR设备无缝对接。

本发明实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时至少执行如上所述的方法。

本发明实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时至少执行如上所述的方法。

本发明实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如上所述的方法。

所述存储介质可以由任何类型的非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。

本发明所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。

本发明所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

相关技术
  • 一种人脸三维图像生成方法、装置和可读介质
  • 基于3D高斯泼溅的点云数据生成方法、装置、设备及介质
  • 基于线性注意力机制的语音驱动三维人脸动画生成方法和装置
技术分类

06120116627008