掌桥专利:专业的专利平台
掌桥专利
首页

一种面向元宇宙的2D数字人生成方法及终端

文献发布时间:2024-04-18 20:02:18


一种面向元宇宙的2D数字人生成方法及终端

技术领域

本发明涉及人工智能技术领域,尤其涉及一种面向元宇宙的2D数字人生成方法及终端。

背景技术

元宇宙技术是一种基于区块链和虚拟现实技术的综合性技术,旨在构建一个虚拟的、可交互的数字世界。元宇宙技术通过将现实世界的信息和数字资产映射到虚拟世界中,创造出一个与现实世界相似的虚拟环境。用户可以在元宇宙中创建自己的数字身份,拥有自己的虚拟财产和虚拟资产。他们可以在虚拟世界中进行社交互动、参与虚拟经济活动、购买和销售虚拟商品等。

数字人是利用数字技术创造出来的、与人类形象接近的数字化人物形象。在实际应用中,元宇宙和数字人常常相互结合,共同创造出更加丰富和多样的虚拟体验。如现阶段,有些网络用户即利用数字人进行网络售货、新闻播报、科普讲解等等,且往往能够做到以假乱真。

数字人服务是一种将真人的外形、动作或声音等人物特征映射到数字人的软件服务,可以将真人的动态人物特征(包括外形、动作、声音等)在电子设备中通过数字人的形象进行再现。传统技术中,数字人服务的通常都是离线处理的,即预先编排好数字人的形象、行为以及活动场景等。如公告号为CN116828129B即提供了一种超清2D数字人生成方法及系统,该方案中,即通过拍摄一段真人视频片段,提取视频片段中采集对象的脸部数据,并通过映射关系到提前建好的数字模型上,形成数字人视频,其中的数字人的动作,特别是脸部、嘴型、唇形等动作与真人视频片段基本一致。但如上述的这种现有技术无法实现更加具有趣味性的、相对自然一点的交互体验。

因此,亟需提供一种面向元宇宙的2D数字人生成方法及终端,以解决上述技术问题。

发明内容

针对现有技术存在的问题,本发明提供了一种面向元宇宙的2D数字人生成方法及终端,可以实现动态的数字人的对外交互体验。

本发明的技术方案是这样实现的:

一种面向元宇宙的2D数字人生成方法,包括以下步骤:

S1、获取包含有真人对象的视频片段文件;

S2、利用对抗神经网络提取所述视频片段文件中的真人对象,建模并进行若干次训练,生成2D数字形象;

S3、从所述视频片段文件中提取音频片段;获取目标合成文本;根据所述音频片段和所述目标合成文本,生成语音对象;

S4、对所述2D数字形象和所述语音对象进行合成,生成虚拟数字人;

S5、获取交互请求,提取来自请求对象的交互内容;使用多模态交互算法,根据所述交互内容生成反馈内容;采用步骤S3、S4的方法,通过所述虚拟数字人向所述请求对象响应所述反馈内容。

作为以上方案的进一步优化,步骤S2中,所述对抗神经网络为Wav2Lip+GAN模型;其中,Wav2Lip提取所述视频片段文件的若干帧连续的图像,采集所述图像中的真人对象的唇形特征,得到嘴部动作序列。

作为以上方案的进一步优化,Wav2Lip+GAN模型包括生成器和判别器;步骤S2中的训练过程为:

所述生成器接收语音信号或语音文件并转换为文本,或接收并提取文本文件中的文本,再根据所述文本和所述嘴部动作序列生成嘴部动作;

所述判别器对比所述视频片段文件中的真实嘴部动作和生成的嘴部动作,得出评价结果;GAN网络根据所述评价结果优化所述生成器和所述嘴部动作序列。

作为以上方案的进一步优化,步骤S3中,包括以下步骤:

S31、从所述视频片段文件中提取由所述真人对象输出的音频片段;对所述音频片段进行MFCC提取,获得高维特征向量;从所述高维特征向量中进一步提取并得到代表所述真人对象声音特质的嵌入向量表征,作为音频特征向量;

S32、对所述目标合成文本进行分词处理,得到文本序列;所述文本序列包括词序列、字序列和字母序列;

S33、将所述文本序列转换为音素序列;对所述音素序列进行向量转换,得到语义嵌入表示向量;

S34、利用深度神经网络,将所述语义嵌入表示向量和所述音频特征向量合成为梅尔频谱图;

S35、将所述梅尔频谱图转换成时域波形样本,即为所述语音对象。

基于深度神经网络的文本到语音合成方法(TTS,即Text To Speech),仅需要输入30秒真人语音,即可训练语音、复刻语音模型。

作为以上方案的进一步优化,所述交互内容包括文本、图像、语音和视频;提取的交互内容转换为机器可识别的编码;其中,所述文本对应为文本编码,所述语音对应为语音编码,所述视频和所述图像对应为视觉编码。

作为以上方案的进一步优化,所述多模态交互算法的过程为,所述机器分析所述文本编码、所述语音编码和所述视觉编码中的一种或任意组合,结合知识库进行意图识别,得到反馈内容。

作为以上方案的进一步优化,所述机器将所述编码、意图识别结果和反馈内容发送并存储至所述知识库。

进一步补充知识库的数据,使反馈内容更加智能、精准,提高交互的自然性、准确性和满意度,为用户提供更好的体验和服务。

作为以上方案的进一步优化,当所述交互内容包括视频时,还提取所述视频中的音频信息,并将音频信息转换为文本;当所述交互内容包括语音时,还将语音转换为文本。文本信息来自输入的文本文件、语音文件和视频文件,更加全面的利用交互内容所携带的信息,以供算法识别判断并提供更加自然、人性化的反馈。

作为以上方案的进一步优化,语音信号、音频信息和语音文件转换文本的技术为ASR。ASR是指Automatic Speech Recognition,即自动语音识别,是一种将语音转换为文本的自然语言处理技术,其工作原理包括对输入的语音进行预处理、特征提取、声学建模、语言模型和文本识别。

本发明还提供了一种终端,包括存储多条指令的存储装置和用于执行所述存储装置中各指令的处理器,所述指令适用于所述处理器加载并执行如上述的一种面向元宇宙的2D数字人生成方法及终端。

与现有技术相比,本发明取得以下有益效果:

本发明提供了一种面向元宇宙的2D数字人生成方法及终端,通过具有包含真人对象的视频片段文件即可进行数字人AI建模,通过视频片段文件中的语音片段,即可提取真人对象的音频特征向量,再利用TTS技术,即可复刻生成与真人声音基本一致的音频对象;结合多模态交互算法和知识库可以使数字人与用户进行内容交互;本发明中只需用户提供交互内容,即可根据算法得到相应反馈,机器根据反馈实时生成数字人模型及其嘴型、动作和合成语音,响应快,且交互性强,数字人模型更加拟真自然。

附图说明

图1是本发明实施例提供的2D数字人生成方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本实施例提供了一种终端,包括存储多条指令的存储装置和用于执行所述存储装置中各指令的处理器,所述指令适用于所述处理器加载并执行一种面向元宇宙的2D数字人生成方法及终端,如图1所示,包括以下步骤:

S1、获取包含有真人对象的视频片段文件;

S2、利用对抗神经网络提取所述视频片段文件中的真人对象,建模并进行若干次训练,生成2D数字形象;在本实施例中,步骤S2中,所述对抗神经网络采用的是Wav2Lip+GAN模型;Wav2Lip+GAN模型包括生成器和判别器;其中,Wav2Lip提取所述视频片段文件的若干帧连续的图像,采集所述图像中的真人对象的唇形特征,得到嘴部动作序列。训练过程为:

所述生成器接收语音信号或语音文件并转换为文本,或接收并提取文本文件中的文本,再根据所述文本和所述嘴部动作序列生成嘴部动作;在本实施例中,采用ASR技术将语音信号、音频信息和语音文件转换文本。

所述判别器对比所述视频片段文件中的真实嘴部动作和生成的嘴部动作,得出评价结果;GAN网络根据所述评价结果优化所述生成器和所述嘴部动作序列。

S3、从所述视频片段文件中提取音频片段;获取目标合成文本;根据所述音频片段和所述目标合成文本,生成语音对象;具体步骤为:

S31、从所述视频片段文件中提取由所述真人对象输出的音频片段;对所述音频片段进行MFCC提取,获得高维特征向量;从所述高维特征向量中进一步提取并得到代表所述真人对象声音特质的嵌入向量表征,作为音频特征向量;

S32、对所述目标合成文本进行分词处理,得到文本序列;所述文本序列包括词序列、字序列和字母序列;

S33、将所述文本序列转换为音素序列;对所述音素序列进行向量转换,得到语义嵌入表示向量;

S34、利用深度神经网络,将所述语义嵌入表示向量和所述音频特征向量合成为梅尔频谱图;

S35、将所述梅尔频谱图转换成时域波形样本,即为所述语音对象。

基于深度神经网络的文本到语音合成方法(TTS,即Text To Speech),仅需要输入30秒真人语音,即可训练语音、复刻语音模型。

S4、对所述2D数字形象和所述语音对象进行合成,生成虚拟数字人;

S5、获取交互请求,提取来自请求对象的交互内容;在本实施例中,所述交互内容包括文本、图像、语音和视频;提取的交互内容转换为机器可识别的编码;其中,所述文本对应为文本编码,所述语音对应为语音编码,所述视频和所述图像对应为视觉编码。

在本实施例中,当所述交互内容包括视频时,还提取所述视频中的音频信息,并将音频信息转换为文本;当所述交互内容包括语音时,还将语音转换为文本。文本信息来自输入的文本文件、语音文件和视频文件,更加全面的利用交互内容所携带的信息,以供算法识别判断并提供更加自然、人性化的反馈。

使用多模态交互算法,所述机器分析所述文本编码、所述语音编码和所述视觉编码中的一种或任意组合,结合知识库进行意图识别,得到反馈内容;

在本实施例中,所述机器将所述编码、意图识别结果和反馈内容发送并存储至所述知识库。进一步补充知识库的数据,使反馈内容更加智能、精准,提高交互的自然性、准确性和满意度,为用户提供更好的体验和服务。

采用步骤S3、S4的方法,通过所述虚拟数字人向所述请求对象响应所述反馈内容。

根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

技术分类

06120116581814