一种音视频的生成方法、装置、设备及存储介质

文献发布时间：2024-04-18 19:58:53

技术领域

本发明涉及人工智能领域，尤其涉及一种音视频的生成方法、装置、设备及存储介质。

背景技术

随着人工智能技术的快速发展，人机对话也从曾经的不可想象变为了一种现实，并且呈现形式越来越多样化。一种人机对话的呈现形式是通过构建的数字人形象对用户的语音进行回复，数字人形象可以随着回复内容做出对应的口型和肢体动作。但这种数字人口型变化和肢体动作的视频片段都是在后端生成，再将生成的视频片段和回复语音传送至前端进行播放，这种方式需要较大的网络频宽，同时对于网络质量要求较高，难以同时支持过多用户使用，且要生成高分辨率的视频对于后端服务器效能具有极高要求。因此如何减小网络频宽的需求和后端服务器的效能需求，使数字人部署更容易、更能被广泛推广使用是一个亟需解决的问题。

发明内容

本申请实施例所要解决的技术问题在于，提供一种音视频的生成方法、装置、设备及存储介质，实现了减小网络频宽的需求和后端服务器的效能需求，使数字人部署更容易、更能被广泛推广使用。

第一方面，本申请实施例提供了一种音视频生成方法，包括：

获取针对采集到的语音数据反馈的回复语音数据和回复语音数据包含的一个或者多个音素；

获取各个音素对应的口型调整参数；其中，口型调整参数用于指示：数字人的口型由预设口型调整为相应音素对应的口型所需的调整参数；

基于一个或者多个音素中每两个相邻音素对应的口型调整参数，生成每两个相邻音素对应的视频片段；其中，视频片段用于表征每两个相邻音素中前一个音素对应的口型变化至后一个音素对应的口型；

按照一个或者多个音素在回复语音数据中的时序，将每两个相邻音素对应的视频片段进行拼接，得到与回复语音数据匹配的数字人视频；

基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频。

可见，本申请实施例中，获取针对采集到的语音数据反馈的回复语音数据和回复语音数据包含的一个或者多个音素，由于一个音素对应一个口型调整参数，可以获取各个音素对应的口型调整参数，基于音素中每两个相邻音素对应的口型调整参数，在前端生成该每两个相邻音素对应的视频片段，按照音素在回复语音数据中的时序，将该每两个相邻音素对应的视频片段进行拼接，得到与回复语音数据匹配的数字人视频，基于该数字人视频和回复语音数据构建音视频，并播放该音视频。因此该音视频的生成可以直接在前端完成，可以减小网络频宽的需求和后端服务器的效能需求，使数字人部署更容易、更能被广泛推广使用。

在一种可选的实施方式中，基于一个或者多个音素中每两个相邻音素对应的口型调整参数，生成每两个相邻音素对应的视频片段，包括：

获取所述每两个相邻音素中前一个音素至后一个音素的发声时长；

确定所述每两个相邻音素对应的视频片段的视频时长与所述发声时长相同；

基于所述视频时长，确定所述视频片段包含的图像帧的数量；其中，所述视频片段包含的图像帧的数量与所述视频时长呈正相关趋势；

基于所述视频片段包含的图像帧的数量，生成所述视频片段包含的多帧图像；其中，所述多帧图像中的第一帧图像包含的数字人的口型指的是所述前一个音素对应的口型，所述多帧图像中的最后一帧图像包含的数字人的口型指的是所述后一个音素对应的口型；

将所述多帧图像进行拼接，得到所述每两个相邻音素对应的视频片段。

在一种可选的实施方式中，基于所述一个或者多个音素中每两个相邻音素对应的口型调整参数，生成所述每两个相邻音素对应的视频片段，包括：

获取所述每两个相邻音素中前一个音素至后一个音素的发声时长；

基于所述发声时长和预设口型调整时间段，确定口型调整步长；

生成所述前一个音素对应的目标图像；其中，所述前一个音素对应的目标图像包含的数字人的口型指的是所述前一个音素对应的口型；

基于所述口型调整步长，对所述前一个音素对应的口型进行调整，得到目标图像，所述目标图像包含的数字人的口型指的是：由所述前一个音素对应的口型变化得到的口型；

基于所述口型调整步长，对上一个变化得到的口型进行调整，得到另一个目标图像；

若最近得到的目标图像包含的数字人的口型与所述后一个音素对应的口型相同，则将各个目标图像进行拼接，得到所述每两个相邻音素对应的视频片段。

在一种可选的实施方式中，基于一个或者多个音素中每两个相邻音素对应的口型调整参数，生成所述每两个相邻音素对应的视频片段，包括：

生成所述前一个音素对应的目标图像；其中，所述前一个音素对应的目标图像包含的数字人的口型指的是所述前一个音素对应的口型；

基于所述每两个相邻音素中前一个音素对应的口型调整参数，生成中间图像，所述中间图像包含的数字人的口型指的是：由所述前一个音素对应的口型变化至目标口型，所述目标口型与所述预设口型的相似度达到预设相似度阈值；

生成所述后一个音素对应的目标图像；其中，所述后一个音素对应的目标图像包含的数字人的口型指的是所述后一个音素对应的口型；

将所述前一个音素对应的目标图像、所述中间图像以及所述后一个音素对应的目标图像进行拼接，得到所述每两个相邻音素对应的视频片段。

在一种可选的实施方式中，该方法还包括：

采集目标对象的语音数据；

与服务器进行交互，以使所述服务器对所述语音数据对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据；

获取所述回复文本数据对应的回复语音数据。

在一种可选的实施方式中，回复语音数据的语言类型与所述采集到的语音数据的语言类型一致；

获取各个音素对应的口型调整参数，包括：

获取所述回复语音数据的语言类型；其中，所述语言类型为所述目标对象指定的语言类型；

获取在所述语言类型下，所述各个音素对应的口型调整参数。

第二方面，本申请实施例提供了一种音视频的生成装置，该装置包括：

获取单元，用于获取针对采集到的语音数据反馈的回复语音数据和所述回复语音数据包含的一个或者多个音素；

所述获取单元，还用于获取各个音素对应的口型调整参数；其中，所述口型调整参数用于指示：数字人的口型由预设口型调整为相应音素对应的口型所需的调整参数；

生成单元，用于基于所述一个或者多个音素中每两个相邻音素对应的口型调整参数，生成所述每两个相邻音素对应的视频片段；其中，所述视频片段用于表征所述每两个相邻音素中前一个音素对应的口型变化至后一个音素对应的口型；

拼接单元，用于按照所述一个或者多个音素在所述回复语音数据中的时序，将所述每两个相邻音素对应的视频片段进行拼接，得到与所述回复语音数据匹配的数字人视频；

播放单元，用于基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频。

第三方面，本申请实施例提供了一种计算机设备，该计算机设备包括存储器、通信接口以及处理器，其中，存储器、通信接口和处理器相互连接；存储器存储有计算机程序，处理器调用所述存储器中存储的计算机程序，用于实现上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面的方法。

第五方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第六方面，本申请实施例提供了一种计算机程序，该计算机程序包括计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行上述第一方面所述的方法。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本申请实施例提供的一种音视频生成方法的系统架构示意图；

图2是本申请实施例提供的一种音视频生成方法的流程图；

图3是本申请实施例提供的一种各个音素与口型的对应关系示意图；

图4是本申请实施例提供的一种生成该每两个相邻音素对应的视频片段的流程图；

图5是本申请实施例提供的另一种生成该每两个相邻音素对应的视频片段的流程图；

图6是本申请实施例提供的一种口型转换示意图；

图7是本申请实施例提供的一种音视频生成方法的应用架构图；

图8是本申请实施例提供的一种音视频的生成装置示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

请参见图1，图1是本申请实施例提供的一种音视频生成方法的系统架构示意图。如图1所示，该系统可以包括前端和后端，其中，该前端包括至少一个扬声器和至少一个麦克风，该前端可以是任意终端设备、客户端或者浏览器等，本申请实施例提供的音视频生成方法在前端执行。

该音视频生成方法可以应用于人机对话中，示例性的，可以采集目标对象的语音，在后端服务器运用人工智能技术对该目标对象的语音进行回复，再在客户端由该音视频生成方法实时生成包含数字人的音视频，向该目标用户播放，该音视频包含的数字人口型与回复内容对应。

该音视频生成方法可以参见图2，图2是本申请实施例提供的一种音视频生成方法的流程图，如图2所示。

S201、获取针对采集到的语音数据反馈的回复语音数据和回复语音数据包含的一个或者多个音素。

在一种实施方式中，得到目标对象授权同意后，可以通过麦克风采集目标对象的语音数据，与服务器进行交互，以使该服务器对该语音数据对应的文本数据进行分析处理，生成该文本数据对应的回复文本数据，获取该回复文本数据对应的回复语音数据。前端基于该服务器发送的回复语音数据，可以识别提取该语音数据包含的音素。

上述语音数据对应的文本数据可以通过智能语音识别技术(Automatic SpeechRecognition,ASR)技术得到；该文本数据对应的回复文本数据可以通过人工智能模型得到，如ChatGPT模型；获取该回复文本数据对应的回复语音数据可以通过文本转语音（Text-to-Speech，TTS）模型得到，该文本转语音模型可以包括基于循环神经网络（RecurrentNeural Network，RNN）的TTS模型，如Tacotron和Tacotron 2，基于变分自编码器（Variational Auto-Encoders，VAE）的TTS模型，如Deep Voice和Deep Voice 2等。

在另一种实施方式中，服务器可以对该语音数据对应的文本数据进行分析处理，生成该文本数据对应的回复文本数据，同时获取该回复文本数据对应的回复语音数据和该回复语音数据包含的音素，再将该回复语音数据和该回复语音数据包含的音素发送至前端。

S202、获取各个音素对应的口型调整参数。

其中，音素是语音的最小发音单位，一个字或词的发音由一至多个音节与声调组成。其中声调的呈现是看不到的、与口形无关。而一个音节由一至多个音素组成，一个音素对应一个口形，请参见图3，图3是本申请实施例提供的一种各个音素与口型的对应关系示意图。口型调整参数可以用于指示：该音视频包含的数字人的口型由预设口型调整为相应音素对应的口型所需的调整参数。该数字人的预设口型可以在该数字人的形象初始化时设置得到，示例性的，该预设口型可以为闭嘴口型，或者微笑口型等，该数字人的形象可以为3D形象。

进一步的，不同语言类型的音素不完全相同。例如，英语中大约有 40 多个音素，而日语中有约 100 个音素。这些音素可以通过不同的语音学特征（如发音部位、发音方式和声音的声调）来描述和区分。虽然不同语言类型的音素可能有一些共同之处，但它们也会有独特的音素。这是因为不同语言类型对声音的感知和表达方式有所不同，导致它们使用不同的音素来表示语音。例如，某些语言可能有特定的辅音或元音，而其他语言可能没有。

在一种实施方式中，可以获取回复语音数据的语言类型，基于该语言类型，获取在该语言类型下的各个音素对应的口型调整参数，该语言类型可以由目标对象指定得到。示例性的，目标对象可以指定英语作为回复语音数据的语言类型，该音视频生成方法获取该用户指定的回复语音数据的语言类型为英语，基于该英语语言类型，获取英语的各个音素对应的口型调整参数。

在另一种实施方式中，回复语音数据的语言类型与采集到的目标对象的语音数据的语言类型一致，可以获取采集到的目标对象语音数据或者该回复语音数据的语言类型，基于该获取的语言类型，获取在该语言类型下的各个音素对应的口型调整参数。示例性的，由于预设回复语音数据的语言类型与采集到的目标对象的语音数据的语言类型一致，目标对象的语音数据的语言类型为中文，该音视频生成方法可以获取该目标对象的语音数据的语言类型为中文，或者针对该目标对象的语音数据反馈的回复语音数据的语言类型为中文，基于该中文语言类型，获取中文的各个音素对应的口型调整参数。

S203、基于一个或者多个音素中每两个相邻音素对应的口型调整参数，生成每两个相邻音素对应的视频片段。

其中，该视频片段用于表征该每两个相邻音素中前一个音素对应的口型变化至后一个音素对应的口型。

可以理解的是，人说话时的口型动作涉及多组肌肉和骨骼的协同运动，因此要模拟该数字人的口型动作可以使用多个关键点代替该肌肉和骨骼的作用，可以基于上述口型调整参数对该多个关键点进行调整以使数字人的口型由预设口型调整为该口型调整参数指示的口型，该口型调整参数可以包括位移调整参数、旋转调整参数以及缩放调整参数。

示例性的，若获取一段回复语音数据，该语音数据包含一个音素，获取该音素对应的口型调整参数，基于该口型调整参数，可以对包含口型为预设口型的数字人的初始图象进行调整，得到数字人由预设口型变化为该一个音素对应的口型对应的各帧图像，将该各帧图像进行合成得到由预设口型变化为该一个音素对应的视频片段。

示例性的，若获取一段回复语音数据，该语音数据包含两个音素，分别为音素1和音素2，可以获取该音素1对应的口型调整参数1和该音素2对应的口型调整参数2，该两个音素按照音素1、音素2排列。基于口型调整参数1，可以对包含口型为预设口型的数字人的初始图象进行调整，得到数字人由预设口型变化为该音素1对应的口型1对应的各帧图像，将该各帧图像进行合成得到数字人由预设口型变化为该音素1对应的视频片段1；基于口型调整参数2，可以对包含口型为口型1的数字人的图像进行调整，得到数字人由口型1变化为音素2对应的口型2对应的各帧图像，将该各帧图像进行合成得到数字人由口型1变化为音素2对应的口型2对应的视频片段2。

本申请实施例中基于一个或者多个音素中每两个相邻音素对应的口型调整参数，生成每两个相邻音素对应的视频片段的具体方式可以参见下述实施例的相关描述。

S204、按照一个或者多个音素在回复语音数据中的时序，将每两个相邻音素对应的视频片段进行拼接，得到与该回复语音数据匹配的数字人视频。

以上述S203中的获取一段回复语音数据，该语音数据包含两个音素，分别为音素1和音素2为例，由于该音素1和音素2在该回复语音数据中按照音素1、音素2的时序排列，基于该音素1和音素2的时序，可以将上述视频片段1和视频片段2进行拼接，得到与该回复语音数据匹配的数字人视频。

S205、基于该数字人视频和该回复语音数据构建音视频，并播放该音视频。

在该申请实施例中，获取针对采集到的语音数据反馈的回复语音数据和回复语音数据包含的一个或者多个音素，由于一个音素对应一个口型调整参数，可以获取各个音素对应的口型调整参数，基于音素中每两个相邻音素对应的口型调整参数，在前端生成该每两个相邻音素对应的视频片段，按照音素在回复语音数据中的时序，将该每两个相邻音素对应的视频片段进行拼接，得到与回复语音数据匹配的数字人视频，基于该数字人视频和回复语音数据构建音视频，并播放该音视频。因此该音视频的生成可以直接在前端完成，可以减小对网络频宽的需求和后端服务器的效能需求，使数字人部署更容易、更能被广泛推广使用。

在一种实施方式中，基于一个或者多个音素中每两个相邻音素对应的口型调整参数，生成每两个相邻音素对应的视频片段的具体方式可以是：

获取回复语音数据包含的一个或者多个音素中，每两个相邻音素中前一个音素至后一个音素的发声时长，确定该每两个相邻音素对应的视频片段的视频时长与该发声时长相同，基于该视频时长，确定该视频片段包含的图像帧的数量，其中，该视频片段包含的图像帧的数量与该视频时长呈正相关趋势。

基于该视频片段包含的图像帧的数量，生成该视频片段包含的多帧图像，将该多帧图像进行拼接，得到所述每两个相邻音素对应的视频片段。其中，该多帧图像中的第一帧图像包含的数字人的口型指的是前一个音素对应的口型，该多帧图像中的最后一帧图像包含的数字人的口型指的是后一个音素对应的口型。示例性的，回复语音包含两个音素，前一个音素为音素1，后一个音素为音素2，获取音素1至音素2的发声时长为5s，确定音素1至音素2对应的视频片段的时长与该音素1至音素2的发声时长相同为5s，基于该确定的视频片段的时长，确定该视频片段图像帧的数量为120帧，生成该120帧图像，将该多帧图像进行拼接，得到音素1至音素2对应的视频片段。

因此，将该每两个相邻音素对应的视频片段进行拼接，得到与回复语音数据匹配的数字人视频，基于该数字人视频和回复语音数据构建音视频，该音视频的语音播放时，该数字人视频包含的数字人按照音素的发声时间会在指定时段呈现对应口形，由此实现整段说话内容的连续口形变换。

可选的，基于一个或者多个音素中每两个相邻音素对应的口型调整参数，生成每两个相邻音素对应的视频片段的具体方式可以参见图4，图4是本申请实施例提供的一种生成该每两个相邻音素对应的视频片段的流程图，如图4所示。

S401、获取每两个相邻音素中前一个音素至后一个音素的发声时长。

S402、基于该发声时长和预设口型调整时间段，确定口型调整步长。

由于要模拟该数字人的口型动作可以使用多个关键点代替该肌肉和骨骼的作用，可以基于口型调整参数对该多个关键点进行调整以使数字人的口型由预设口型调整为该口型调整参数指示的口型，该口型调整参数可以包括位移调整参数、旋转调整参数以及缩放调整参数。

在一种实施方式中，可以预设口型调整时间段，基于获取的每两个相邻音素中前一个音素至后一个音素的发声时长和该预设口型调整时间段，确定口型的调整步长。

示例性的，若两个相邻音素，前一个音素为音素1，后一个音素为音素2，音素1对应的口型1包含关键点1，音素2对应的口型2也包含该关键点1，基于音素1对应的口型调整参数1和音素2对应的口型调整参数2指示将该关键点1向左移动5cm，可以由口型1变化口型2。

音素1至音素2的发声时长为5s，预设口型调整时长为1s，由于口型2包含的关键点1由口型1包含的该关键点1移动得到，可以确定口型的调整步长1cm，即由口型1调整为口型2，每1s将关键点1向左移动1cm，移动5次。

在另一种实施方式中，可以预设口型的调整步长，基于获取的每两个相邻音素中前一个音素至后一个音素的发声时长和该预设调整步长，确定口型的调整时间段。

音素1至音素2的发声时长为5s，预设口型步长为1cm，由于口型2包含的关键点1由口型1包含的该关键点1移动得到，可以确定口型的调整时间段为1s，即由口型1调整为口型2，每1s将关键点1向左移动1cm，移动5次。

S403、生成前一个音素对应的目标图像。

其中，该目标图像包含的数字人口型为该前一个音素对应的口型调整参数调整得到。

S404、基于口型调整步长，对前一个音素对应的口型进行调整，得到目标图像，该目标图像包含的数字人的口型是由前一个音素对应的口型变化得到的口型。

示例性的，若两个相邻音素，前一个音素为音素1，后一个音素为音素2，音素1对应的口型1包含关键点1，音素2对应的口型2也包含该关键点1，基于音素1对应的口型调整参数1和音素2对应的口型调整参数2指示将该关键点1向左移动2cm，可以由口型1变化口型2。音素1至音素2的发声时长为2s，预设口型调整时长为1s，口型调整步长为1cm。

将口型1包含的关键点1向左移动1cm，得到一个目标图像1，将关键点1由该目标图像1包含的数字人的口型位置继续向左移动1cm，得到另一个目标图像2。

S405、基于口型调整步长，对上一个变化得到的口型进行调整，得到另一个目标图像。

具体实现方式与上述S404中的示例相同。

S406、若最近得到的目标图像包含的数字人的口型与后一个音素对应的口型相同，则将各个目标图像进行拼接，得到每两个相邻音素对应的视频片段。

可选的，基于一个或者多个音素中每两个相邻音素对应的口型调整参数，生成每两个相邻音素对应的视频片段的具体方式可以参见图5，图5是本申请实施例提供的另一种生成该每两个相邻音素对应的视频片段的流程图，如图5所示。

S501、生成前一个音素对应的目标图像。

其中，前一个音素对应的目标图像包含的数字人的口型指的是该前一个音素对应的口型。

S502、基于每两个相邻音素中前一个音素对应的口型调整参数，生成中间图像，该中间图像包含的数字人的口型是由该前一个音素对应的口型变化至目标口型。

示例性的，若预设口型为闭嘴口型，在将要说完前一个音素、未说下一个音素之前，当时口型已是前一个音素对应的口型，可以按照上述S403至S405中的调整步骤对该口型进行调整，得到目标口型，再基于该目标口型向后一个音素对应的口型进行调整转换。

其中，该目标口型与上述预设口型的相似度达到预设相似度阈值。可以理解的是，该目标口型可以是前一个音素对应的口型向预设口型进行调整，但未完全调整得到预设口型的过程中间的一个口型。

在一种实施方式中，可以通过后一个音素的发声时间点确定该目标口型，即前一个音素对应的口型向预设口型进行调整的过程中，到后一个音素的发声点时调整得到的口型，为目标口型。

S503、生成后一个音素对应的目标图像。

S504、将前一个音素对应的目标图像、中间图像以及后一个音素对应的目标图像进行拼接，得到每两个相邻音素对应的视频片段。

上述S501到S504的转换过程实现方式可以参见图6，图6是本申请实施例提供的一种口型转换示意图，如图6所示，该过程使口型转换更加自然，提高数字人的真实感。

下面以一种本申请实施例提供的音视频生成方法的应用为例，请参见图7，图7是本申请实施例提供的一种音视频生成方法的应用架构图。如图7所示，执行该音视频生成方法的前端可以是一个浏览器，可以通过该浏览器获取录音权限，采集使用者的语音数据，然后将采集到的语音数据实时发送到后端服务器，后端服务器接收该语音数据后，可以将该语音数据转为文本数据，利用OpenAI 服务器针对该文本数据生成回复文本数据，再将该回复文本数据转换为回复语音数据，并获取该回复语音数据包含的音素，将该回复语音数据和该回复语音数据包含的音素发送至该浏览器。

该浏览器获取回复语音数据和该回复语音数据包含的音素后，可以获取各个音素对应的口型调整参数，基于该一个或者多个音素中每两个相邻音素对应的口型调整参数，由Javascript控制数字人包含的关键点变化，以使数字人口型由每两个相邻音素中前一个音素对应的口型变化至后一个音素对应的口型，生成该每两个相邻音素对应的视频片段，按照该一个或者多个音素在回复语音数据中的时序，将该每两个相邻音素对应的视频片段进行拼接，得到与该回复语音数据匹配的数字人视频，基于该数字人视频和该回复语音数据构建音视频，并播放该音视频，该音视频中的数字人随播放的回复语音对应改变口型，实现实时人机语音交互。

可见，该音视频的生成可以直接在前端完成，可以减小对网络频宽的需求和后端服务器的效能需求，使数字人部署更容易、更能被广泛推广使用。

基于相关实施例的描述，本申请实施例还提供了一种音视频的生成装置，该音视频的生成装置可以执行图1到图7所示的前端执行的操作。请参见图8，图8是本申请实施例提供的一种音视频的生成装置示意图。如图8所示，该音视频的生成装置可包括但不限于获取单元801、生成单元802、拼接单元803以及播放单元804。

获取单元801，用于获取针对采集到的语音数据反馈的回复语音数据和所述回复语音数据包含的一个或者多个音素；

获取单元801，还用于获取各个音素对应的口型调整参数；其中，所述口型调整参数用于指示：数字人的口型由预设口型调整为相应音素对应的口型所需的调整参数；

生成单元802，用于基于所述一个或者多个音素中每两个相邻音素对应的口型调整参数，生成所述每两个相邻音素对应的视频片段；其中，所述视频片段用于表征所述每两个相邻音素中前一个音素对应的口型变化至后一个音素对应的口型；

拼接单元803，用于按照所述一个或者多个音素在所述回复语音数据中的时序，将所述每两个相邻音素对应的视频片段进行拼接，得到与所述回复语音数据匹配的数字人视频；

播放单元804，用于基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频。

在一种可选的实施方式中，生成单元802基于所述一个或者多个音素中每两个相邻音素对应的口型调整参数，生成所述每两个相邻音素对应的视频片段，包括：

获取所述每两个相邻音素中前一个音素至后一个音素的发声时长；

确定所述每两个相邻音素对应的视频片段的视频时长与所述发声时长相同；

基于所述视频时长，确定所述视频片段包含的图像帧的数量；其中，所述视频片段包含的图像帧的数量与所述视频时长呈正相关趋势；

将所述多帧图像进行拼接，得到所述每两个相邻音素对应的视频片段。

获取所述每两个相邻音素中前一个音素至后一个音素的发声时长；

基于所述发声时长和预设口型调整时间段，确定口型调整步长；

生成所述前一个音素对应的目标图像；其中，所述前一个音素对应的目标图像包含的数字人的口型指的是所述前一个音素对应的口型；

基于所述口型调整步长，对上一个变化得到的口型进行调整，得到另一个目标图像；

生成所述前一个音素对应的目标图像；其中，所述前一个音素对应的目标图像包含的数字人的口型指的是所述前一个音素对应的口型；

生成所述后一个音素对应的目标图像；其中，所述后一个音素对应的目标图像包含的数字人的口型指的是所述后一个音素对应的口型；

将所述前一个音素对应的目标图像、所述中间图像以及所述后一个音素对应的目标图像进行拼接，得到所述每两个相邻音素对应的视频片段。

在一种可选的实施方式中，该音视频的生成装置还包括采集单元805。

采集单元805，还用于采集目标对象的语音数据；

生成单元802，还用于与服务器进行交互，以使所述服务器对所述语音数据对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据；

获取单元801，还用于获取所述回复文本数据对应的回复语音数据。

在一种可选的实施方式中，获取单元801获取各个音素对应的口型调整参数，包括：

获取所述回复语音数据的语言类型；其中，所述语言类型为所述目标对象指定的语言类型；

获取在所述语言类型下，所述各个音素对应的口型调整参数。

在一种可选的实施方式中，回复语音数据的语言类型与所述采集到的语音数据的语言类型一致；

获取单元801获取各个音素对应的口型调整参数，包括：

获取所述采集到的语音数据或者所述回复语音数据的语言类型；

获取在所述语言类型下，所述各个音素对应的口型调整参数。

本申请实施例中，获取单元801获取针对采集到的语音数据反馈的回复语音数据和回复语音数据包含的一个或者多个音素，由于一个音素对应一个口型调整参数，获取单元801可以获取各个音素对应的口型调整参数，生成单元802基于音素中每两个相邻音素对应的口型调整参数，在前端生成该每两个相邻音素对应的视频片段，拼接单元803按照音素在回复语音数据中的时序，将该每两个相邻音素对应的视频片段进行拼接，得到与回复语音数据匹配的数字人视频，播放单元804基于该数字人视频和回复语音数据构建音视频，并播放该音视频。因此该音视频的生成可以直接在前端完成，可以减小对网络频宽的需求和后端服务器的效能需求，使数字人部署更容易、更能被广泛推广使用。

本申请实施例还提供一种计算机设备，请参见图9，图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示，该计算机设备至少包括处理器901、存储器902和通信接口903可通过总线904或其他方式连接，本申请实施例以通过总线904连接为例。本申请实施例的处理器901可通过运行存储器902中存储的计算机程序，执行前述音视频生成方法的操作，例如：

获取针对采集到的语音数据反馈的回复语音数据和所述回复语音数据包含的一个或者多个音素；

获取各个音素对应的口型调整参数；其中，所述口型调整参数用于指示：数字人的口型由预设口型调整为相应音素对应的口型所需的调整参数；

基于所述一个或者多个音素中每两个相邻音素对应的口型调整参数，生成所述每两个相邻音素对应的视频片段；其中，所述视频片段用于表征所述每两个相邻音素中前一个音素对应的口型变化至后一个音素对应的口型；

按照所述一个或者多个音素在所述回复语音数据中的时序，将所述每两个相邻音素对应的视频片段进行拼接，得到与所述回复语音数据匹配的数字人视频；

基于所述数字人视频和所述回复语音数据构建音视频，并播放所述音视频。

在一种可选的实施方式中，处理器901基于所述一个或者多个音素中每两个相邻音素对应的口型调整参数，生成所述每两个相邻音素对应的视频片段，具体用于执行如下操作：

获取所述每两个相邻音素中前一个音素至后一个音素的发声时长；

确定所述每两个相邻音素对应的视频片段的视频时长与所述发声时长相同；

基于所述视频时长，确定所述视频片段包含的图像帧的数量；其中，所述视频片段包含的图像帧的数量与所述视频时长呈正相关趋势；

将所述多帧图像进行拼接，得到所述每两个相邻音素对应的视频片段。

获取所述每两个相邻音素中前一个音素至后一个音素的发声时长；

基于所述发声时长和预设口型调整时间段，确定口型调整步长；

生成所述前一个音素对应的目标图像；其中，所述前一个音素对应的目标图像包含的数字人的口型指的是所述前一个音素对应的口型；

基于所述口型调整步长，对上一个变化得到的口型进行调整，得到另一个目标图像；

生成所述前一个音素对应的目标图像；其中，所述前一个音素对应的目标图像包含的数字人的口型指的是所述前一个音素对应的口型；

生成所述后一个音素对应的目标图像；其中，所述后一个音素对应的目标图像包含的数字人的口型指的是所述后一个音素对应的口型；

将所述前一个音素对应的目标图像、所述中间图像以及所述后一个音素对应的目标图像进行拼接，得到所述每两个相邻音素对应的视频片段。

在一种可选的实施方式中，处理器901，还执行如下操作：

采集目标对象的语音数据；

与服务器进行交互，以使所述服务器对所述语音数据对应的文本数据进行分析处理，生成所述文本数据对应的回复文本数据；

获取所述回复文本数据对应的回复语音数据。

在一种可选的实施方式中，处理器901获取各个音素对应的口型调整参数，具体执行如下操作：

获取所述回复语音数据的语言类型；其中，所述语言类型为所述目标对象指定的语言类型；

获取在所述语言类型下，所述各个音素对应的口型调整参数。

在一种可选的实施方式中，回复语音数据的语言类型与所述采集到的语音数据的语言类型一致；处理器901获取各个音素对应的口型调整参数，具体执行如下操作：

获取所述采集到的语音数据或者所述回复语音数据的语言类型；

获取在所述语言类型下，所述各个音素对应的口型调整参数。

本申请实施例中，处理器901获取针对采集到的语音数据反馈的回复语音数据和回复语音数据包含的一个或者多个音素，由于一个音素对应一个口型调整参数，可以获取各个音素对应的口型调整参数，基于音素中每两个相邻音素对应的口型调整参数，在前端生成该每两个相邻音素对应的视频片段，按照音素在回复语音数据中的时序，将该每两个相邻音素对应的视频片段进行拼接，得到与回复语音数据匹配的数字人视频，基于该数字人视频和回复语音数据构建音视频，并播放该音视频。因此该音视频的生成可以直接在前端完成，可以减小对网络频宽的需求和后端服务器的效能需求，使数字人部署更容易、更能被广泛推广使用。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法实施例中的步骤。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述任一方法实施例中的步骤。

本申请实施例还提供一种芯片，包括存储器和处理器，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得安装有芯片的设备执行上述任一方法实施例中的步骤。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：翌东寰球(深圳)数字科技有限公司;

上一篇：一种线上会议中的终端状态更新方法及服务器
下一篇：一种大数据信息安全存储加密系统