视频生成方法、装置、电子设备及存储介质

文献发布时间：2024-04-18 20:02:18

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

目前市面上的数字人形象以3D虚拟数字人为主，以真人数字人为辅。通过提供文本信息生成数字人输出音频的影像信息，实现基于数字人进行内容讲解。

针对3D虚拟数字人而言，由于其为虚拟形象，缺乏真实感，嘴型匹配也不是完全准确，因此所生成的数字人视频对用户的吸引度不高。市面上的真人数字人数量不多，人物口型对齐的准确度不高，声音训练的结果也不自然，因此用户在浏览所生成的数字人视频时体验不佳。且目前数字人视频的剪辑比较依赖人工，剪辑成本高、效率低。

发明内容

本申请实施例提供一种克服上述问题或者至少部分地解决上述问题的视频生成方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种视频生成方法，包括：

根据视频讲解文本和目标数字人的声音特征，生成目标音频，所述目标数字人为基于真实人物所构建的数字化形象；

基于所述目标音频和口型同步模型确定口型信息集合，根据所述口型信息集合对所述目标数字人对应的原始视频进行口型重构处理，获取所述目标数字人的口型与所述目标音频匹配的第一目标视频；

将所述目标音频与所述第一目标视频合成，生成所述目标数字人基于所述视频讲解文本、以动态形象进行内容讲解的第二目标视频；

基于视频展示需求，对所述第二目标视频进行自动化剪辑，生成最终视频。

第二方面，本申请实施例提供了一种视频生成装置，包括：

第一生成模块，用于根据视频讲解文本和目标数字人的声音特征，生成目标音频，所述目标数字人为基于真实人物所构建的数字化形象；

处理模块，用于基于所述目标音频和口型同步模型确定口型信息集合，根据所述口型信息集合对所述目标数字人对应的原始视频进行口型重构处理，获取所述目标数字人的口型与所述目标音频匹配的第一目标视频；

第二生成模块，用于将所述目标音频与所述第一目标视频合成，生成所述目标数字人基于所述视频讲解文本、以动态形象进行内容讲解的第二目标视频；

剪辑生成模块，用于基于视频展示需求，对所述第二目标视频进行自动化剪辑，生成最终视频。

第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述第一方面所述的视频生成方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的视频生成方法的步骤。

本申请实施例技术方案，通过采用基于真实人物所构建的目标数字人，可以提供更加真实、生动化的数字人形象，在将目标数字人的声音特征和视频讲解文本结合后，可以获取以真实的声音特征进行讲解的目标音频；通过将口型同步模型与目标音频进行结合，可以得到目标音频对应的相对准确的口型信息集合，基于所得到的口型信息集合对原始视频中的目标数字人进行口型重构，可以得到准确度高的口型；通过将目标音频与第一目标视频合成，可以生成目标数字人基于视频讲解文本、以动态形象和真实声音特征进行内容讲解的第二目标视频；在获取第二目标视频后进行自动化剪辑生成最终视频，可以节省人力成本，提升生产效率。

附图说明

图1表示本申请实施例提供的视频生成方法的示意图；

图2表示本申请实施例提供的添加介绍文案、字幕以及固定结尾的视频帧的示意图；

图3表示本申请实施例提供的视频生成方法的一具体实施流程图；

图4表示本申请实施例提供的视频生成装置的示意图；

图5表示本申请实施例提供的电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。本申请实施例中的多个可以包括两个以及两个以上。

在本申请的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请实施例提供一种视频生成方法，如图1所示，该方法包括：

步骤101、根据视频讲解文本和目标数字人的声音特征，生成目标音频，所述目标数字人为基于真实人物所构建的数字化形象。

本申请实施例中的目标数字人为基于真实人物所构建的数字化人物形象，与真实人物具有相同的外貌特征以及声音特征。通过获取真实人物的外貌特征以及声音特征进行数字人构建，可保证基于所构建的目标数字人生成的视频更加真实、投放效果更好。

在构建目标数字人之后，结合视频讲解文本和目标数字人的声音特征，生成视频讲解文本对应的目标音频，目标音频对应的音频内容为视频讲解文本的文本内容，目标音频对应的声音特征为目标数字人的声音特征。

其中，视频讲解文本基于文案信息生成，文案信息包括所要生成的视频需要介绍的内容、与具体的业务需求匹配。作为举例，文案信息为招聘文案，则所要生成的视频为招聘视频，文案信息为房屋出租文案，则所要生成的视频为房屋出租视频。在基于文案信息生成视频讲解文本时，需要针对文案信息进行关键信息提取，将所提取出的关键信息按照拼接规则进行拼接，生成视频讲解文本。

步骤102、基于所述目标音频和口型同步模型确定口型信息集合，根据所述口型信息集合对所述目标数字人对应的原始视频进行口型重构处理，获取所述目标数字人的口型与所述目标音频匹配的第一目标视频。

在生成目标音频之后，基于目标音频对目标数字人对应的原始视频进行口型重构处理，口型重构处理的过程即为基于目标音频对目标数字人进行口型对齐处理，使得目标数字人的口型与目标音频对应的音频内容匹配。目标数字人对应的原始视频为包含目标数字人的动态形象的视频，且原始视频可以携带音频信息，也可以仅包含画面信息。针对仅包含画面信息的情况，可以是在对目标数字人进行视频录制后消除了音频信息，也可以是在视频录制过程中目标数字人仅嘴部动作但是未发出声音，还可以是在对目标数字人进行视频录制后进行静音处理，得到原始视频。

需要说明的是，在对目标数字人录制原始视频时，需要控制或者引导目标数字人按照预先规定的一个或者多个姿态进行姿态保持，如控制目标数字人始终保持端坐姿态或者直立姿态，或者，控制目标数字人在前半段录制过程中保持端坐姿态、在后半段录制过程中保持手部指向屏幕的介绍姿态。

若原始视频仅包含画面信息，则在对原始视频进行口型对齐处理时不需要对原始视频进行音频维度的处理；若原始视频携带音频信息，在对原始视频进行口型对齐处理时，需要消除原始视频对应的音频信息，避免原始视频对应的音频信息造成干扰。

在对目标数字人对应的原始视频进行口型对齐处理(口型重构处理)之前，需要基于目标音频和口型同步模型确定口型信息集合，口型同步模型为基于大量的中英文说话素材进行模型训练得出的基础模型。通过参考口型同步模型，结合目标音频的音频分析，可以得到使用怎样的口型(可以理解为标准口型)，即，获取目标音频对应的口型信息集合。在基于口型同步模型和目标音频的音频分析获取口型信息集合时，可以理解为：将目标音频输入口型同步模型中，由口型同步模型进行音频分析，输出匹配的口型信息集合。

在确定口型信息集合之后，基于口型信息集合对目标数字人对应的原始视频进行口型重构处理，口型重构处理至少包括视频标准化、嘴部区域选定以及嘴部区域口型调整，且视频标准化需要发生在嘴部区域选定之前，在完成视频标准化之后，针对视频选定目标数字人的嘴部区域，如，通过一个标记将嘴部区域圈出，对嘴部区域进行蒙层遮罩等，以确定口型重构的区域，而不会影响视频其他部分。

在针对目标数字人选定嘴部区域之后，可以基于口型信息集合对目标数字人的嘴部区域进行口型重构处理，使得重构后的口型与目标音频相匹配，实现目标数字人的口型对齐处理。在基于口型信息集合完成对原始视频中目标数字人的口型重构之后，可获取目标数字人的口型与目标音频匹配的第一目标视频。

通过参考口型同步模型，将口型同步模型与目标音频进行结合，可以得到目标音频对应的相对标准的口型，基于所得到的口型对原始视频中的目标数字人进行口型重构，可以得到准确度高的口型。

步骤103、将所述目标音频与所述第一目标视频合成，生成所述目标数字人基于所述视频讲解文本、以动态形象进行内容讲解的第二目标视频。

在对原始视频进行口型重构处理，获取目标数字人的口型与目标音频匹配的第一目标视频之后，将目标音频与第一目标视频进行合成。需要说明的是，原始视频可以携带音频信息也可以仅包括画面信息，若原始视频携带音频信息，可以在口型重构阶段消除音频信息，以避免原始视频携带的音频信息对目标音频造成干扰。

由于第一目标视频为目标数字人的口型与目标音频匹配的视频，目标音频为结合视频讲解文本和目标数字人的声音特征的音频，通过将目标音频与第一目标视频合成，可以生成目标数字人基于视频讲解文本、以动态形象进行内容讲解的第二目标视频，且目标数字人的口型与目标音频相吻合。

步骤104、基于视频展示需求，对所述第二目标视频进行自动化剪辑，生成最终视频。

在生成第二目标视频之后，基于视频展示需求对第二目标视频进行自动化剪辑，快速生成最终视频，无需人员参与，节省人力成本，且自动化剪辑的剪辑效率相对于人工剪辑的效率高，提升了生产效率。

由于视频采用基于真实人物所构建的目标数字人进行内容讲解，视频的真实可信度高、投放效果更好。

本申请上述实施过程，通过采用基于真实人物所构建的目标数字人，可以提供更加真实、生动化的数字人形象，在将目标数字人的声音特征和视频讲解文本结合后，可以获取以真实的声音特征进行讲解的目标音频；通过将口型同步模型与目标音频进行结合，可以得到目标音频对应的相对准确的口型信息集合，基于所得到的口型信息集合对原始视频中的目标数字人进行口型重构，可以得到准确度高的口型；通过将目标音频与第一目标视频合成，可以生成目标数字人基于视频讲解文本、以动态形象和真实声音特征进行内容讲解的第二目标视频；在获取第二目标视频后进行自动化剪辑生成最终视频，可以节省人力成本，提升生产效率。

下面对基于视频讲解文本和目标数字人的声音特征生成目标音频的过程进行介绍。在生成目标音频时，基于所述目标数字人的声音特征，将所述视频讲解文本进行音频转化，获取第一音频；在音速和/或音调维度对所述第一音频进行调整，生成所述目标音频。

视频讲解文本为文本形式，采用文本音频转化手段将视频讲解文本进行音频转化时，需要借助目标数字人的声音特征，基于目标数字人的声音特征，将视频讲解文本进行音频转化，获取音频内容为视频讲解文本对应的文本内容、声音特征为目标数字人的声音特征的第一音频。

在获取第一音频之后，检测第一音频的音速和/或音调是否满足对应的预设条件，在所获取的第一音频的音速和/或音调不满足预设条件时，在音速和/或音调维度，对第一音频进行调整，生成音速和/或音调满足对应的预设条件的目标音频。

通过在进行音频转化获取携带目标数字人的声音特征的第一音频后，对第一音频在音速和/或音调维度进行调整，可以使得音频更加符合应用需求。

作为一可选实施例，口型重构处理至少包括视频标准化、嘴部区域选定以及嘴部区域口型调整；所述根据所述口型信息集合对所述目标数字人对应的原始视频进行口型重构处理，获取所述目标数字人的口型与所述目标音频匹配的第一目标视频，包括：

对所述原始视频中的目标数字人进行统一口型处理，获取第一视频，经过统一口型处理后的所述目标数字人的嘴部为闭合状态，所述视频标准化包括统一口型处理；

选定所述第一视频中目标数字人的嘴部区域；

根据所述口型信息集合，调整所述第一视频中目标数字人的嘴部区域的口型，以基于对目标数字人的口型重构、生成第二视频；

基于所述第二视频获取所述目标数字人的口型与所述目标音频匹配的第一目标视频。

在基于口型同步模型和目标音频的音频分析，获取目标音频对应的口型信息集合之后，在基于口型信息集合对原始视频进行口型重构处理时，首先对原始视频中的目标数字人进行统一口型处理，通过进行统一口型处理获取第一视频，且经过统一口型处理之后，目标数字人的嘴部为闭合状态，实现将目标数据人的嘴部调整为统一状态，以便于基于闭合状态的嘴部进行口型重构。其中，统一口型处理属于视频标准化中的处理流程。

在经过统一口型处理之后，对第一视频中的目标数字人选定嘴部区域，如采用蒙层遮罩的方式覆盖嘴部区域、通过圈定脸部固定面积来标记嘴部等。且为了简便处理，也为了保证视频的自然真实，可以直接对第一视频中的每一帧视频图像均选定目标数字人的嘴部区域。

在选定第一视频中目标数字人的嘴部区域之后，基于口型信息集合，调整第一视频中目标数字人的嘴部区域的口型，以基于口型信息集合中的多个口型信息(可以理解为标准口型信息)对第一视频中的目标数字人进行口型重构，生成目标数字人的口型与目标音频匹配的第二视频。

需要说明的是，原始视频的时长可以大于或者等于目标音频的时长；也可以是原始视频的时长小于目标音频的时长，此种情况需要循环播放视频，且循环播放的次数需要基于目标音频的时长确定。由于第一视频是对原始视频进行统一口型处理所生成，因此第一视频的时长与原始视频的时长相等。若第一视频的时长大于目标音频的时长，可以在口型重构之前，基于目标音频的时长对第一视频进行截取操作，获取时长与目标音频的时长相同的第一视频，以基于对应于相同时长的第一视频和目标音频进行口型重构。也可以是：在原始视频的时长大于目标音频的时长的情况下，直接对原始视频进行截取操作，使得进行截取操作之后的原始视频与目标音频对应的时长相等，可以减少统一口型处理的工作量。若第一视频的时长小于目标音频的时长，通过循环播放第一视频来匹配目标音频，由于第一视频中目标数字人的嘴部为闭合状态，采用循环播放的方式，可以重复利用经过统一口型处理的第一视频。

在通过口型重构生成第二视频之后，可以基于第二视频获取第一目标视频，在基于第二视频获取第一目标视频时，可以直接将第二视频确定为第一目标视频，也可以通过对第二视频进行清晰度调整或者其他手段的处理生成第一目标视频。

通过对原始视频中的目标数字人进行统一口型处理，将目标数字人的嘴部调整为闭合状态，可基于闭合状态的嘴部进行口型重构，简化口型重构的工作量；通过选定目标数字人的嘴部区域，可以在口型重构时快速识别到目标数字人的嘴部区域，提升处理效率；通过基于口型信息集合调整目标数字人的嘴部区域的口型，可以基于相对标准的口型信息对目标数字人进行口型重构，得到准确度高的口型。

需要说明的是，口型对齐的处理过程是基于video-retalking方案实现的，对目标数字人和目标音频进行一对一口型匹配，准确度可高达90％以上。

可选地，目标音频对应的第一时长，所述口型信息集合包括所述目标音频在第一时长内对应的口型信息；所述根据所述口型信息集合，调整所述第一视频中目标数字人的嘴部区域的口型，包括：

根据所述目标音频在第一时长内对应的口型信息，按照口型信息的排列顺序，对所述第一视频中的目标数字人逐步调整嘴部区域的口型，以使所述目标数字人在第一时长内的口型变化与所述口型信息集合中的口型变化相匹配。

在调整第一视频中目标数字人的嘴部区域的口型时，按照目标音频对应的口型信息集合中口型信息的排列顺序，对第一视频中的目标数字人逐步调整嘴部区域的口型，实现对第一视频中的目标数字人按照第一视频的播放顺序逐帧进行口型重构，这里的逐帧处理可以理解为对需要进行口型重构的视频帧依次进行口型重构。

口型信息集合中口型信息的排列顺序，为时间先后顺序，通过基于口型信息的排列顺序对第一视频中的目标数字人进行口型重构，可以使得目标数字人在第一时长内的口型变化与口型信息集合中的口型变化相匹配，以基于对第一视频中的目标数字人进行口型重构、生成第二视频。所生成的第二视频中，目标数字人的口型与目标音频匹配。

通过按照口型信息的排列顺序，对第一视频中的目标数字人逐步调整嘴部区域的口型，可以实现在时间维度对第一视频中的不同视频帧依次进行目标数字人的口型重构，保证口型重构的准确性，避免出现重构的口型与口型信息集合中对应的口型信息不匹配的情况。

可选地，所述视频标准化在包括统一口型处理的同时，还包括降低视频分辨率；所述方法还包括：

在对所述原始视频中的目标数字人进行统一口型处理之前，将所述原始视频的分辨率由第一分辨率调整为第二分辨率，所述第二分辨率小于所述第一分辨率；

所述基于所述第二视频获取所述目标数字人的口型与所述目标音频匹配的第一目标视频，包括：

将所述第二视频由所述第二分辨率调整为所述第一分辨率，生成对应于所述第一分辨率且所述目标数字人的口型与所述目标音频匹配的第一目标视频。

视频标准化包括统一口型处理以及降低视频分辨率，通过降低视频分辨率(降低视频中多帧视频图像的分辨率)可以降低人脸特征提取时的计算量、提高针对目标数字人进行人脸特征提取的效率，因此，在对目标数字人进行统一口型处理之前，可以先调整原始视频的分辨率。

在对原始视频进行分辨率调整时，可以将原始视频由第一分辨率降低为第二分辨率，虽然降低分辨率会损失一定的清晰度，但是可以提升人脸特征提取的效率，且人脸特征提取也不需要过高的分辨率。

在对原始视频进行分辨率降低之后，基于分辨率降低之后的视频，对其进行人脸特征提取、快速识别出目标数字人的嘴部区域，然后对目标数字人进行统一口型处理。在进行统一口型处理之后，选定目标数字人的嘴部区域，根据口型信息集合，调整第一视频中目标数字人的嘴部区域的口型，以基于对目标数字人的口型重构、生成第二视频。

需要说明的是，由于进行了降低分辨率处理，视频帧中的像素点会减少，则对目标数字人进行统一口型处理的速度也会提升，相应的，调整目标数字人的嘴部区域的口型以进行口型重构的处理速度也会提升，进而可以减少口型重构的计算量、提升处理效率。

在生成第二视频之后，将第二视频由第二分辨率调整为第一分辨率，以恢复原始视频的分辨率，进而恢复视频的清晰度，实现生成对应于第一分辨率且目标数字人的口型与目标音频匹配的第一目标视频。

通过降低原始视频的分辨率，可以在损失清晰度的同时提升人脸特征提取的效率，进而可快速识别出目标数字人的嘴部区域，对目标数字人进行口型重构处理，提升处理效率；在基于口型重构生成第二视频之后，将第二视频由第二分辨率调整为第一分辨率，可以恢复视频的清晰度，保证视频的呈现效果。

作为一可选实施例，所述原始视频仅包括画面信息或者包括画面信息和音频信息，在所述原始视频包括画面信息和音频信息的情况下，所述视频标准化还包括消除音频信息处理；所述方法还包括：在对所述原始视频中的目标数字人进行统一口型处理之前，消除所述原始视频对应的音频信息。

在录制的原始视频包括目标数字人的画面信息和音频信息的情况下，在进行口型重构之前需要消除原始视频对应的音频信息，即，可以在对目标数字人进行统一口型处理之前，消除原始视频对应的音频信息。通过消除原始视频对应的音频信息，可以避免出现原始视频的音频信息播放与口型重构后的口型不一致的情况；且通过在进行统一口型处理之前消除原始视频对应的音频信息，可以避免出现统一口型处理后目标数字人的嘴部为闭合状态、但仍播放原始视频对应的音频信息的情况。

通过消除原始视频对应的音频信息，可以彻底避免原始视频携带的音频信息对目标音频造成干扰。在将目标音频与第一目标视频合成，生成第二目标视频后，在播放第二目标视频时，目标音频以特定音量播放，由于已经消除了原始视频携带的音频信息，可以避免出现音频干扰的情况。

作为一可选实施例，所述原始视频为在绿幕场景下对所述目标数字人进行视频录制所生成，所述第二目标视频为所述目标数字人在绿幕场景下基于所述视频讲解文本进行内容讲解的视频；

所述基于视频展示需求，对所述第二目标视频进行自动化剪辑，生成最终视频，包括：

依次对所述第二目标视频进行绿幕抠除、添加目标背景图；

在添加所述目标背景图后的第二目标视频中，在第一位置添加介绍文案、在第二位置添加字幕、在第三位置添加固定结尾，生成所述最终视频；

其中，所述目标背景图基于所述视频展示需求确定，所述介绍文案对应的文案内容、显示样式、显示时机和添加位置基于所述视频展示需求确定，所述字幕对应的显示样式和添加位置基于所述视频展示需求确定，所述固定结尾对应的结尾内容、显示样式、显示时机和添加位置基于所述视频展示需求确定，所述固定结尾用于引导浏览用户针对所述最终视频执行操作。

在获取第二目标视频之后，可以基于视频展示需求对第二目标视频进行自动化剪辑，生成最终视频，在整个视频剪辑的过程中可采用例如FFmpeg(一种开源视频剪辑方案)方案，无需人员参与，实现视频剪辑的自动化。

由于原始视频是在绿幕场景下对目标数字人进行视频录制所生成，则第二目标视频同样对应于绿幕场景。视频剪辑的过程需要对第二目标视频依次进行绿幕抠除、添加目标背景图，以通过目标背景图替换绿幕，在添加目标背景图之后，针对第二目标视频，添加介绍文案、添加字幕、添加固定结尾，还可以添加动图或者其他设计元素，以丰富视频内容。

其中，介绍文案可以始终保持显示，也可以在视频的开头显示，还可以是在播放一段时间后显示，当然还可以是其他情况；字幕基于音频播放内容的更新同步更新；固定结尾可以在视频即将播放完成时显示，也可以始终保持显示，还可以是其他显示情况。介绍文案、字幕以及固定结尾分别添加在对应位置，作为举例，介绍文案添加在第二目标视频的顶部区域，字幕添加在第二目标视频的底部区域，固定结尾在视频播放即将完成时添加在视频左下角。且介绍文案对应的文案内容、添加位置、显示时机和显示样式(文本信息)基于视频展示需求确定，字幕对应的显示样式和添加位置基于视频展示需求确定，固定结尾对应的结尾内容、显示样式、显示时机和添加位置基于视频展示需求确定。即，基于视频展示需求自动化的在对应时机、以对应显示样式在视频的对应位置添加介绍文案，基于视频展示需求自动化的在对应时机、以对应显示样式在视频的对应位置添加固定结尾，基于视频展示需求自动化的以对应显示样式在视频的对应位置添加字幕，且字幕基于播放的音频同步更新。相应的，目标背景图基于视频展示需求确定，如，基于视频展示需求在图像素材库中确定目标背景图。

介绍文案用于对第二目标视频对应的播放内容进行简要介绍。固定结尾用于引导浏览用户针对最终视频执行操作，如，引导浏览用户在视频评论区留下联系方式，引导浏览用户对视频进行评论，引导浏览用户发私信，引导浏览用户申请视频介绍的职位等。

作为举例，如图2所示，该视频的介绍文案为“白班保姆7000元”，显示在视频的顶部区域，字幕“大家好”显示在视频的偏右侧位置，固定结尾包括文字信息“点击招聘按钮申请职位”以及箭头，固定结尾显示在左下角位置，且介绍文案以及固定结尾在视频播放的开头即触发显示。

通过对第二目标视频进行绿幕抠图、添加背景图，可以提升视频的品质，通过添加介绍文案、字幕、固定结尾以及其他设计元素，可以丰富视频内容，通过自动化的剪辑，可以节约人力成本、提升处理效率。

其中，添加至视频中的字幕与目标音频相匹配，在将字幕进行添加之前，还包括：基于所述目标音频生成所述最终视频的字幕；所述最终视频中字幕的显示更新频率与所述目标音频的播报更新频率相同。

最终视频对应的字幕是基于目标音频生成的，例如，基于whisper模型和目标音频生成字幕，然后根据目标音频对应的文本修正字幕，给字幕添加对应的文本样式后便可添加至视频中。且字幕的显示更新频率与目标音频的播报更新频率相同，以保证二者相适配，给浏览用户带来良好的视听体验。

作为一可选实施例，所述方法还包括：

在多个真实人物中选定目标人物，并采集所述目标人物的音频信息和人物形象信息；

基于所述目标人物的音频信息和人物形象信息进行模型训练，获取所述目标数字人以及所述目标数字人对应的声音特征。

本申请实施例的目标数字人基于真实人物所构建，在构建目标数字人时，在多个真实人物中选定目标人物，并采集目标人物的音频信息和人物形象信息。其中目标人物的音频信息需要大量采集，在采集大量的音频信息之后，基于声音模型(如Bert)和采集的音频信息训练数字人声音模型，后续可基于数字人声音模型输出对应的声音。即，在根据视频讲解文本和目标数字人的声音特征，生成目标音频时，可以将视频讲解文本输入目标数字人对应的数字人声音模型，输出携带目标数字人的声音特征的目标音频，基于模型所输出的音频音调更自然，更接近于真人。

在采集目标人物的人物形象信息之后，进行模型训练构建出目标人物的数字化形象，生成目标数字人，通过模型构建目标人物的数字化形象，可以生产出自然且相对真实的视频人物。

需要说明的是，在基于目标人物的音频信息和人物形象信息进行模型训练时，也可以基于音频信息和人物形象信息同时训练，确定可输出对应声音、可构建出数字化形象的模型。

通过选用真实人物利用模型构建数字化形象，可以提供真实、生动化的数字人形象，通过利用模型输出音频，可以提供音频音调更自然、更接近于真人的音频信息。

下面通过一具体实例对本申请实施例的整体流程进行介绍，如图3所示：

步骤301、控制中心获取文案信息，对文案信息进行关键信息提取并拼接，生成视频讲解文本。

步骤302、控制中心将视频讲解文本以及目标数字人对应的数字人编号发送给音频处理模块。

步骤303、音频处理模块生成与目标数字人的声音特征匹配的目标音频。

步骤304、音频处理模块将目标音频发送至控制中心。

步骤305、控制中心将目标音频和目标数字人对应的原始视频发送至口型对齐模块。

步骤306、口型对齐模块基于目标音频对原始视频进行口型对齐处理，生成第一目标视频。

步骤307、口型对齐模块将第一目标视频发送至控制中心。

步骤308、控制中心将目标音频以及第一目标视频发送至视频剪辑模块。

步骤309、视频剪辑模块将目标音频和第一目标视频进行合成生成第二目标视频，对第二目标视频更换背景图、添加介绍文案、添加字幕、添加固定结尾，生成最终视频。

步骤310、视频剪辑模块将最终视频发送至控制中心。

上述实施流程中，通过提供文案信息，基于文案信息自动化处理，生成最终视频，可产出自然的视频人物，且口型准确、营造出较强真实感，在视频效果非常接近真人录制的同时，大大提升生产效率。

以上为本申请实施例提供的视频生成方法的整体实施方案，通过采用基于真实人物所构建的目标数字人，可以提供更加真实、生动化的数字人形象，在将目标数字人的声音特征和视频讲解文本结合后，可以获取以真实的声音特征进行讲解的目标音频；通过将口型同步模型与目标音频进行结合，可以得到目标音频对应的相对准确的口型信息集合，基于所得到的口型信息集合对原始视频中的目标数字人进行口型重构，可以得到准确度高的口型；通过将目标音频与第一目标视频合成，可以生成目标数字人基于视频讲解文本、以动态形象和真实声音特征进行内容讲解的第二目标视频；在获取第二目标视频后进行自动化剪辑生成最终视频，可以节省人力成本，提升生产效率。

通过在进行音频转化获取携带目标数字人的声音特征的第一音频后，对第一音频在音速和/或音调维度进行调整，可以使得音频更加符合应用需求。

通过降低原始视频的分辨率，可以在损失清晰度的同时提升人脸特征提取的效率，进而可快速识别出目标数字人的嘴部区域，对目标数字人进行统一口型处理；在基于口型重构生成第二视频之后，将第二视频由第二分辨率调整为第一分辨率，可以恢复视频的清晰度，保证视频的呈现效果。

本申请实施例提供一种视频生成装置，如图4所示，包括：

第一生成模块401，用于根据视频讲解文本和目标数字人的声音特征，生成目标音频，所述目标数字人为基于真实人物所构建的数字化形象；

处理模块402，用于基于所述目标音频和口型同步模型确定口型信息集合，根据所述口型信息集合对所述目标数字人对应的原始视频进行口型重构处理，获取所述目标数字人的口型与所述目标音频匹配的第一目标视频；

第二生成模块403，用于将所述目标音频与所述第一目标视频合成，生成所述目标数字人基于所述视频讲解文本、以动态形象进行内容讲解的第二目标视频；

剪辑生成模块404，用于基于视频展示需求，对所述第二目标视频进行自动化剪辑，生成最终视频。

可选地，所述第一生成模块包括：

转化获取子模块，用于基于所述目标数字人的声音特征，将所述视频讲解文本进行音频转化，获取第一音频；

调整生成子模块，用于在音速和/或音调维度对所述第一音频进行调整，生成所述目标音频。

可选地，所述口型重构处理至少包括视频标准化、嘴部区域选定以及嘴部区域口型调整；所述处理模块包括：

处理获取子模块，用于对所述原始视频中的目标数字人进行统一口型处理，获取第一视频，经过统一口型处理后的所述目标数字人的嘴部为闭合状态；

选定子模块，用于选定所述第一视频中目标数字人的嘴部区域；

调整生成子模块，用于根据所述口型信息集合，调整所述第一视频中目标数字人的嘴部区域的口型，以基于对目标数字人的口型重构、生成第二视频；

获取子模块，用于基于所述第二视频获取所述目标数字人的口型与所述目标音频匹配的第一目标视频；

其中，所述视频标准化包括统一口型处理。

可选地，所述口型信息集合包括所述目标音频在第一时长内对应的口型信息；所述调整生成子模块进一步用于：

可选地，所述视频标准化还包括降低视频分辨率；所述装置还包括：

调整模块，用于在对所述原始视频中的目标数字人进行统一口型处理之前，将所述原始视频的分辨率由第一分辨率调整为第二分辨率，所述第二分辨率小于所述第一分辨率；

所述获取子模块进一步用于：

将所述第二视频由所述第二分辨率调整为所述第一分辨率，生成对应于所述第一分辨率且所述目标数字人的口型与所述目标音频匹配的第一目标视频。

可选地，所述原始视频仅包括画面信息或者包括画面信息和音频信息，在所述原始视频包括画面信息和音频信息的情况下，所述视频标准化还包括消除音频信息处理；所述装置还包括：

静音模块，用于在对所述原始视频中的目标数字人进行统一口型处理之前，消除所述原始视频对应的音频信息。

可选地，所述原始视频为在绿幕场景下对所述目标数字人进行视频录制所生成，所述第二目标视频为所述目标数字人在绿幕场景下基于所述视频讲解文本进行内容讲解的视频；所述剪辑生成模块包括：

抠除添加子模块，用于依次对所述第二目标视频进行绿幕抠除、添加目标背景图；

添加生成子模块，用于在添加所述目标背景图后的第二目标视频中，在第一位置添加介绍文案、在第二位置添加字幕、在第三位置添加固定结尾，生成所述最终视频；

可选地，所述装置还包括：

第三生成模块，用于基于所述目标音频生成所述最终视频的字幕；

其中，所述最终视频中字幕的显示更新频率与所述目标音频的播报更新频率相同。

可选地，所述装置还包括：

采集模块，用于在多个真实人物中选定目标人物，并采集所述目标人物的音频信息和人物形象信息；

训练获取模块，用于基于所述目标人物的音频信息和人物形象信息进行模型训练，获取所述目标数字人以及所述目标数字人对应的声音特征。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例还提供了一种电子设备，包括：处理器，存储器，存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

举例如下，图5示出了一种电子设备的实体结构示意图。如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，处理器510用于执行以下步骤：根据视频讲解文本和目标数字人的声音特征，生成目标音频，所述目标数字人为基于真实人物所构建的数字化形象；基于所述目标音频和口型同步模型确定口型信息集合，根据所述口型信息集合对所述目标数字人对应的原始视频进行口型重构处理，获取所述目标数字人的口型与所述目标音频匹配的第一目标视频；将所述目标音频与所述第一目标视频合成，生成所述目标数字人基于所述视频讲解文本、以动态形象进行内容讲解的第二目标视频；基于视频展示需求，对所述第二目标视频进行自动化剪辑，生成最终视频。处理器510还可以执行本申请实施例中的其他方案，这里不再进一步阐述。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

本领域普通技术人员可以意识到，结合本申请实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：五八畅生活(北京)信息技术有限公司;