视频分析方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 10:32:14

技术领域

本申请涉及人工智能技术领域，更具体地，涉及一种视频分析方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，很多智能机器学习、深度学习的不同算法被应用于数字人生成上。现有技术在生成数字人时，通常是将语音或者文本等输入至机器学习或者深度学习模型中，以生成与数字人相关的视频，但是现有技术却没有对数字人进行评价的具体方案。因此，如何对生成的第二视频进行评价是亟待解决的问题。

发明内容

鉴于上述问题，本申请提出了一种视频分析方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种视频分析方法，该方法包括：获取第一视频和所述第一视频对应的第一语音，所述第一视频包括多个第一帧图像，每个所述第一帧图像包括多个第一关键点；将所述第一语音输入至视频生成模型，得到第二视频，所述第二视频包括多个第二帧图像，每个所述第二帧图像包括多个第二关键点，所述第二关键点和所述第一关键点相互对应；获取所述第一视频中每个所述第一关键点与所述第二视频中每个第二关键点之间的第一距离；根据所述第一距离确定所述第二视频是否符合预设条件；若符合预设条件，则确定所述第二视频为第一等级视频

进一步地，获取第三视频和所述第三视频对应的第三语音；将所述第三视频和所述第三语音输入至视频生成网络，得到视频生成模型。

进一步地，将所述第三语音输入至所述视频生成模型，得到第四视频；获取所述第三视频中每个第三关键点与所述第四视频中每个第四关键点之间的第二距离；根据所述第一距离和所述第二距离确定所述第二视频是否符合预设条件。

进一步地，获取所述第一距离和所述第二距离的差值，得到距离差值；根据所述距离差值确定所述第二视频是否符合预设条件。

进一步地，获取所述距离差值与所述第二距离的比值，得到目标参数；根据所述目标参数确定所述第二视频是否符合预设条件。

进一步地，确定所述目标参数是否小于第一预设阈值；若所述目标参数小于第一预设阈值，则确定所述第二视频符合预设条件。

进一步地，若所述目标参数大于或者等于第一预设阈值，则确定所述目标参数是否小于第二预设阈值；若所述目标参数小于第二预设阈值，则确定所述第二视频为第二等级视频，所述第二等级视频的用户满意度低于所述第一等级视频的用户满意度。

进一步地，若所述目标参数大于或者等于第二预设阈值，则确定所述第二视频为第三等级视频，所述第三等级视频的用户满意度低于所述第二等级视频的用户满意度。

进一步地，第一预设阈值为0.05，所述第二预设阈值为0.1。

进一步地，将所述第一语音输入至视频生成模型，得到候选视频；确定所述候选视频中是否包含人脸图像；若所述候选视频中包含人脸图像，则将所述候选视频作为第二视频。

进一步地，若所述候选视频中未包含人脸图像，则确定第二视频生成失败。

进一步地，在所述多个第一关键点中查找多个第一嘴部关键点，以及在所述多个第二关键点中查找多个第二嘴部关键点，每个所述第一嘴部关键点和每个所述第二嘴部关键点相互对应；获取所述第一视频中每个所述第一嘴部关键点与所述第二视频中每个第二嘴部关键点之间的第一距离。

第二方面，本申请实施例提供了一种视频分析装置，该装置包括：第一获取模块、第二获取模块、第三获取模块、条件确定模块以及视频确定模块。其中，第一获取模块，用于获取第一视频和所述第一视频对应的第一语音，所述第一视频包括多个第一帧图像，每个所述第一帧图像包括多个第一关键点。第二获取模块，用于将所述第一语音输入至视频生成模型，得到第二视频，所述第二视频包括多个第二帧图像，每个所述第二帧图像包括多个第二关键点，所述第二关键点和所述第一关键点相互对应。第三获取模块，用于获取所述第一视频中每个所述第一关键点与所述第二视频中每个第二关键点之间的第一距离。条件确定模块，用于根据所述第一距离确定所述第二视频是否符合预设条件。视频确定模块，用于若符合预设条件，则确定所述第二视频为第一等级视频

第三方面，本申请实施例提供了一种电子设备，其包括：存储器、一个或多个处理器以及一个或多个应用程序。其中，一个或多个处理器与存储器耦接。一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面的方法。

本申请实施例提供的视频分析方法、装置、电子设备及存储介质，该方法通过结合第一关键点与第二关键点之间的距离，来确定用户对生成的第二视频是否满意，评价方式简单有效，首先获取第一视频和第一视频对应的第一语音，其中，第一视频包括多个第一帧图像，每个第一帧图像包括多个第一关键点，然后将第一语音输入至视频生成模型，得到第二视频，第二视频包括多个第二帧图像，每个第二帧图像包括多个第二关键点，第二关键点和第一关键点是相互对应的，接着获取第一视频中每个第一关键点与第二视频中每个第二关键点之间的第一距离，当第二视频符合预设条件时，确定第二视频为第一等级视频。本申请实施例通过获取第一关键点和第二关键点之间的距离来准确有效的对生成的第二视频进行评价。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请第一实施例提供的视频分析方法的流程示意图。

图2示出了本申请第一实施例提供的视频分析方法中脸部关键点示意图。

图3示出了本申请第二实施例提供的视频分析方法的流程示意图。

图4示出了本申请第三实施例提供的视频分析方法的流程示意图。

图5示出了本申请第三实施例提供的视频分析方法中步骤S380的流程示意图。

图6示出了本申请第四实施例提供的视频分析方法的流程示意图。

图7示出了本申请第五实施例提供的视频分析方法的流程示意图。

图8示出了本申请第六实施例提供的视频分析方法的流程示意图。

图9示出了本申请第七实施例提供的视频分析方法的流程示意图。

图10示出了本申请第八实施例提供的视频分析装置的模块框图。

图11是本申请第九实施例的用于执行根据本申请实施例的视频分析方法的电子设备的框图。

图12是本申请第十实施例的用于保存或者携带实现根据本申请实施例的视频分析方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前生成数字人的方案越来越多，但是却没有一个很好的评价方案来判断生成数字人的好坏，尤其在利用语音合成数字人时，没有对应的关键点，如此也导致没有一个很好的方案来对生成数字人的好坏进行评价，只能通过用户的主观感受俩进行评判。换句话说，现有技术在对生成数字人进行评价时，主要是通过人的肉眼来进行评价的，其没有一个标准化的评价方式，并且不同人对生成的数字人的看法可能不同，不能保证评价的准确性和一致性，尤其是对于非专业人员来说，因不具有专业知识，其无法保证评价的准确性，同时其评价结果的信服力也较弱。

为了改善上述问题，发明人提出了本申请实施例中的视频分析方法、装置、电子设备及存储介质本申请实施例，该方法通过结合第一视频对应第一关键点与第二视频对应关键点之间的距离来对生成的第二视频进行准确有效的评价。

下面将通过具体实施例对本申请实施例提供的视频分析方法、装置、电子设备及存储介质进行详细说明。

第一实施例

请参阅图1，图1示出了本申请实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S110至步骤S150。

步骤S110：获取第一视频和所述第一视频对应的第一语音。

本申请实施例可以应用于电子设备，该电子设备可以是智能手机、平板电脑等能够运行应用程序的电子设备。电子设备可以获取第一视频和第一视频对应的第一语音，其中，第一视频可以包括多个第一帧图像，且每个第一帧图像包括多个第一关键点，所述第一关键点可以是人脸的关键点。本发明实施例中，第一帧图像包括的第一关键点可以是人脸中从眉毛到鼻子到嘴巴，到人脸的轮廓的关键点。

在一些实施方式中，第一帧图像中的多个第一关键点的数量可以是68个，本发明实施例可以将所述多个第一关键点分为内部关键点和轮廓关键点，其中，内部关键点可以包括眼睛、鼻子和嘴巴共计51个关键点，轮廓关键点包括17个关键点。为了更清楚的理解关键点的分布，本发明给出了如图2所示的示图，从图2可以看出，单边眉毛可以包括5个关键点，从左边界到右边界均匀采样，共5×2＝10个；眼睛分为6个关键点，分别是左右边界，上下眼睑均匀采样，6×2＝12个；嘴唇分为20个关键点，除了嘴角的2个，分为上下嘴唇，上下嘴唇的外边界，各自均匀采样5个点，上下嘴唇的内边界，各自均匀采样3个点，共20个；鼻子对应的鼻梁部分包括4个关键点，而鼻尖部分则均匀采集5个，即鼻子共9个关键点；脸部轮廓均匀采用17个关键点。综上，本发明实施例中的第二关键点的数量为68个。

在一些实施方式中，第一视频主要用于提供第一语音，获取到第一视频和所述第一视频对应的第一语音后，电子设备可以将其获取的第一语音输入至视频生成模型，以得到第二视频，即进入步骤S120。

在一些实施方式中，第一视频包括的多个第一帧图像中可以包括多个人脸图像，这些人脸图像可以构成不同的点头、眨眼、摇头或者说话等动作，而第一视频包括的第一语音则可以是与所述点头、眨眼、摇头或者说话等动作相互对应的。本申请实施例中，只要有语音数据产生则对应的第一帧图像上的内容就会不同，例如，在第一时刻第一帧图像A上的人物A嘴部保持在闭合状态，而在第二时刻第一帧图像B上的人物A嘴部保持在张开状态，可见，第一语音不同，则对应的视频内容也可能不相同。

步骤S120：将所述第一语音输入至视频生成模型，得到第二视频。

在一些实施方式中，获取到第一视频对应的第一语音之后，电子设备可以将所述第一语音输入至视频生成模型，得到第二视频。其中，视频生成模型主要作用基于语音生成视频，且视频生成模型可以是经过大量语音数据和视频数据训练得到。另外，第二视频可以包括多个第二帧图像，每个所述第二帧图像包括多个第二关键点，所述第二关键点和第一帧图像包含的第一关键点是相互对应的。为了更清楚的理解第一关键点和第二关键点的关系，现给出如下示例。例如，视频A中人物a在说话，且在保持微笑，利用视频A中的语音生成的视频B中人物b也可能在说话，且在保持微笑。可见，第二视频是基于第一视频的语音生成的，第二视频和第一视频越相近，则表明生成的第二视频更符合用户的实际需求。

在另一些实施方式中，获取到第一视频对应的第一语音之后，电子设备也可以获取一个载体视频，然后将所述第一语音和所述载体视频一起输入至视频生成模型，通过所述视频生成模型获取到第二视频，其中，载体视频主要作用是指导数字人点头、眨眼、表情以及光照等，所述光照可以包括亮度以及饱和度等。基于第一语音、载体视频以及视频生成模型得到第二视频时，不仅需要保证数字人有点头、眨眼等动作，而且需要使数字人具有表情，其在一定程度上可以使最终生成的第二视频更能符合用户的实际需求。

在另一些实施方式中，为了使最终生成的第二视频更加真实，电子设备在利用载体视频辅助生成第二视频时，其可以包含光照，所述光照包括亮度以及饱和度等。另外，在获取到载体视频时，电子设备也可以先确定所述载体视频对应的亮度和饱和度，而后判断所述载体视频对应的亮度是否大于亮度阈值，若大于亮度阈值，则确定饱和度是否大于饱和度阈值，如果饱和度也大于饱和度阈值，则将载体视频和第一语音输入至视频生成模型，以此生成第二视频。如此，可以使最终获取的第二视频的更符合用户的实际需求，因为在实际情况中，亮度以及饱和度比较高的视频可以使用户的心情能够得到提升。

另外，当载体视频对应的亮度小于亮度阈值时，电子设备可以对载体视频进行视频处理，即增大载体视频的亮度，同理，当载体视频对应的饱和度小于饱和度阈值时，电子设备同样也可以对载体视频进行视频处理，即增大载体视频的视频饱和度，如此便可以使最终生成的第二视频更加符合用户的实际需求。

步骤S130：获取所述第一视频中每个所述第一关键点与所述第二视频中每个第二关键点之间的第一距离。

在一些实施方式中，电子设备在获取到第二视频之后，其可以获取第一视频中每个第一关键点与第二视频中每个第二关键点之间的第一距离。通过上述介绍可以知道，第一视频可以包括多个第一帧图像，每个第一帧图像可以包括第一关键点，同理，第二视频可以包括多个第二帧图像，每个第二帧图像包括第二关键点，所述第二关键点和第一关键点是相互对应的。例如，第一关键点是左眉毛左角36，则第二关键点也是左眉毛左角36，二者不同之处在于，第一关键点属于第一视频的第一帧图像，而第二关键点则属于第二视频的第二帧图像。又如，第一关键点是左嘴角中心48，则第二关键点也是左嘴角中心48，二者不同之处在于，第一关键点属于第一视频的第一帧图像，而第二关键点则属于第二视频的第二帧图像。

作为一种方式，电子设备在获取到第一视频中每个第一关键点与第二视频中每个第二关键点之后，可以确定每个所述第一关键点在第一帧图像中的位置坐标，以及确定每个第二关键点在第二帧图像中的位置坐标，然后利用欧式距离获取每个第一关键点与每个第二关键点之间的距离，以此得到第一距离。例如，第一关键点左眉毛左角在第一帧图像中的坐标位置为(25，27)，第二关键点左眉毛左角在第一帧图像中的坐标位置为(22，25)，而后通过欧式距离计算得到第一关键点和第二关键点之间的距离为5，此处的位置坐标值仅作为参考，具体以实际值为准。

在一些实施方式中，可以将第一视频中所有第一关键点与第二视频中所有第二关键点的距离的均值作为第一距离，即将多个第一关键点和多个第二关键点之间的距离先求和，然后再求平均，以此得到第一距离，如总的距离和是408，那么此时第一距离就是408/68＝6。作为另一种方式，电子设备也可以将所有第一关键点与第二关键点距离的加权平均作为第一距离。

步骤S140：根据所述第一距离确定所述第二视频是否符合预设条件。

作为一种方式，获取到第一视频中每个第一关键点与第二视频中每个第二关键点之间的第一距离之后，本发明实施例可以根据所述第一距离确定第二视频是否符合预设条件。具体的，电子设备可以确定所述第一距离是否小于第一距离阈值，如果第一距离小于第一距离阈值，则确定第二视频符合预设条件。

作为另一种方式，电子设备也可以结合第一距离和其他距离共同确定第二视频是否符合预设条件。当第二视频符合预设条件时，确定第二视频为第一等级视频，即进入步骤S150。如果第二视频不符合预设条件，则表示生成的第二视频的效果不是很好，即第二视频可能是第二等级视频，所述第二等级视频为用户可接受视频，即第二等级视频的用户满意度低于所述第一等级视频的用户满意度，或者也可能是第三等级视频，所述第三等级视频为用户不可接受的视频，即第三等级视频的用户满意度低于所述第二等级视频的用户满意。具体如何判断第二视频为第二等级视频或者第三等级视频，后面实施例将会进行详细介绍，这里就不进行赘述。

步骤S150：若符合预设条件，则确定所述第二视频为第一等级视频。

本申请实施例中，当电子设备根据第一距离确定第二视频符合预设条件时，其可以确定第二视频为第一等级视频，其中，第一等级视频为用户非常满意的视频。例如，第一距离小于第一距离阈值，则表明生成的第二视频和原始的第一视频之间的差距不是很大，即表明利用视频生成模型生成的第二视频的效果比较好，此时可以确定生成的第二视频更符合用户的实际需求。

本申请一个实施例提供的视频分析方法通过结合第一关键点与第二关键点之间的距离，来确定用户对生成的第二视频是否满意，评价方式简单有效，首先获取第一视频和第一视频对应的第一语音，其中，第一视频包括多个第一帧图像，每个第一帧图像包括多个第一关键点，然后将第一语音输入至视频生成模型，得到第二视频，第二视频包括多个第二帧图像，每个第二帧图像包括多个第二关键点，第二关键点和第一关键点是相互对应的，接着获取第一视频中每个第一关键点与第二视频中每个第二关键点之间的第一距离，当第二视频符合预设条件时，确定第二视频为第一等级视频。本申请实施例通过获取第一关键点和第二关键点之间的距离来准确有效的对第二视频进行评价。

第二实施例

请参阅图3，图3示出了本申请另一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S210至步骤S270。

步骤S210：获取第一视频和所述第一视频对应的第一语音。

步骤S220：获取第三视频和所述第三视频对应的第三语音。

作为一种方式，第三视频可以称为载体视频，其主要作用是指导生成数字人点头、眨眼、表情以及光照等。第三视频可以看成是输入视频，其仅对视频做了处理，例如，点头、摇头等。

在一些实施方式中，电子设备可以获取多个待选取视频，然后确定所述待选取视频是否符合预设的选取条件，如果符合预设的选取条件，则对所述待选取视频进行视频处理得到第三视频，通过该第三视频便可以获取到第二视频中的点头或者摇头等动作。在另一些实施方式中，在确定待选取视频是否符合预设的选取条件时，电子设备可以确定待选取视频中是否包含人脸图像，如果包含人脸图像，则确定待选取视频符合预设的选取条件。

在另一些实施方式中，电子设备在确定待选取视频中包含人脸图像时，也可以继续确定所述待选取视频中的人脸是否有点头或者摇头等姿势，如果待选取视频中的人脸有点头或者摇头等动作，则将对所述待选区视频进行视频处理，得到第三视频。

在另一些实施方式中，在确定待选取视频中的人脸有点头或者摇头等姿势时，电子设备也可以统计所述待选取视频中点头和摇头等动作出现的次数，并确定该次数是否大于次数阈值，如果点头或者摇头等动作出现的次数大于次数阈值，则将对所述待选区视频进行视频处理，得到第三视频。

步骤S230：将所述第三视频和所述第三语音输入至视频生成网络，得到视频生成模型。

在一些实施方式中，获取到第三视频和第三视频对应的第三语音之后，电子设备可以将所述第三视频和第三语音输入至视频生成网络，以此得到视频生成模型。作为一种方式，电子设备可以利用多个第三视频和每个第三视频对应的第三语音对视频生成网络进行训练，得到视频生成模型，该视频生成模型可以基于输入的语音生成对应的第二视频，利用所述视频生成模型生成第二视频的方式简单，且更加智能化。

步骤S240：将所述第一语音输入至视频生成模型，得到第二视频。

本发明实施例中，电子设备可以将第一语音输入至视频生成模型，得到第二视频，也可以将第一语音和第三视频同时输入至视频生成模型，通过结合第一语音和第三视频可以使得最终获取的第二视频更加准确。

步骤S250：获取所述第一视频中每个所述第一关键点与所述第二视频中每个第二关键点之间的第一距离。

步骤S260：根据所述第一距离确定所述第二视频是否符合预设条件。

步骤S270：若符合预设条件，则确定所述第二视频为第一等级视频。

第三实施例

请参阅图4，图4示出了本申请又一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S310至步骤S390。

步骤S310：获取第一视频和所述第一视频对应的第一语音。

步骤S320：获取第三视频和所述第三视频对应的第三语音。

步骤S330：将所述第三视频和所述第三语音输入至视频生成网络，得到视频生成模型。

步骤S340：将所述第一语音输入至视频生成模型，得到第二视频。

步骤S350：获取所述第一视频中每个所述第一关键点与所述第二视频中每个第二关键点之间的第一距离。

在一些实施方式中，为了更准确的对生成的第二视频(数字人视频)进行评价，电子设备也可以获取第二距离，并结合第一距离和第二距离来确定生成的第二视频是否符合预设条件，其中，第二距离是第三视频中每个第三关键点与第四视频中每个第四关键点之间的距离，具体如下所述。

步骤S360：将所述第三语音输入至所述视频生成模型，得到第四视频。

通过上述介绍可以知道，第三视频为载体视频，其主要作用是指导数字人点头、眨眼表情以及光照等，即第二视频中数字人的点头、眨眼表情以及光照等动作均是在第三视频的基础上获取的。为了更好的对生成的第二视频进行评价，本发明实施例在获取到第二视频之后，可以将第三视频对应的第三语音输入至视频生成模型，得到第四视频。可见，第四视频是基于第三视频和第三语音生成的视频，其语音和视频均是来自于第三视频，通过获取第四视频和第三视频之间的差异，可以更好的对第二视频进行评价。

步骤S370：获取所述第三视频中每个第三关键点与所述第四视频中每个第四关键点之间的第二距离

本发明实施例在利用第三语音获取到第四视频之后，电子设备可以获取第三视频中每个第三关键点与第四视频中每个第四关键点之间的距离。第三视频可以包括多个第三帧图像，每个第三帧图像可以包括第三关键点，同理，第四视频可以包括多个第四帧图像，每个第四帧图像包括第四关键点，所述第四关键点和第三关键点是相互对应的。如，第三关键点是右眉毛右角45，则第四关键点也是右眉毛右角45，二者不同之处在于，第三关键点属于第三视频的第三帧图像，而第四关键点则属于第四视频的第四帧图像。又如，第三关键点是右嘴角中心54，则第四关键点也是右嘴角中心54，二者不同之处在于，第三关键点属于第三视频的第三帧图像，而第四关键点则属于第四视频的第四帧图像。

作为一种方式，电子设备在获取到第三视频中每个第三关键点与第四视频中每个第四关键点之后，可以确定每个所述第三关键点在第三帧图像中的位置坐标，以及确定每个第四关键点在第四帧图像中的位置坐标，然后利用欧式距离获取每个第三关键点与每个第四关键点之间的距离，以此得到第三距离。例如，第三关键点右眉毛右角在第三帧图像中的坐标位置为(25，27)，第四关键点右眉毛右角在第三帧图像中的坐标位置为(21，29)，而后通过欧式距离计算得到第三关键点和第四关键点之间的距离为4.47，此处的位置坐标值仅作为参考，具体以实际值为准。

在一些实施方式中，可以将第三视频中所有第三关键点与第四视频中所有第四关键点之间距离的均值作为第二距离，即将多个第三关键点和多个第四关键点之间的距离先求和，然后在求平均，以此得到第二距离，如总的距离和是408，那么此时第二距离就是408/68＝6。作为另一种方式，电子设备也可以将所有第三关键点与第四关键点距离的加权平均作为第二距离。

步骤S380：根据所述第一距离和所述第二距离确定所述第二视频是否符合预设条件。

作为一种方式，电子设备在获取到第一距离和第二距离之后，其可以根据第一距离和第二距离确定第二视频是否符合预设条件。具体的，请参阅图5，步骤S380可以包括步骤S381至步骤S382。

步骤S381：获取所述第一距离和所述第二距离的差值，得到距离差值。

在一些实施方式中，电子设备可以获取第一距离和第二距离的差值，得到距离差值，然后根据该距离差值确定第二视频是否符合预设条件，即进入步骤S382。具体的，电子设备可以确定距离差值是否小于差值阈值，若小于差值阈值，则表明第二视频符合预设条件，若大于则表明第二视频不符合预设条件。

步骤S382：根据所述距离差值确定所述第二视频是否符合预设条件。

通过上述介绍知道，电子设备可以根据第一距离和第二距离之间的距离差值来确定第二视频是否符合预设条件，其中，第一距离可以是第一视频和第二视频中关键点之间的平均距离，第二距离则可以是第三视频和第三视频中关键点之间的平均距离。获取到第一距离和第二距离之间的距离差值之后，电子设备可以确定该距离差值是否小于差值阈值，如若小于差值阈值，则确定第二视频符合预设条件，即确定第二视频为用户非常满意的视频，若距离差值大于或者等于差值阈值，则需要进一步确定第二视频属于哪一等级。

步骤S390：若符合预设条件，则确定所述第二视频为第一等级视频。

第四实施例

请参阅图6，图6示出了本申请另一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S401至步骤S411。

步骤S401：获取第一视频和所述第一视频对应的第一语音。

步骤S402：获取第三视频和所述第三视频对应的第三语音。

步骤S403：将所述第三视频和所述第三语音输入至视频生成网络，得到视频生成模型。

步骤S404：将所述第一语音输入至视频生成模型，得到第二视频。

步骤S405：获取所述第一视频中每个所述第一关键点与所述第二视频中每个第二关键点之间的第一距离。

步骤S406：将所述第三语音输入至所述视频生成模型，得到第四视频。

步骤S407：获取所述第三视频中每个第三关键点与所述第四视频中每个第四关键点之间的第二距离。

步骤S408：获取所述第一距离和所述第二距离的差值，得到距离差值。

在一些实施方式中，电子设备获取到第一视频关键点与第二视频关键点之间的第一距离，以及获取到第三视频关键点与第四视频关键点之间第二距离，而后其可以获取所述第一距离与第二距离之间的差值，得到距离差值。其中，第一视频可以称为语音提供视频；第二视频则可以称为语音生成视频，在生成第二视频时输入语音是第一视频的语音，而输入视频则可以是第三视频；第三视频可以称为载体视频，用来训练第二视频生成所需要的动作；第四视频可以称为载体生成视频，在生成第四视频时其输入语音是第三视频的语音，其输入视频是第三视频。

作为另一方式，获取所述第一距离和所述第二距离的差值，得到距离差值之前，电子设备也可以将其获取的第一视频和第一语音同时输入至视频生成模型，得到第五视频，然后获取所述第五视频中每个关键点与第一视频中每个关键点之间的距离，得到第三距离。在此基础上，电子设备可以获取所述第二距离和第三距离的平均值，得到目标距离，并将第一距离与目标距离的差值作为距离差值，而后获取该距离差值与目标距离的比值，作为目标参数。目标参数具体如何获取这里不进行明确限制，可以根据实际情况进行选择。

步骤S409：获取所述距离差值与所述第二距离的比值，得到目标参数。

在一些实施方式中，电子设备在获取到第一距离与第二距离之间的差值之后，其可以继续获取该距离差值与第二距离的比值，得到目标参数。例如，第一距离为5，第二距离为4.98，此时距离差值就为第一距离-第二距离＝5-4.98＝0.02，然后获取距离差值与第二距离的比值，得到的目标参数为0.004。

步骤S410：根据所述目标参数确定所述第二视频是否符合预设条件。

作为一种方式，在获取到目标参数之后，电子设备可以根据该目标参数确定第二视频是否符合预设条件，即电子设备可以确定目标参数是否小于比值阈值，若小于，则确定第二视频符合预设条件。本发明实施例中，比值阈值可以为第一预设阈值，所述第一预设阈值可以为0.05。如上示例中目标参数为0.004，可见，目标参数0.004小于第一预设阈值0.05，此时可以确定第二视频符合预设条件。

步骤S411：若符合预设条件，则确定所述第二视频为第一等级视频。

请参阅图7，图7示出了本申请又一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S510至步骤S560。

步骤S510：获取第一视频和所述第一视频对应的第一语音。

步骤S520：将所述第一语音输入至视频生成模型，得到第二视频。

步骤S530：获取所述第一视频中每个所述第一关键点与所述第二视频中每个第二关键点之间的第一距离。

通过上述介绍可以知道，电子设备在获取到第一距离之后，其可以继续获取第二距离以及第三距离等，而后根据其获取的第一距离、第二距离以及第三距离可以获取到目标参数。在此基础上，电子设备可以确定其获取的目标参数是否符合预设条件，即确定目标参数是否小于第一预设阈值，即进入步骤S540。

步骤S540：确定目标参数是否小于第一预设阈值。

作为一种方式，第一预设阈值可以根据经验值设置的，也可以根据第二视频生成过程确定，或者也可以根据视频生成模型的更新次数等来进行确定。在一个具体的实施方式中，视频生成模型更新一次，则对应第一预设阈值则可以对应更新一次，即第一预设阈值可以根据视频生成模型的权值参数比值来对应进行更新，其中，视频生成模型的权值参数比值可以是最新模型的权值参数与前一模型的权值参数之间的比值，在获取到权值参数比值之后，电子设备可以利用第一预设阈值乘以该权值参数比值，以此得到新的第一预设阈值。

步骤S550：若所述目标参数小于第一预设阈值，则确定所述第二视频符合预设条件。

在一些实施方式中，当确定目标参数小于第一预设阈值时，表明第二视频符合预设条件，即利用第一语音和第三视频生成的第二视频为第一等级视频，即生成的第二视频为用户满意的视频。

在另一些实施方式中，如果目标参数大于或者等于第一预设阈值，则电子设备可以继续确定目标参数是否小于第二预设阈值，如果目标参数小于第二预设阈值，则确定第二视频为第二等级视频，其中，第二等级视频的用户满意度低于所述第一等级视频的用户满意度，其为用户可接受视频。

在另一些实施方式中，如果目标参数大于或者等于第二预设阈值，则确定第二视频为第三等级视频，其中，第三等级视频的用户满意度低于所述第二等级视频的用户满意度，该第三等级视频为用户不可接受的视频。本发明实施例中，第二预设阈值和第一预设阈值类似，其可以根据经验值设置，也可以根据视频生成的实际情况进行设置，具体如何设置这里不进行明确限制。另外，第一预设阈值可以设置为0.05，而第二预设阈值则可以设置为0.1。

步骤S560：若符合预设条件，则确定所述第二视频为第一等级视频。

第六实施例

请参阅图8，图8示出了本申请另一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S610至步骤S670。

步骤S610：获取第一视频和所述第一视频对应的第一语音。

步骤S620：将所述第一语音输入至视频生成模型，得到候选视频。

在一些实施方式中，为了使最终获取的第二视频更加准确，电子设备在将第一语音和载体视频(第三视频)输入至视频生成模型，得到候选视频之后，其可以确定候选视频中是否包含人脸图像，即进入步骤S630。

步骤S630：确定所述候选视频中是否包含人脸图像。

作为一种方式，电子设备在获取到候选视频之后，可以确定该候选是否中是否包含人脸图像，若候选视频中包含人脸图像，则将该候选视频作为第二视频，即进入步骤S640。

作为另一种方式，本申请实施例可以先对该候选视频进行采样处理，而后确定采样获取的候选帧图像中是否包含人脸图像，若候选帧图像中包含人脸图像，则获取包含人脸图像的候选帧图像的数量，并确定该候选帧图像的数量是否大于数量阈值，若大于数量阈值，则确定该候选视频中包含人脸图像。

在另一些实施方式中，在确定候选视频中包含人脸图像时，电子设备也可以根据该候选视频中的人脸图像确定候选视频中的人脸的性别，并确定该性别与第三视频中人脸的性别是否相同，如果相同，则将该候选视频为第二视频。

在另一些实施方式中，当候选视频中的人脸的性别与第三视频中人脸的性别相同时，电子设备也可以根据候选视频中的人脸图像确定候选视频中人脸的年龄阶段、国籍等与第三视频中人脸的年龄阶段、国籍等是否相同。若相同，则将所述候选视频作为第二视频。

步骤S640：若所述候选视频中包含人脸图像，则将所述候选视频作为第二视频。

步骤S650：获取所述第一视频中每个所述第一关键点与所述第二视频中每个第二关键点之间的第一距离。

步骤S660：根据所述第一距离确定所述第二视频是否符合预设条件。

步骤S670：若符合预设条件，则确定所述第二视频为第一等级视频。

第七实施例

请参阅图9，图9示出了本申请又一实施例提供的视频分析方法的流程示意图，本方法可以包括步骤S710至步骤S760。

步骤S710：获取第一视频和所述第一视频对应的第一语音。

步骤S720：将所述第一语音输入至视频生成模型，得到第二视频。

步骤S730：在所述多个第一关键点中查找多个第一嘴部关键点，以及在所述多个第二关键点中查找多个第二嘴部关键点。

在一些实施方式中，将第一语音和载体视频(第三视频)输入至视频生成模型，得到第二视频之后，电子设备可以在第一视频中的多个第一关键点中查找多个第一嘴部关键点，以及在第二视频的多个第二关键点中查找多个第二嘴部关键点，嘴部关键点可以如图2所示，从图2可以看出嘴部关键点包括关键点48至关键点67。

步骤S740：获取所述第一视频中每个所述第一嘴部关键点与所述第二视频中每个第二嘴部关键点之间的第一距离。

在本发明实施例中，电子设备可以获取第一视频中每个第一嘴部关键点和第二视频中每个第二关键点之间的第一距离，然后根据所述第一距离确定第二视频是否符合预设条件，即进入步骤S750。作为一种方式，电子设备在获取到每个第一嘴部关键点和第二关键点之间的距离后，可以对所有关键点距离求和，然后再利用总和除以总的嘴部关键点数，得到平均关键点距离值，并将该平均关键点距离值作为第一距离。另外，第一嘴部关键点和第二嘴部关键点是相互对应的。

步骤S750：根据所述第一距离确定所述第二视频是否符合预设条件。

步骤S760：若符合预设条件，则确定所述第二视频为第一等级视频。

通过嘴部关键点判断第二视频是否符合预设条件的方案和通过所有关键点判断第二视频是否符合预设条件的方案类似，步骤S750至步骤S760上述实施例已进行了详细介绍，这里就不进行一一赘述了。

第八实施例

请参阅图10，图10示出了本申请实施例提供的视频分析装置的模块框图。下面将针对图10所示的模块框图进行阐述，该视频分析装置800包括：第一获取模块810、第二模块820、第三获取模块830、条件确定模块840以及视频确定模块850。

第一获取模块810，用于获取第一视频和所述第一视频对应的第一语音，所述第一视频包括多个第一帧图像，每个所述第一帧图像包括多个第一关键点。

第二获取模块820，用于将所述第一语音输入至视频生成模型，得到第二视频，所述第二视频包括多个第二帧图像，每个所述第二帧图像包括多个第二关键点，所述第二关键点和所述第一关键点相互对应。

进一步地，第二获取模块820还用于将所述第一语音输入至视频生成模型，得到候选视频；确定所述候选视频中是否包含人脸图像；若所述候选视频中包含人脸图像，则将所述候选视频作为第二视频。

进一步地，第二获取模块820还用于若所述候选视频中未包含人脸图像，则确定第二视频生成失败。

第三获取模块830，用于获取所述第一视频中每个所述第一关键点与所述第二视频中每个第二关键点之间的第一距离。

进一步地，第三获取模块830还用于在所述多个第一关键点中查找多个第一嘴部关键点，以及在所述多个第二关键点中查找多个第二嘴部关键点，每个所述第一嘴部关键点和每个所述第二嘴部关键点相互对应；获取所述第一视频中每个所述第一嘴部关键点与所述第二视频中每个第二嘴部关键点之间的第一距离。

条件确定模块840，用于根据所述第一距离确定所述第二视频是否符合预设条件。

进一步地，条件确定模块840还用于将所述第三语音输入至所述视频生成模型，得到第四视频；获取所述第三视频中每个第三关键点与所述第四视频中每个第四关键点之间的第二距离；根据所述第一距离和所述第二距离确定所述第二视频是否符合预设条件。

进一步地，条件确定模块840还用于获取所述第一距离和所述第二距离的差值，得到距离差值；根据所述距离差值确定所述第二视频是否符合预设条件。

进一步地，条件确定模块840还用于获取所述距离差值与所述第二距离的比值，得到目标参数；根据所述目标参数确定所述第二视频是否符合预设条件。

进一步地，条件确定模块840还用于确定所述目标参数是否小于第一预设阈值；若所述目标参数小于第一预设阈值，则确定所述第二视频符合预设条件。

进一步地，条件确定模块840还用于若所述目标参数大于或者等于第一预设阈值，则确定所述目标参数是否小于第二预设阈值；若所述目标参数小于第二预设阈值，则确定所述第二视频为第二等级视频，所述第二等级视频的用户满意度低于所述第一等级视频的用户满意度。

进一步地，条件确定模块840还用于若所述目标参数大于或者等于第二预设阈值，则确定所述第二视频为第三等级视频，所述第三等级视频的用户满意度低于所述第二等级视频的用户满意度。第一预设阈值为0.05，所述第二预设阈值为0.1。

视频确定模块850，用于若符合预设条件，则确定所述第二视频为第一等级视频。

进一步地，将所述第一语音输入至视频生成模型，得到第二视频之前，装置800还用于获取第三视频和所述第三视频对应的第三语音；将所述第三视频和所述第三语音输入至视频生成网络，得到视频生成模型。

本申请实施例提供的视频分析装置800用于实现前述方法实施例中相应的视频分析方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的视频分析装置800能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置800和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置800或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

第九实施例

请参阅图11，其示出了本申请实施例提供的一种电子设备1000的结构框图。该电子设备1000可以是智能手机、平板电脑等能够运行应用程序的电子设备。本申请中的电子设备1000可以包括一个或多个如下部件：处理器1010、存储器1020以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1020中并被配置为由一个或多个处理器1010执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1010可以包括一个或者多个处理核。处理器1010利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1020内的指令、程序、代码集或指令集，以及调用存储在存储器1020内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器1010可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－PrograMMable Gate Array，FPGA)、可编程逻辑阵列(PrograMMable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1010可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1010中，单独通过一块通信芯片进行实现。

存储器1020可以包括随机存储器(Random ACCess Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1020可用于存储指令、程序、代码、代码集或指令集。存储器1020可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1000在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

第十实施例

请参阅图12，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1100中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王鑫宇;杨国基;刘炫鹏;陈泷翔;刘云峰;
专利申请人：深圳追一科技有限公司;

上一篇：双轴投影振镜及投影仪
下一篇：一种系数更新方法及设备接收端、设备发送端及系统