导航：首页> 电通信技术>一种视频剪辑方法、装置、设备及存储介质

一种视频剪辑方法、装置、设备及存储介质

文献发布时间：2024-04-18 20:02:40

技术领域

本申请实施例涉及一种视频处理技术领域，具体地，涉及一种视频剪辑方法、装置、设备及存储介质。

背景技术

当前社会，孩子是一个家庭的中心。随着科学技术的发展，出现了各种用于看护孩子的智能设备。这些智能设备可以实时获取到孩子的视频并保存，以供忙于工作的父母在闲暇时观看。

可以理解，在智能设备获取到的孩子的视频中，不可避免的会包含关于孩子成长的精彩瞬间的片段，对于不想要错过孩子精彩成长瞬间的家长来说，想要得到这些片段，需要从头到尾观看视频，从中手动裁剪出想要的片段。

但在实际应用中，这种方式耗时较长，效率较低，同时，在家长视频剪辑技术水平差异的影响下，还可能存在精彩片段捕捉不准确的问题。

发明内容

鉴于上述问题，本申请实施例提供了一种视频剪辑方法、装置、设备及存储介质，以高效、准确的捕捉到孩子成长的精彩瞬间片段，留下美好回忆。

根据本申请实施例的第一方面，提供了一种视频剪辑方法，所述方法包括：

获取目标对象的实时视频；

基于动作识别模型，对所述实时视频中的各图像帧进行处理，以识别出每帧所述图像帧中包含的所述目标对象的身体动作；

在确定所述图像帧中包含的所述身体动作符合预设动作时，从所述实时视频中剪辑出包含所述身体动作的视频片段。

在一些实施例中，所述基于动作识别模型，对所述实时视频中的各图像帧进行处理，以识别出每帧所述图像帧中包含的所述目标对象的身体动作，包括：

分别基于多层时间图卷积算法和空间图卷积算法对所述各帧图像进行处理，以识别出每帧所述图像帧中包含的所述目标对象的身体动作。

在一些实施例中，所述确定所述图像帧中包含的所述身体动作符合预设动作，包括：

从所述图像帧中提取出所述目标对象的第一骨架图特征；

根据所述第一骨架图特征确定与所述第一骨架图特征对应的第一姿态；

根据所述第一姿态确定所述图像帧中包含的所述身体动作是否符合所述预设动作。

在一些实施例中，所述根据所述第一姿态确定所述图像帧中包含的所述身体动作是否符合所述预设动作，包括：

获取所述第一姿态与预设姿态之间的相似度；其中，所述预设姿态是所述预设动作的骨架图特征对应的姿态；

在所述相似度大于预设相似度阈值的情况下，确定所述身体动作符合所述预设动作；

在所述相似度小于或等于所述预设相似度阈值的情况下，确定所述身体动作不符合所述预设动作。

在一些实施例中，所述从所述实时视频中剪辑出包含所述身体动作的视频片段，包括：

从所述实时视频中识别出包含所述身体动作的动作过程的全部图像帧；其中，所述动作过程包括所述身体动作的产生、所述身体动作的持续以及所述身体动作的结束；

按照时间顺序对所述全部图像帧进行排序，得到所述身体动作的视频片段。

在一些实施例中，所述获取目标对象的实时视频，包括：

通过摄像头获取所述目标对象的实时视频；其中，所述摄像头能够随着所述目标对象的动作而旋转，以确保能够捕捉到所述目标对象的实时视频。

在一些实施例中，所述获取目标对象的实时视频之前，所述方法还包括：

获取训练数据，所述训练数据包括至少一组训练样本，每组所述训练样本包括测试对象、所述测试对象的姿态信息以及所述测试对象的标签数据；

基于卷积神经网络算法和监督学习算法，对所述训练数据进行训练，得到所述动作识别模型。

根据本申请实施例的第二方面，提供一种视频剪辑装置，包括：

获取模块，用于获取目标对象的实时视频；

识别模块，用于基于动作识别模型，对所述实时视频中的各图像帧进行处理，以识别出每帧所述图像帧中包含的所述目标对象的身体动作；

剪辑模块，用于在确定所述图像帧中包含的所述身体动作符合预设动作时，从所述实时视频中剪辑出包含所述身体动作的视频片段。

根据本申请实施例的第三方面，提供一种视频剪辑设备，包括：处理器；所述处理器用于执行存储器中的计算机可执行程序或指令，使得所述视频剪辑设备执行本申请实施例的第一方面中任一项所述的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序或指令，所述计算机可执行程序或指令设置为执行本申请实施例的第一方面中任一项所述的方法。

本申请实施例提供的视频剪辑方法、装置、设备及存储介质，通过获取目标对象的实时视频；基于动作识别模型，对所述实时视频中的各图像帧进行处理，以识别出每帧所述图像帧中包含的所述目标对象的身体动作；在确定所述图像帧中包含的所述身体动作符合预设动作时，从所述实时视频中剪辑出包含所述身体动作的视频片段。根据本申请，可以在识别到目标对象做出预设动作时，自动从实时视频中剪辑出包含身体动作的视频片段，从而高效、准确的捕捉到孩子成长的精彩瞬间片段，留下美好回忆。

上述说明仅是本申请实施例技术方案的概述，为了能够更清楚了解本申请实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请一实施例提供的视频剪辑方法的示意性流程图。

图2是本申请一实施例提供的视频剪辑装置的示意性框图。

图3是本申请一实施例提供的视频剪辑设备的示意性框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

本申请的说明书和权利要求书及附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖而不排除其它的内容。单词“一”或“一个”并不排除存在多个。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语“实施例”并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

此外，本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序，可以明示或者隐含地包括一个或者更多个该特征。

在本申请的描述中，除非另有说明，“多个”的含义是指两个以上(包括两个)，同理，“多组”指的是两组以上(包括两组)。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，机械结构的“相连”或“连接”可以是指物理上的连接，例如，物理上的连接可以是固定连接，例如通过固定件固定连接，例如通过螺丝、螺栓或其它固定件固定连接；物理上的连接也可以是可拆卸连接，例如相互卡接或卡合连接；物理上的连接也可以是一体地连接，例如，焊接、粘接或一体成型形成连接进行连接。电路结构的“相连”或“连接”除了可以是指物理上的连接，还可以是指电连接或信号连接，例如，可以是直接相连，即物理连接，也可以通过中间至少一个元件间接相连，只要达到电路相通即可，还可以是两个元件内部的连通；信号连接除了可以通过电路进行信号连接外，也可以是指通过媒体介质进行信号连接，例如，无线电波。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

当前社会环境中，孩子是一个家庭的中心，孩子的父母、家人常常希望不错过孩子成长的任何瞬间，基于这一实际需求，各种用于看护的智能设备也应运而生。

智能设备通常会包括监护端和控制端，监护端通常设置在被监护人的主要活动空间，以实时地获取到被监护人的视频并保存，以供监护人在闲暇时观看。可以理解，在智能设备获取到的孩子的视频中，不可避免的会包含关于孩子成长的精彩瞬间的片段，例如，第一次翻身、第一次学会坐、第一次爬、第一次走路等等。

对于不想要错过孩子精彩成长瞬间的家长来说，想要得到这些片段，需要从头到尾观看视频，从中手动裁剪出想要的片段，这无疑是一种效率极其低下的剪辑方式。同时，不同的监护人的视频剪辑技术的水平差异也不同，这中方式还可能存在精彩成长片段捕捉不准确的问题，从而错失被监护人的精彩瞬间。

基于此，本申请实施例提出一种视频剪辑方法，能够在识别到被监护人做出预设动作时，自动从实时视频中剪辑出包含身体动作的视频片段，从而高效、准确的捕捉到被监护人成长的精彩瞬间片段，为监护人留下美好回忆。

为了使本领域技术人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。需要说明的是，在不冲突的情况下，本申请中不同的技术特征之间可以相互结合。

图1为本申请一实施例提供的视频剪辑方法的示意性流程图。如图1所示，本申请实施例的视频剪辑方法可以由视频剪辑装置执行，该视频剪辑装置设置在视频剪辑设备中，且该视频剪辑装置具有摄像头，具体的，本申请实施例的视频剪辑方法可以包括如下步骤：

步骤110:获取目标对象的实时视频。

目标对象是指被监护对象，该目标对象例如可以是婴幼儿。实时视频中至少包括目标对象的身体动作。进一步地，实时视频中还可以包括目标对象的表情。

在一些场景中，视频剪辑装置可以通过摄像头获取目标对象的实时视频。示例性的，该摄像头能够随着目标对象的动作而旋转，以确保能够捕捉到目标对象的实时视频。

例如，在被监护人是婴幼儿的场景下，当婴幼儿翻身时，该摄像头能够随着婴幼儿的翻身调整角度，以保证在获取到婴幼儿的身体动作的同时，仍能够获取到婴幼儿的面部图像。

步骤120:基于动作识别模型，对所述实时视频中的各图像帧进行处理，以识别出每帧所述图像帧中包含的所述目标对象的身体动作。

其中，动作识别模型用于对实时视频中的每一帧图像进行分析。具体的，在基于动作识别模型对实时视频中的各帧图像进行处理时，具体可以分别基于多层时间图卷积算法和空间图卷积算法对各帧图像进行处理，从而识别出每帧图像帧中包含的目标对象的身体动作。

具体地，视频剪辑装置可以按照时间顺序，将获取到的实时视频的每一帧图像作为该动作识别模型的输入，依次经过多层时间图卷积算法和空间图卷积算法的处理，识别出目标对象的身体动作。

该身体动作是指被监护人的动作，例如，平躺、翻身、举起胳膊、站立、行走、坐下、摔倒等等。

具体地，本实施例中，该动作识别模型可以是基于卷积神经网络算法和监督学习算法预先训练得到的，能够分析出实时视频的每一帧图像中目标对象的表情、动作和睡眠状态。

示例性的，训练该动作识别模型的过程可以包括：获取训练数据，该训练数据包括至少一组训练样本，每组训练样本包括测试对象、测试对象的姿态信息以及测试对象的标签数据。其中，测试对象的姿态信息是从测试对象的视频所包含的图像帧中提取出来骨架图特征，然后基于该骨架图特征得到的。

这样，在获取到训练数据后，将每组训练样本的测试对象、测试对象的姿态信息作为卷积神经网络算法和监督学习算法的输入，得到相对应的输出结果，然后将输出结果与该测试对象的标签数据相比较，得到差值，基于差值和损失函数对模型的参数进行更新，这样迭代训练，得到所述动作识别模型。

在识别出每帧所述图像帧中包含的所述目标对象的身体动作之后，执行步骤130:

步骤130:在确定所述图像帧中包含的所述身体动作符合预设动作时，从所述实时视频中剪辑出包含所述身体动作的视频片段。

其中，预设动作是预先确定的、普遍被认为是孩子成长精彩瞬间的动作，如，第一次翻身、第一次学会坐、第一次爬、第一次站立、第一次走路等等。当然，在实际应用中，也可以由用户自主设定预先动作，本实施例对此不做具体限定。

具体地，在确定所述图像帧中包含的所述身体动作符合预设动作时，视频剪辑装置可以先从所述图像帧中提取出所述目标对象的第一骨架图特征；再根据所述第一骨架图特征确定与所述第一骨架图特征对应的第一姿态；在得到第一姿态后，根据所述第一姿态确定所述图像帧中包含的所述身体动作是否符合所述预设动作。

在一种实现方式中，获取所述第一姿态与预设姿态之间的相似度；其中，所述预设姿态是所述预设动作的骨架图特征对应的姿态；在所述相似度大于预设相似度阈值的情况下，确定所述身体动作符合所述预设动作；在所述相似度小于或等于所述预设相似度阈值的情况下，确定所述身体动作不符合所述预设动作。

示例性的，假设获取到的第一姿态与预设姿态之间的相似度为85％，若预设相似度阈值为80％，由于85％大于80％，则可以确定身体动作符合预设动作。若预设相似度阈值为90％，由于85％小于90％，则可以确定身体动作不符合预设动作。

可以理解，上述实现方式仅作为一种示例，本实施例对如何根据第一姿态确定图像帧中包含的身体动作是否符合预设动作不做具体限定。

确定所述图像帧中包含的所述身体动作符合预设动作时，视频剪辑装置会自动从实时视频中剪辑出包含身体动作的视频片段。

具体地，视频剪辑装置可以从所述实时视频中识别出包含所述身体动作的动作过程的全部图像帧；然后按照时间顺序对所述全部图像帧进行排序，得到所述身体动作的视频片段。

其中，所述动作过程包括所述身体动作的产生、所述身体动作的持续以及所述身体动作的结束。例如，身体动作为行走动作，该动作过程可以包括站立，迈步、左右脚交替、站立、坐下。

视频剪辑装置得到身体动作的视频片段后，可以将该视频片段保存在内存中，监护人可以通过点击查看精彩瞬间的按钮，实现对这些视频片段的查看，也可以将这些视频片段转存至自己的存储设备，以留下美好回忆。

进一步地，在一些实施例中，监护人在查看精彩瞬间时，还可以选择对精彩瞬间的喜爱程度。这样，视频剪辑装置还可以根据实时视频和用户对视频片段的喜爱程度，对自动剪辑算法进行更新，以持续优化该自动剪辑算法，从而使视频剪辑装置能够更准确的剪辑到孩子成长的精彩瞬间片段。

本申请实施例的视频剪辑方法，通过获取目标对象的实时视频；基于动作识别模型，对所述实时视频中的各图像帧进行处理，以识别出每帧所述图像帧中包含的所述目标对象的身体动作；在确定所述图像帧中包含的所述身体动作符合预设动作时，从所述实时视频中剪辑出包含所述身体动作的视频片段。根据本申请，可以在识别到目标对象做出预设动作时，自动从实时视频中剪辑出包含身体动作的视频片段，从而高效、准确的捕捉到孩子成长的精彩瞬间片段，留下美好回忆。

图2为本申请一实施例提供的视频剪辑装置的示意性框图。如图2所示，本申请实施例的视频剪辑装置可用于执行上述方法实施例中的方法。具体的，本申请实施例的视频剪辑装置200可以包括：获取模块210，识别模块220以及剪辑模块230。

其中，获取模块210，用于获取目标对象的实时视频。

识别模块220，用于基于动作识别模型，对所述实时视频中的各图像帧进行处理，以识别出每帧所述图像帧中包含的所述目标对象的身体动作。

剪辑模块230，用于在确定所述图像帧中包含的所述身体动作符合预设动作时，从所述实时视频中剪辑出包含所述身体动作的视频片段。

在一个实现方式中，识别模块220具体可以用于分别基于多层时间图卷积算法和空间图卷积算法对所述各帧图像进行处理，以识别出每帧所述图像帧中包含的所述目标对象的身体动作。

在一个实现方式中，剪辑模块230具体可以用于从所述图像帧中提取出所述目标对象的第一骨架图特征；根据所述第一骨架图特征确定与所述第一骨架图特征对应的第一姿态；根据所述第一姿态确定所述图像帧中包含的所述身体动作是否符合所述预设动作。

在一个实现方式中，剪辑模块230具体可以用于获取所述第一姿态与预设姿态之间的相似度；其中，所述预设姿态是所述预设动作的骨架图特征对应的姿态；在所述相似度大于预设相似度阈值的情况下，确定所述身体动作符合所述预设动作；在所述相似度小于或等于所述预设相似度阈值的情况下，确定所述身体动作不符合所述预设动作。

在一个实现方式中，剪辑模块230具体可以用于从所述实时视频中识别出包含所述身体动作的动作过程的全部图像帧；其中，所述动作过程包括所述身体动作的产生、所述身体动作的持续以及所述身体动作的结束；按照时间顺序对所述全部图像帧进行排序，得到所述身体动作的视频片段。

在一个实现方式中，获取模块210具体可以用于通过摄像头获取所述目标对象的实时视频；其中，所述摄像头能够随着所述目标对象的动作而旋转，以确保能够捕捉到所述目标对象的实时视频。

在一个实现方式中，获取模块210还可以用于获取训练数据，所述训练数据包括至少一组训练样本，每组所述训练样本包括测试对象、所述测试对象的姿态信息以及所述测试对象的标签数据；基于卷积神经网络算法和监督学习算法，对所述训练数据进行训练，得到所述动作识别模型。

本申请实施例的视频剪辑装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

图3为本申请一实施例提供的视频剪辑设备的示意性结构图。如图3所示，本申请实施例的视频剪辑设备中可设置如图2所示的视频剪辑设备；或者，本申请实施例的视频剪辑设备300可以包括：处理器310；所述处理器310用于执行存储器320中的计算机可执行程序或指令，使得所述视频剪辑设备300执行如图1所示的实施例中的方法。

本申请一实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序或指令，所述计算机可执行程序或指令设置为执行图1所示实施例中的方法。

计算机可读存储介质包含但不限于电子、磁性、光学、电磁、红外的存储器或半导体系统、设备或者装置，或者前述的任意适当组合，存储器用于存储程序代码或指令，程序代码包括计算机操作指令，处理器用于执行存储器存储的上述方法的程序代码或指令。

存储器和处理器的定义，可以参考前述电子设备实施例的描述，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

在本申请各个实施例中的各功能单元或模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：无锡伙伴智能科技有限公司;

上一篇：一种基于脚本的多模态特征匹配视频剪辑方法及系统
下一篇：测试报表的生成方法、装置、测试设备及存储介质