动作检测方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 18:29:06

技术领域

本申请属于计算机技术领域，具体涉及一种动作检测方法、装置、电子设备及可读存储介质。

背景技术

现有的时序动作检测方法一般是先使用滑动窗口生成时序动作建议，再使用SVM等分类器对动作的开始时间和结束时间进行预测以及对动作进行分类。由于使用滑动窗口的方法在计算效率上比较低，并且在一定程度上限制了动作的时序边界，因此很难准确定位到精彩片段，需要采集更多的信息才能对动作的精彩片段进行准确定位，难以满足人们对比赛精彩视频集锦的需求。

发明内容

鉴于上述问题，本申请提出一种活体检测方法、装置、电子设备及存储介质，以实现改善上述问题。

第一方面，本申请实施例提供了一种动作检测方法，应用于电子设备，所述方法包括：首先获取待检测视频；然后将所述待检测视频输入到预先训练好的动作定位模型中，获取所述动作定位模型输出的所述待检测视频所包括的多个动作各自对应的定位结果，所述定位结果包括对应的动作的动作类别，以及所述动作类别对应的连续的多个视频帧；最后基于所述多个动作各自对应的定位结果，从所述待检测视频中获取与预设动作类别对应的连续的多个视频帧进行输出。

第二方面，本申请实施例提供了一种动作检测装置，运行于电子设备，所述装置包括：待检测视频获取单元，用于获取待检测视频；定位结果获取单元，用于将所述待检测视频输入到预先训练好的动作定位模型中，获取所述动作定位模型输出的所述待检测视频所包括的多个动作各自对应的定位结果，所述定位结果包括多个动作各自对应的动作类别以及每个动作类别对应的连续的多个视频帧；连续视频帧输出单元，用于基于所述多个动作各自对应的定位结果，从所述待检测视频中获取与预设动作类别对应的连续的多个视频帧进行输出。

第三方面，本申请实施例提供了一种活体检测方法电子设备，包括一个或多个处理器以及存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

本申请实施例提供了一种动作检测方法、装置、电子设备以及存储介质。本动作检测方法包括：首先获取待检测视频；然后将所述待检测视频输入到预先训练好的动作定位模型中，获取所述动作定位模型输出的所述待检测视频所包括的多个动作各自对应的定位结果，所述定位结果包括对应的动作的动作类别，以及所述动作类别对应的连续的多个视频帧；最后基于所述多个动作各自对应的定位结果，从所述待检测视频中获取与预设动作类别对应的连续的多个视频帧进行输出。通过上述方法，通过预先训练好的动作定位模型，获取多个动作的定位结果，并根据定位结果获取预设动作类别对应的连续的视频帧，从而准确定位视频精彩片段。

附图说明

为了更加清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的一种动作检测方法的流程图；

图2示出了本申请中步骤S110-步骤S130所述的过程的示意图；

图3示出了本申请又一实施例提出的一种动作检测方法的流程图；

图4示出了本申请再一实施例提出的一种动作检测方法的流程图；

图5示出了本申请再一实施例提出的一种动作检测装置的结构框图；

图6示出了本申请再一实施例提出的一种动作检测装置的结构框图；

图7示出了本申请实时中的用于执行本申请实施例的活体检测方法的电子设备的结构框图；

图8示出了本申请实时中的用于保存或者携带实现根据本申请实施例的活体检测方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应当理解这样使用的数据在适当的情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚列出的那些步骤或单元，二是可包括没有清楚地列出地或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在对比赛精彩视频进行剪辑时，通常要对比赛视频进行动作检测，来对比赛视频精彩片段进行获取。动作检测需要先定位目标，然后识别目标，相关的算法需要在给定一段未分割的长视频中，检测这段长视频中的动作片段，包括开始时间、结束时间和动作类别。相关算法的主要任务是找到动作的开始帧和结束帧，并对其进行分类。

发明人在对相关的动作检测方法的研究中发现，相关的动作检测方法，一般是基于VGG16模型来对比赛视频中的动作进行分类和定位。系统将比赛视频拆分成固定长度的视频段，并按照时间顺序对拆分的视频段进行标记，然后将每个视频段输入到预先训练好的VGG16模型中进行评分，判断视频段的得分是否满足预设的分数阈值，如果视频段的得分满足预设的分数阈值，则获取该视频段，并将比赛视频中所有满足预设分数阈值的视频段根据时间顺序排列成连续的视频组，将获取的视连续的视频组作为比赛精彩集锦进行输出。但在上述方法中，视频段长度固定，动作的标记时间的时间前后分别表示动作准备发生和动作已经发生，因此对动作前后的信息利用不够充分，定位精彩片段不够准确。

因此，发明人提出了本申请实施例中的动作检测方法、装置、电子设备及存储介质。首先获取待检测视频；然后将所述待检测视频输入到预先训练好的动作定位模型中，获取所述动作定位模型输出的所述待检测视频所包括的多个动作各自对应的定位结果，所述定位结果包括多个动作各自对应的动作类别以及每个动作类别对应的连续的多个视频帧；最后基于所述多个动作各自对应的定位结果，从所述待检测视频中获取与预设动作类别对应的连续的多个视频帧进行输出。通过上述方法，通过预先训练好的动作定位模型，获取多个动作的定位结果，并根据定位结果获取预设动作类别对应的连续的视频帧，从而准确定位视频精彩片段。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，本申请实施例提供了一种动作检测方法，应用于电子设备，所述方法包括：

步骤S110：获取待检测视频。

在本申请实施例中，待检测视频可以为通过视频采集装置实时进行采集的视频，视频采集装置可以为摄像机或手机摄像头；也可以为预先准备好的需要进行处理的视频，在此不做具体限定。

作为一种方式，当待检测视频为通过视频采集装置实时进行采集的视频时，当需要进行动作检测时，视频采集装置开启并获取当前的一段时间内的场景视频对应的连续视频帧作为待检测视频。示例性的，当当前场景为体育比赛时，摄像机对当前的比赛场景中的动作画面进行拍摄，记录比赛从开始到结束的时间内每个运动员的动作，并将获取到的视频作为待检测视频。

步骤S120：将所述待检测视频输入到预先训练好的动作定位模型中，获取所述动作定位模型输出的所述待检测视频所包括的多个动作各自对应的定位结果，所述定位结果包括对应的动作的动作类别，以及所述动作类别对应的连续的多个视频帧。

在本申请实施例中，预先训练好的动作定位模型可以包括两部分，一是特征提取模块，二是动作定位模块。其中，特征提取模块用于对待检测视频中的动作特征进行提取得到特征表示，动作定位模块用于获取待检测视频中的特征表示对应的定位结果。

在本申请实施例中，系统获取到待检测视频，将待检测视频首先输入到动作定位模型中预先训练好的特征提取模块中，输出得到待检测视频的特征表示，再将待检测视频的多个特征表示输入到预先训练好的动作定位模块中，输出得到待检测视频中包括的多个动作对应的动作类别以及动作类别对应的连续的多个视频帧。其中，在该连续的多个视频帧中，以关键视频帧作为连续的多个视频帧的首帧，在关键视频帧后包括有多个连续的视频帧。

步骤S130：基于所述多个动作各自对应的定位结果，从所述待检测视频中获取与预设动作类别对应的连续的多个视频帧进行输出。

在本申请实施例中，当动作定位模型输出待检测视频中包含的多个动作对应的动作类别以及动作类别对应的连续的多个视频帧后，根据预先选定的动作类别来对动作定位模型输出的多个动作对应的动作类别以及动作类别对应的连续的多个视频帧进行筛选，选择动作定位模型输出的多个动作对应的动作类别中与预先选定好的动作类别相同的动作类别，获取被选择的动作类别对应的连续的多个视频帧，并根据时间顺序将获取的连续的多个视频帧进行排序，将排序好的连续的多个视频帧进行输出。

示例性的，步骤S110、步骤S120和步骤S130所述的过程可以如图2所示，将待检测视频输入到多样化特征模块(相当于特征提取模块)中，输出得到待检测视频对应的多个特征表示，将多个特征表示输入到动作定位模块中，输出得到各个动作的定位结果以及对应的动作类别，对定位结果的首帧和尾帧进行标记，作为每个动作类别对应的定位结果的开始和结束，进而通过预先选定的动作类别对动作定位模块输出的动作类别进行筛选，选择与预先选定的动作类别相同的动作类别，将选择的动作类别与对应的定位结果输入到视频精彩集锦模块中，在视频精彩集锦模块中对选择的动作类别对应的定位结果进行裁剪，并按照时间顺序对裁剪结果进行排序输出。同时，待检测视频与动作定位模块输出的动作定位和动作定位对应的动作类别也会输入进视频精彩集锦模块中作为备份。

示例性的，步骤S110、步骤S120和步骤S130可以如步骤S111步骤S121和步骤S131所示。

步骤S111：获取监控视频

在本申请实施例中，监控视频可以为通过视频采集装置实时进行采集的视频，视频采集装置可以为摄像头。

步骤S121：将所述监控视频输入到预先训练好的动作定位模型中，获取所述动作定位模型输出的所述监控视频所包括的多个异常片段各自对应的定位结果。

在本申请实施例中，系统获取到监控视频，将监控视频首先输入到动作定位模型中预先训练好的特征提取模块中，输出得到监控视频的特征表示，再将监控视频的多个特征表示输入到预先训练好的动作定位模块中，输出得到监控视频中包括的多个异常片段对应的动作类别以及动作类别对应的连续的多个视频帧。其中，在该连续的多个视频帧中，以关键视频帧作为连续的多个视频帧的首帧，在关键视频帧后包括有多个连续的视频帧。

其中，异常片段用于表征在正常的监控视频中不会出现的场景。示例性的，在安保环境中，监控场景中一般不会有人，当人出现在监控视频中时，即可判断该时刻为异常情况，直至人不存在于监控视频中为止，将这段视频视为异常片段。

步骤S131：基于所述多个异常片段各自对应的定位结果，从所述监控视频中获取与预设动作类别对应的连续的多个视频帧进行输出。

在本申请实施例中，当动作定位模型输出监控视频中包含的多个异常片段对应的动作类别以及动作类别对应的连续的多个视频帧后，根据预先选定的动作类别来对动作定位模型输出的多个异常片段对应的动作类别以及动作类别对应的连续的多个视频帧进行筛选，选择动作定位模型输出的多个异常片段对应的动作类别中与预先选定好的动作类别相同的动作类别，获取被选择的动作类别对应的连续的多个视频帧，并根据时间顺序将获取的连续的多个视频帧进行排序，将排序好的连续的多个视频帧进行输出。

本申请提供的一种动作检测方法，首先获取待检测视频；然后将所述待检测视频输入到预先训练好的动作定位模型中，获取所述动作定位模型输出的所述待检测视频所包括的多个动作各自对应的定位结果，所述定位结果包括对应的动作的动作类别，以及所述动作类别对应的连续的多个视频帧；最后基于所述多个动作各自对应的定位结果，从所述待检测视频中获取与预设动作类别对应的连续的多个视频帧进行输出。通过上述方法，通过预先训练好的动作定位模型，获取多个动作的定位结果，并根据定位结果获取预设动作类别对应的连续的视频帧，从而准确定位视频精彩片段。

请参阅图3，本申请实施例提供了一种动作检测方法，应用于电子设备，所述方法包括：

步骤S210：获取待检测视频。

步骤S210具体可以参考上述实施例中的详细解释，故不在本实施例中进行赘述。

步骤S220：将所述待检测视频输入到所述特征提取模块中，获取所述特征提取模块输出的所述待检测视频对应的多个特征表示。

在本申请实施例中，特征提取模块中可以采用Video Swin Transformer算法、Vision Transformer算法等，在此不做具体限定。

示例性的，若特征提取模块中的算法为Video Swin Transformer，Video SwinTransformer有三个组成部分，一是video to token，二是model stages，三是head。其中video to token将2*2*4的视频块作为一组，再进行线性embedding和positionembedding；model stages是由多个重复的stage组成，每个stage包括了Video SwinTransformer Block和Patch merging，Patch merging用于间相邻token特征合并，再利用线性层进行降维；head用于在经过model stages之后，得到了多帧数据的高维特征，如果用于视频分类的话需要及逆行简单的帧融合。

在本申请实施例中，当特征提取模块识别到输入的待检测视频时，特征提取模块根据多个特征提取器对待检测视频中的动作特征进行提取，根据多个特征提取器对应的多个动作标签得到多个动作标签包含的多个动作类别以及每个动作对应的关键视频帧。其中，多个特征提取器由多个动作标签训练得到，将多个特征提取器作为特征提取模块输出得到待检测视频的特征表示。

示例性的，特征提取器的数量可以为三个，动作标签的数量可以为三个，特征提取器与动作标签一一对应。动作标签可以为6s、3s style1和3sstyle2，其中，6s的动作标签对应有18个动作类别，3s style1的动作标签对应有35个动作类别，3s style2的动作标签对应有52个动作类别。

在本申请实施例中，特征提取模块可以为预先基于神经网络模型训练好的提取模型。对特征提取模型的训练过程包括：

步骤S221：获取第一训练数据集，所述第一训练数据集包括多个视频，每个视频中包括多个动作的动作类别、每个动作对应的关键视频帧，以及每个关键视频帧对应的第一视频帧、第二视频帧和第三视频帧，所述第一视频帧包括每个关键视频帧之前第一预设时间内的视频帧以及每个关键视频帧之后第二预设时间内的视频帧，所述第二视频帧包括每个关键视频帧之前第三预设时间内的视频帧以及每个关键视频帧之后第三预设时间内的视频帧，所述第三视频帧包括每个关键视频帧之前第三预设时间内的视频帧、每个关键视频帧之后第三预设时间内的视频帧以及所述每个关键视频帧之后第三预设时间内的视频帧的尾帧之后第三预设时间内的视频帧。

在本申请实施例中，第一训练数据集可以为与应用场景相关的多个视频，可以从预先数据库中进行获取。示例性的，若应用场景为输出足球比赛精彩视频集锦，则可以将多个足球比赛视频作为第一训练数据集。

第一训练数据集中的每个视频中可以包含多个动作的动作类别、每个动作对应的关键视频帧，以及每个关键视频帧对应的第一视频帧、第二视频帧和第三视频帧。其中，第一视频帧包括每个关键视频帧之前第一预设时间内的视频帧以及每个关键视频帧之后第二预设时间内的视频帧，第一预设时间可以设置为2秒，第二预设时间可以设置为4秒，第一视频帧包括了18个动作类别；第二视频帧包括每个关键视频帧之前第三预设时间内的视频帧以及每个关键视频帧之后第三预设时间内的视频帧，第三预设时间可以为3秒，第二视频帧包括了25个动作类别，其中，关键视频帧之前第三预设时间内的视频帧包括了17个动作类别，关键视频帧之后第三预设时间内的视频帧包括了17个动作类别，还有1个副动作类别；第三视频帧包括每个关键视频帧之前第三预设时间内的视频帧、每个关键视频帧之后第三预设时间内的视频帧以及所述每个关键视频帧之后第三预设时间内的视频帧的尾帧之后第三预设时间内的视频帧，第三视频帧包括了52个动作类别，其中，关键视频帧之前第三预设时间内的视频帧包括了17个动作类别，关键视频帧之后第三预设时间内的视频帧包括了17个类别，关键视频帧之后第三预设时间内的视频帧的尾帧之后第三预设时间内的视频帧包括了17个动作类别，以及1个副动作类别。

步骤S222：将所述第一训练数据集输入到待训练的神经网络模型中，对所述待训练的神经网络模型进行训练，直至满足训练结束条件，得到所述特征提取模块。

在本申请实施例中，在对待训练的神经网络模型进行训练时，将第一训练数据集输入到待训练的神经网络模型中，对待训练的神经网络模型进行训练，直至训练次数达到预设训练次数时，即可判断特征提取模块训练结束。示例性的，预设训练次数可以为30次。

其中，待训练的神经网络模型中可以包括三个特征提取器，分别为第一特征提取器、第二特征提取器以及第三特征提取器。在基于第一训练数据集对待训练的神经网络模型进行训练时，可以基于不同的训练数据对不同的特征提取器进行训练。具体的，可以基于多个视频，每个视频中包括多个动作的动作类别、每个动作对应的关键视频帧以及每个关键视频帧对应的第一视频帧对第一特征提取器进行训练；基于多个视频，每个视频中包括多个动作的动作类别、每个动作对应的关键视频帧以及每个关键视频帧对应的第二视频帧对第二特征提取器进行训练；基于多个视频，每个视频中包括多个动作的动作类别、每个动作对应的关键视频帧以及每个关键视频帧对应的第三视频帧对第三特征提取器进行训练；直至满足训练结束条件，得到训练好的第一特征提取器、第二特征提取器以及第三特征提取器。

步骤S230：将所述多个特征表示输入到所述动作定位模块中，获取所述动作定位模块输出的所述待检测视频所包括的多个动作各自对应的定位结果。

在本申请实施例中，动作定位模块中的算法模型可以为动作时序检测模型，其中，动作时序检测模型可以包括S-CNN模型、R-CNN模型、R-C3D模型、CDC模型和Faster-TAD模型中的任意一种，在此不做具体限定。对于动作时序检测模型，给定一段未分割的长视频，动作时序检测模型需要检测视频中所包括的每个动作的动作片段，包括每个动作的开始时间、结束时间和动作类别，动作检测模型的任务是找到每个动作的开始帧和结束帧并对每个动作进行分类。

在本申请实施例中，当动作定位模块识别到输入的多个特征表示时，动作定位模块根据相关算法模型通过输入的待检测视频的多个特征表示对关键视频帧后的视频帧进行预测并获取，同时获取关键帧后的视频帧对应的动作类别，进而将关键帧、关键帧后的视频帧以及对应的动作类别进行输出。

在本申请实施例中，动作定位模块可以为预先基于神经网络模型训练好的定位模块。对动作定位模块的训练过程包括：

步骤S231：获取第二训练数据集，所述第二训练数据集包括多个视频，每个视频中包括多个动作的动作类别、每个动作的关键视频帧，以及每个关键视频帧之后第四预设时间内的视频帧。

在本申请实施例中，第二训练数据集可以为与应用场景相关的多个视频，可以从预先数据库中进行获取。示例性的，若应用场景为输出足球比赛精彩视频集锦，则可以将多个足球比赛视频作为第二训练数据集。

第二训练数据集中的每个视频中可以包括多个动作的动作类别、每个动作的关键视频帧以及灭个关键视频帧之后第四预设时间内的视频帧。其中第四预设时间可以设置为4秒。

步骤S232：将所述第二训练数据集输入到待训练的神经网络模型中，对所述待训练的神经网络模型进行训练，直至满足训练结束条件，得到所述动作定位模块。

在本申请实施例中，在对待训练的神经网络模型进行训练时，将第二训练数据集输入到待训练的神经网络模型中，对待训练的神经网络模型进行训练，直至训练次数达到预设训练次数时，即可判断特征提取模块训练结束。示例性的，预设训练次数可以为10次。

在训练得到特征提取模块和动作定位模块时，可以单独训练得到对应的特征提取模块和动作定位模块，也可以联合训练得到对应的特征提取模块和动作定位模块。其中，在联合训练得到对应的特征提取模块和动作定位模块时，在确定是否满足训练结束条件时，可以预先为特征提取模块和动作定位模块对应的损失函数设置对应的权重，当特征提取模块和动作定位模块对应的损失函数值满足预设值时，确定满足训练结束条件。

步骤S240：获取预设动作类别。

在本申请实施例中，系统检测到动作定位模块输出待检测视频中的定位结果，获取动作定位模块输出的定位结果中的动作类别以及动作类别对应的连续的多个视频帧后，系统获取预先设置好的动作类别。其中，预先设置好的动作类别可以为一种动作类别，也可以为多种动作类别，在此不做具体限定。

作为另一种方式，对于动作类别的设置时间，也可以在动作定位模块输出待检测视频中的动作类别以及动作类别对应的连续的多个视频帧后再对需要的动作类别进行设置，进而根据设置的动作类别对输出的待检测视频中的动作类别进行选择。

步骤S250：从所述多个动作各自对应的定位结果中，获取与所述预设动作类别相同的定位结果。

在本申请实施例中，当系统获取到动作定位模块输出的待检测视频中的动作类别以及动作类别对应的连续的多个视频帧后，将获取的待检测视频中的动作类别与预先设置好的动作类别进行对比，进而选择待检测视频中的动作类别与预先设置好的动作类别相同的动作类别，同时将被选择的动作类别对应的连续的多个视频帧的首帧和尾帧在时间轴上进行标记。

步骤S260：从所述待检测视频中获取所述定位结果对应的连续的多个视频帧进行输出。

在本申请实施例中，在系统根据预先设置好的动作类别获取到待检测视频中被选择的动作类别后，将被标记的被选择的动作类别对应的连续的多个视频帧的首帧和尾帧进行裁剪，然后根据时间顺序对裁剪的连续的多个视频帧进行排列，进而将排列好的连续的多个视频帧进行输出。

本申请提供的一种动作检测方法，首先获取待检测视频，然后将所述待检测视频输入到所述特征提取模块中，获取所述特征提取模块输出的所述待检测视频对应的多个特征表示，再将所述多个特征表示输入到所述动作定位模块中，获取所述动作定位模块输出的所述待检测视频所包括的多个动作各自对应的定位结果，然后获取预设动作类别，再从所述多个动作各自对应的定位结果中，获取与所述预设动作类别相同的定位结果，最后从所述待检测视频中获取所述定位结果对应的连续的多个视频帧进行输出。通过上述方法，通过预先训练好的动作定位模型，获取多个动作的定位结果，并根据定位结果获取预设动作类别对应的连续的视频帧，从而准确定位视频精彩片段。

请参阅图4，本申请实施例提供了一种动作检测方法，应用于电子设备，所述方法包括：

步骤S310：对所述动作定位模型进行模型剪枝或者压缩操作，得到轻量动作定位模型。

在本申请实施例中，由于动作定位模型占用的存储空间较大，同时需要的计算量较大，数据参数太多，因此在对待检测视频进行处理时需要花费较多的时间。为了减小动作定位模型占用的存储空间，同时提高动作定位模型的计算速度，对动作定位模型进行模型压缩处理。

作为一种方式，模型压缩的方式包括有网络剪枝、知识蒸馏、参数量化、架构设计和动态计算。示例性的，当模型压缩方法为网络剪枝时，先对动作定位模型中的权重和神经元的重要性进行评估。对权重的评估中，当动作定位模型中的权重数值接近0时，可能就是一个重要性较低的权重；如果权重的数值时较大的正值或者负值时，可能就是一个重要性较高的权重。对神经元的评估中，给定一个数据集，如果某个神经元的输出几乎都是0，那么这个神经元可能就是一个重要性较低的神经元。然后根据重要性对权重和神经元进行排序，将不重要的权重和神经元进行移除。由于对动作定位模型进行剪枝后可能准确率会有所下降，因此需要把剪枝后的动作定位模型重新通过数据集进行调整，直到达到满意的模型效果。

步骤S320：获取待检测视频。

步骤S320具体可以参考上述实施例中的详细解释，故不在本实施例中进行赘述。

步骤S330：将所述待检测视频输入到所述轻量动作定位模型中，获取所述轻量动作定位模型输出的所述待检测视频所包括的多个动作各自对应的定位结果。

在本申请实施例中，在对动作定位模型进行模型压缩后，得到轻量化的动作定位模型，将待检测视频输入到轻量化的动作定位模型中，由于动作定位模型经过模型压缩后占用存储空间变小同时计算速度加快，但准确率有所下降。因此对待检测视频的处理速度会相比于未进行模型压缩的动作定位模型更快，轻量化的动作定位模型会更快获得待检测视频中所包括的多个动作各自对应的定位结果，同时，由于计算的准确率下降，因此获取的多个动作各自对应的定位结果的准确率有所下降。

步骤S340：获取预设动作类别。

步骤S340具体可以参考上述实施例中的详细解释，故不在本实施例中进行赘述

步骤S350：从所述多个动作各自对应的定位结果中，获取与所述预设动作类别相同的定位结果。

步骤S350具体可以参考上述实施例中的详细解释，故不在本实施例中进行赘述。

步骤S360：从所述待检测视频中获取所述定位结果对应的连续的多个视频帧进行输出。

步骤S360具体可以参考上述实施例中的详细解释，故不在本实施例中进行赘述。

本申请提供的一种动作检测方法，首先对所述动作定位模型进行模型剪枝或者压缩操作，得到轻量动作定位模型，然后获取待检测视频，再将所述待检测视频输入到所述轻量动作定位模型中，获取所述轻量动作定位模型输出的所述待检测视频所包括的多个动作各自对应的定位结果，然后获取预设动作类别，再从所述多个动作各自对应的定位结果中，获取与所述预设动作类别相同的定位结果，最后从所述待检测视频中获取所述定位结果对应的连续的多个视频帧进行输出。通过上述方法，通过预先训练好的动作定位模型，获取多个动作的定位结果，并根据定位结果获取预设动作类别对应的连续的视频帧，从而准确定位视频精彩片段。

请参阅图5，本申请实施例提供了一种动作检测装置400，运行于电子设备，所述装置400包括：

待检测视频获取单元410，用于获取待检测视频；

作为一种方式，待检测视频获取单元410还用于获取监控视频。

定位结果获取单元420，用于将所述待检测视频输入到预先训练好的动作定位模型中，获取所述动作定位模型输出的所述待检测视频所包括的多个动作各自对应的定位结果，所述定位结果包括多个动作各自对应的动作类别以及每个动作类别对应的连续的多个视频帧；

作为一种方式，定位结果获取单元420还用于将所述待检测视频输入到所述特征提取模块中，获取所述特征提取模块输出的所述待检测视频对应的多个特征表示；将所述多个特征表示输入到所述动作定位模块中，获取所述动作定位模块输出的所述待检测视频所包括的多个动作各自对应的定位结果。

可选的，定位结果获取单元420还用于对所述动作定位模型进行模型剪枝或者压缩操作，得到轻量动作定位模型；将所述待检测视频输入到所述轻量动作定位模型中，获取所述轻量动作定位模型输出的所述待检测视频所包括的多个动作各自对应的定位结果。

可选的，定位结果获取单元420还用于将所述监控视频输入到预先训练好的动作定位模型中，获取所述动作定位模型输出的所述监控视频所包括的多个异常片段各自对应的定位结果。

连续视频帧输出单元430，用于基于所述多个动作各自对应的定位结果，从所述待检测视频中获取与预设动作类别对应的连续的多个视频帧进行输出。

作为一种方式，连续视频帧输出单元430还用于获取预设动作类别；从所述多个动作各自对应的定位结果中，获取与所述预设动作类别相同的定位结果；从所述待检测视频中获取所述定位结果对应的连续的多个视频帧进行输出。

可选的，连续视频帧输出单元430还用于基于所述多个异常片段各自对应的定位结果，从所述监控视频中获取与预设动作类别对应的连续的多个视频帧进行输出。

请参阅图6，所述装置400还包括：

特征提取模块训练单元440，用于获取第一训练数据集，所述第一训练数据集包括多个视频，每个视频中包括多个动作的动作类别、每个动作对应的关键视频帧，以及每个关键视频帧对应的第一视频帧、第二视频帧和第三视频帧，所述第一视频帧包括每个关键视频帧之前第一预设时间内的视频帧以及每个关键视频帧之后第二预设时间内的视频帧，所述第二视频帧包括每个关键视频帧之前第三预设时间内的视频帧以及每个关键视频帧之后第三预设时间内的视频帧，所述第三视频帧包括每个关键视频帧之前第三预设时间内的视频帧、每个关键视频帧之后第三预设时间内的视频帧以及所述每个关键视频帧之后第三预设时间内的视频帧的尾帧之后第三预设时间内的视频帧；将所述第一训练数据集输入到待训练的神经网络模型中，对所述待训练的神经网络模型进行训练，直至满足训练结束条件，得到所述特征提取模块。

动作定位模块训练单元450，用于获取第二训练数据集，所述第二训练数据集包括多个视频，每个视频中包括多个动作的动作类别、每个动作的关键视频帧，以及每个关键视频帧之后第四预设时间内的视频帧；将所述第二训练数据集输入到待训练的神经网络模型中，对所述待训练的神经网络模型进行训练，直至满足训练结束条件，得到所述动作定位模块。

需要说明的是，本申请中装置实施例与前述方法实施例是互相对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图7对本申请提供的一种电子设备进行说明。

请参阅图7，基于上述的活体检测方法、装置，本申请实施例还提供了另一种可以执行前述活体检测方式的电子设备500。电子设备500包括相互耦合的一个或多个(图中仅示出一个)处理器502、存储器504以及网络模块506。其中，该存储器504中存储有可以执行前述实施例中内容的程序，而处理器502可以执行该存储器504中存储的程序。

其中，处理器502可以包括一个或者多个处理核。处理器502利用各种接口和线路连接整个电子设备500内的各个部分，通过运行或执行存储在存储器504内的指令、程序、代码集或指令集，以及调用存储在存储器504内的数据，执行服务器500的各种功能和处理数据。可选地，处理器502可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器502可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器502中，单独通过一块通信芯片进行实现。

存储器504可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器504可用于存储指令、程序、代码、代码集或指令集。存储器504可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备500在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所述网络模块506用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块506可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述网络模块506可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块506可以与基站进行信息交互。

请参考图8，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质600中存储有程序代码，所述程序代码可以被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质600包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李薇;陈忱;何苗;郭彦东;
专利申请人：上海瑾盛通信科技有限公司;

上一篇：一种深冲钢硫含量的控制方法
下一篇：面向碳中和的城市综合能源发展规划方法