导航：首页> 教育；密码术；显示；广告；印鉴>动作片段检测方法、模型训练方法及装置

动作片段检测方法、模型训练方法及装置

文献发布时间：2023-06-19 11:35:49

技术领域

本申请实施例涉及计算机视觉技术领域，具体而言，涉及一种动作片段检测方法、模型训练方法及装置。

背景技术

随着存储技术的飞速发展，视频已经成为当下最流行的信息传播载体。然而，对于大部分视频来说，人们往往更加关注的是视频中包含动作的片段，因此，需要人们从原始的长视频中手动剪辑出感兴趣的视频片段，这一过程非常耗费精力。因此，利用技术手段从长视频中自动剪辑出动作片段是非常有必要的。

发明内容

本申请实施例的目的在于提供一种动作片段检测方法、模型训练方法及装置，能够从长视频中自动剪辑出动作片段。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种动作片段检测方法，所述方法包括：

获取待检测视频的视频特征和所述待检测视频中所有候选视频段的视频段特征图；

将所述视频特征和所述视频段特征图输入动作检测模型，利用所述动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图；

利用所述动作检测模型对所述融合特征图进行预测，得到每个所述候选视频段的预测结果；

根据每个所述候选视频段的预测结果，从所有候选视频段中确定动作片段。

第二方面，本申请实施例还提供了一种模型训练方法，所述方法包括：

获取训练样本及所述训练样本对应的标签，所述标签表征所述训练样本中的各个动作片段；

对所述训练样本进行预处理，得到所述训练样本的视频特征和所述训练样本中所有候选视频段的视频段特征图；

将所述视频特征和所述视频段特征图输入动作检测模型，利用所述动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图；

利用所述动作检测模型对所述融合特征图进行预测，得到每个所述候选视频段的预测结果；

基于每个所述候选视频段的预测结果、所述标签和预设的损失函数对所述动作检测模型进行反向传播训练，得到训练后的动作检测模型。

第三方面，本申请实施例还提供了一种动作片段检测装置，所述装置包括：

第一获取模块，用于获取待检测视频的视频特征和所述待检测视频中所有候选视频段的视频段特征图；

第一处理模块，用于将所述视频特征和所述视频段特征图输入动作检测模型，利用所述动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图；

第一预测模块，用于利用所述动作检测模型对所述融合特征图进行预测，得到每个所述候选视频段的预测结果；

动作片段确定模块，用于根据每个所述候选视频段的预测结果，从所有候选视频段中确定动作片段。

第四方面，本申请实施例还提供了一种模型训练装置，所述装置包括：

第二获取模块，用于获取训练样本及所述训练样本对应的标签，所述标签表征所述训练样本中的各个动作片段；

预处理模块，用于对所述训练样本进行预处理，得到所述训练样本的视频特征和所述训练样本中所有候选视频段的视频段特征图；

第二处理模块，用于将所述视频特征和所述视频段特征图输入动作检测模型，利用所述动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图；

第二预测模块，用于利用所述动作检测模型对所述融合特征图进行预测，得到每个所述候选视频段的预测结果；

训练模块，用于基于每个所述候选视频段的预测结果、所述标签和预设的损失函数对所述动作检测模型进行反向传播训练，得到训练后的动作检测模型。

相对现有技术，本申请实施例提供的一种动作片段检测方法、模型训练方法及装置，针对待检测视频，枚举待检测视频中所有的候选视频段，并获取待检测视频的视频特征和所有候选视频段的视频段特征图；然后，将视频特征和视频段特征图输入预先训练的动作检测模型，利用动作检测模型进行多尺度特征提取及预测，得到每个候选视频段的预测结果；最后，根据每个候选视频段的预测结果，从所有候选视频段中确定出动作片段，从而能够从长视频中自动剪辑出动作片段。

附图说明

图1示出了本申请实施例提供的动作片段检测方法的应用场景示意图。

图2示出了本申请实施例提供的动作片段检测方法的流程示意图。

图3示出了本申请实施例提供的候选视频段的示例图。

图4示出了本申请实施例提供的一种模型示例图。

图5示出了本申请实施例提供的另一种模型示例图。

图6示出了本申请实施例提供的模型训练方法的流程示意图。

图7示出了本申请实施例提供的样本示意图。

图8示出了本申请实施例提供的动作片段检测装置的方框示意图。

图9示出了本申请实施例提供的模型训练装置的方框示意图。

图10示出了本申请实施例提供的电子设备的方框示意图。

图标：10-电子设备；11-处理器；12-存储器；13-总线；20-第一终端；30-第二终端；40-网络；50-服务器；100-动作片段检测装置；110-第一获取模块；120-第一处理模块；130-第一预测模块；140-动作片段确定模块；200-模型训练装置；210-第二获取模块；220-预处理模块；230-第二处理模块；240-第二预测模块；250-训练模块。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述。

请参照图1，图1示出了本申请实施例提供的动作片段检测方法的应用场景图，包括第一终端20、第二终端30、网络40及服务器50，第一终端20和第二终端30均通过网络40连接到服务器50。

第一终端20可以是视频制作者的移动终端，具有屏幕显示功能，例如，智能手机、笔记本电脑、平板电脑、台式计算机等。

服务器50可以是视频平台，其可以是单个服务器，也可以是服务器集群。网络40可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

第二终端30可以是平台用户的移动终端，该移动终端上可以安装有用于播放视频的应用程序，第二终端30可以是任何具有屏幕显示功能的移动终端，例如，智能手机、笔记本电脑、平板电脑、台式计算机、智能电视等。

在实际应用中，视频制作者可以通过第一终端20从原始视频中剪辑动作片段，并以动作片段为素材制作成短视频后上传至视频平台，平台用户可以通过第二终端30观看短视频。或者，视频平台可以从原始视频中剪辑动作片段，并作为素材提供给视频制作者使用。

显然，对于视频制作者或者视频平台来说，如果从原始视频中手动剪辑动作片段，需要耗费大量精力。因此，利用技术手段帮助视频作者或者视频平台自动地从原始视频中剪辑出动作片段，可以提高视频剪辑的效率。在这一背景下，时序动作检测任务应运而生。

对于时序动作检测方法，目前常用方法是：使用预先定义好大小的滑动窗口从原始视频中采集候选视频段，然后对这些候选视频段进行分类，得到最后的结果。但是，时序动作检测的准确度不高。

针对这一问题，本申请实施例通过预先训练的动作检测模型对待检测视频进行检测，不仅能够从原始视频中自动剪辑出动作片段，还能依据视频的上下文信息过滤掉无关的视频帧、以及从不同尺度捕获候选视频片段之间的关系，从而可以提高动作片段检测的准确性。

结合到图1，本申请实施例提供的动作片段检测方法可以应用于第一终端20，也可以应用于服务器50，具体可以根据实际应用场景确定，在此不作限制。

下面对本申请实施例提供的动作片段检测方法进行详细介绍。

在图1所示的应用场景示意图的基础上，请参照图2，图2示出了本申请实施例提供的动作片段检测方法的流程示意图，该动作片段检测方法可以包括以下步骤：

S101，获取待检测视频的视频特征和待检测视频中所有候选视频段的视频段特征图。

待检测视频可以是任何需要进行动作片段检测，以自动剪辑出动作片段的长视频。待检测视频可以是视频制作者自己拍摄的视频，例如，记录日常的视频等，也可以是视频制作者从网上下载的视频，例如，电影、电视剧、记录片等。候选视频段是对待检测视频进行枚举得到的，且包括开始时间和结束时间。

对于待检测视频，枚举该待检测视频中的全部视频片段，得到所有候选视频段。例如，请参照图3，待检测视频包括n个视频帧，则枚举其中第1帧~第2帧、第1帧~第3帧、……、第1帧~第n帧、第2帧~第3帧、第2帧~第4帧、……、第2帧~第n帧、……第n-1帧~第n帧的全部视频片段，得到所有候选视频片段。

候选视频段包括开始时间和结束时间，候选视频段可以用

视频特征是对待检测视频进行预处理得到的，视频特征二维数据。视频段特征图是对所有候选视频段进行处理得到的，视频段特征图是三维数据。

S102，将视频特征和视频段特征图输入动作检测模型，利用动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图。

动作检测模型可以为每一个候选视频段生成动态卷积核，这些动态卷积核可以依据待检测视频的上下文信息过滤掉无关的视频帧。并且，为了增强候选视频段的特征表达，动作检测模型可以从不同的尺度来捕获候选视频片段之间的关系，从而学习到更加鲁棒的特征表达。

也就是，对于不同的候选视频段，现有的时序动作检测方法通常使用相同的模型参数进行处理，但是忽略了不同候选视频片段之间的差异。而本申请实施例提供的动态检测模型，可以依据候选视频段的内容和待检测视频的内容，为不同的候选视频段生成特定的动态卷积核，这些动态卷积核可以更加灵活的提取出视频中易区分的特征，从而利于后续预测。

S103，利用动作检测模型对融合特征图进行预测，得到每个候选视频段的预测结果。

候选视频段的预测结果可以包括：候选视频段中包含的动作及各个动作的预测分数、以及动作类别，例如，跳高(分数:0.64)、跳远(分数:0.44)、跳远(分数:0.84)等。

S104，根据每个候选视频段的预测结果，从所有候选视频段中确定动作片段。

通过S103得到每个候选视频段的预测结果之后，首先根据预测分数从所有候选视频段中确定出包含动作的候选视频片段，再对所有的候选视频段进行分类，确定出每个候选视频段的动作类别，例如，跳高、跳远等。这样，就能从所有候选视频段中确定出动作片段，动作片段即为包含动作的候选视频片段。并且，由于每个候选视频段都包括开始时间和结束时间，所以，动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。

下面对步骤S101进行详细介绍，S101可以包括：

S1011，对待检测视频进行初步特征提取，得到初步视频特征。

请参照图4，可以使用TSN网络提取待检测视频中的特征，得到初步视频特征，初步视频特征可以表示为

按照设定时间间隔，从待检测视频中抽取多个视频帧；

将多个视频帧输入TSN模型中，利用TSN模型提取各个视频帧的视觉特征和动作特征并进行连接，得到初步视频特征。

其中，视觉特征是指视频帧在视觉上的特征，即，视频帧包含的空间信息。动作特征是指不同视频帧之间的动作信息，即，不同视频帧之间动作的变化。将视觉特征和动作特征进行连接，是指在维度上进行叠加，例如，视觉特征为100维、动作特征为100维，则连接后的特征为200维。

S1012，对初步视频特征进行特征增强，得到视频特征。

可以利用Backbone对初步视频特征

在一个实施方式中，请参照图4，也可以利用图卷积(GCN)对初步视频特征

也就是，利用图卷积捕获待检测视频中各个视频帧的上下文关系，将多尺度的语义信息动态融合到初步视频特征中，得到视频特征。

例如，检测的动作是打羽毛球，该动作所在视频帧的前后信息也有助于动作的检测，例如，前后帧中有羽毛球场。所以可以通过捕捉各个视频帧的上下文关系，将语义信息融合到初步视频特征中，语义信息可以是视频帧中表达的信息，例如，打羽毛球、羽毛球场等。

同时，由于待检测视频是一个长视频，可能距离很远的两个视频帧之间也有联系，因此，为了避免忽略掉长距离信息，可以将多尺度的语义信息动态融合到初步视频特征中，这里的尺度指的就是两个视频帧间的帧数，例如，视频帧1、2、3、4，当前帧为3，则可以将1融合到3、将2融合到3。

S1013，对每个候选视频段进行特征提取，得到视频段特征图。

得到视频特征

下面对步骤S102进行详细介绍。

将视频特征

动作检测模型可以包括多个多尺度动态网络，多尺度动态网络即为图5中的MDM，因此，S102可以包括：

S1021，将视频特征和视频段特征图输入第一个多尺度动态网络进行多尺度特征提取，得到所有候选视频段的初步特征图。

S1022，将视频特征和第N-1个多尺度动态网络的输出作为第N个多尺度动态网络的输入，利用多尺度动态网络进行多尺度特征提取。

S1023，将最后一个多尺度动态网络的输出作为融合特征图。

仅仅利用一个MDM所获取的特征表达是有限的，所以动作检测模型包括多个MDM，下面以包括2个MDM为例进行说明。

首先，视频特征

然后，将上一步输出的

多尺度动态网络包括多个多尺度动态单元，多尺度动态单元即为图5中的MDU，因此，S1021可以包括：

S10211，将视频特征和视频段特征图输入每个多尺度动态单元。

S10212，利用多尺度动态单元从目标尺度进行特征提取，得到目标尺度的特征表达，其中，一个多尺度动态单元对应一个尺度。

其中，目标尺度的特征表达可以是待使用膨胀率（dilation rate）为d的卷积核进行特征提取的信息。一个多尺度动态单元对应一个尺度，使用不同的d，可以从不同的尺度来捕获上下文信息。S10212可以包括：

对视频段特征图进行滑窗操作，得到取样特征图；

对视频特征进行平均池化，得到待检测视频的全局特征；

利用1×1卷积对全局特征进行卷积操作以减少通道数，得到待检测视频的全局信息；

将全局信息和视频段特征图进行融合，得到中间特征图；

利用中间特征图生成每个候选视频段的动态卷积核；

利用动态卷积核对取样特征图进行卷积操作，得到目标尺度的特征表达。

S10213，获得多个多尺度动态单元输出的多个尺度的特征表达。

S10214，将多个尺度的特征表达进行聚合，得到所有候选视频段的特征信息。

S10215，对特征信息进行1×1卷积操作后，与视频段特征图进行叠加，得到初步特征图。

结合到图5，对于视频特征

其中，视频段特征图的每一个位置都代表一个候选视频段的特征，

将视频特征

首先，使用

然后，对视频特征

接下来，利用1×1卷积对全局特征进行卷积操作以减少通道数，得到待检测视频的全局信息

接下来，为了使用全局信息来引导卷积核的生成过程，将待检测视频的全局信息和视频段特征图按照如下公式进行融合：

得到中间特征图

接下来，利用中间特征图

其中，

接下来，利用动态卷积核

其中，

如前文所述，可以通过改变MDU中的d获得任意尺度的上下文信息。因此，获得多个多尺度动态单元输出的多个尺度的特征表达之后，为了捕获多尺度的上下文信息，将多个尺度的特征表达通过如下公式进行聚合：

其中，

最后，利用1×1卷积融合通道信息，并与视频段特征图进行叠加，得到初步特征图

动作检测模型输出融合特征图

因此，动作检测模型还可以包括卷积层，S103可以包括：

S1031，利用卷积层对融合特征图进行卷积操作，得到每个候选视频段的预测结果。

可以使用1×1的卷积来预测每个候选视频段的预测结果，其公式如下：

其中，

动作检测模型输出每个候选视频段的预测结果之后，根据预测结果从所有候选视频段中确定动作片段，因此，S104可以包括：

S1041，根据每个候选视频段的预测结果，计算每个候选视频段的评判分数。

S1042，根据每个候选视频段的评判分数，获得包含动作的候选视频段。

S1043，对包含动作的候选视频段进行分类，得到包含动作的候选视频段的动作类别。

S1044，获得动作片段，其中，动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。

动作检测模型输出

其中，

获取到每个候选视频段的评判分数之后，由于大部分候选视频段会存在重叠，因此，需要利用Soft-NMS来对重复的候选视频段进行剔除，剔除过程为：

第一步，每个候选视频段的评判分数

第二步，将高度重叠的候选视频段按照下述公式进行衰减：

其中，

接下来，利用Unet分类器来对所有包含动作的候选视频段候选视频段进行分类，得到包含动作的候选视频段的动作类别。

最后，就能得到最终的动作片段，动作片段可以表示为：

其中，

接下来对动作检测模型的训练过程进行详细介绍。

本申请实施例提供的模型训练方法可以应用于任何具有视频处理功能的电子设备，例如，服务器、移动终端、通用计算机或者特殊用途的计算机等。

请参照图6，图6示出了本申请实施例提供的模型训练方法的流程示意图，该模型训练方法可以包括以下步骤：

S201，获取训练样本及训练样本对应的标签，标签表征训练样本中的各个动作片段，包括动作片段的开始时间、结束时间和动作类别。

这里是以训练样本为例进行说明，其实训练过程采用的是合适的训练数据集。实际中可以选择合适的训练数据集和测试数据集进行训练和测试，例如，在公开的数据集ActivityNet-1.3和THUMOS-14上进行训练和测试，可以在训练数据集上训练模型，并在测试数据集上评估模型的性能。

ActivityNet-1.3数据集是一个用于生成视频段和检测的公开数据集，其主要包含19994个视频并且包含200个动作类别，这些视频主要是从youtube网站上爬取下来的，其分辨率和时间都各不相同。ActivityNet-1.3数据集曾经是ActivityNet Challenge 2016and 2017的比赛数据集，该数据集按照2:1:1的比例将所有视频划分为训练集、评估集和测试集。

THIMOS-14数据集包含413个视频并且包含20个类别信息。其中，测试集包含212个视频，验证集包含200个视频被用来时序动作检测任务。

训练样本为一个未处理的长视频，对于训练样本，提取出其对应的视频帧表示为

训练样本的标签可以表示为：

其中，

S202，对训练样本进行预处理，得到训练样本的视频特征和训练样本中所有候选视频段的视频段特征图。

S203，将视频特征和视频段特征图输入动作检测模型，利用动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图。

S204，利用动作检测模型对融合特征图进行预测，得到每个候选视频段的预测结果。

需要指出的是，步骤S202~S204的处理过程与步骤S101~ S103的处理过程类似，在此不再赘述。下面主要介绍步骤S202~S204和步骤S101~ S103的不同之处。

在模型训练中，得到视频特征

开始节点和结束节点分别表示为

S205，基于每个候选视频段的预测结果、标签和预设的损失函数对动作检测模型进行反向传播训练，得到训练后的动作检测模型。

在本实施例中，损失函数为：

其中，

为了准确地判别每一个候选视频片段是否包含完整的动作实例，现有方法将有较高tIou 的视频片段看作正样本，而有较低tIou的视频片段视为负样本。然而，实际上，一些负样本也包含一些动作信息，例如，图7中所示的困难样本，这就使得现有方法很难对样本进行准确分类。

因此，为了更加准确的区分难以分类的困难样本，还使用边缘抑制损失函数

其中，

在上述公式中，可以通过计算M将所有较难分类的样本选择出来，然后利用增加额外的边缘抑制损失函数使模型更加关注它们。

为了很好地评价本申请实施例提供的动作检测模型的有效性，选取平均准确率（mean Average Precision，mAP)）作为主要的评价指标。在THUMOS-14数据集上，在tIou集合{0.3,0.4,0.5,0.6,0.7}上分别计算mAP，即，重叠度为0.3、0.4、0.5、0.6、0.7预测正确的分别算一个分数，然后计算这5个分数的平均值。对于ActivityNet1.3数据集，计算tIou集合上的mAP。此外，还在ActivityNet1.3上计算10个不同tIou的平均mAP。

在当前主流的数据集ActivityNet-1.3上进行验证，其最后的验证结果如表1所示。

表1 在ActivityNet-1.3数据集上模型性能对比（%）

同时，在当前主流的数据集THUMOS-14上进行验证，其最后的验证结果如表2所示。

表2 在THUMOS-14数据集上模型性能对比（%）

从表1和表2都能明显看出，本申请提供的动作检测模型在各种评价指标下均显著优于现有的其它模型。

请参照图8，图8示出了本申请实施例提供的动作片段检测装置100的方框示意图。动作片段检测装置100应用于移动终端或者服务器，包括：第一获取模块110、第一处理模块120、第一预测模块130及动作片段确定模块140。

第一获取模块110，用于获取待检测视频的视频特征和待检测视频中所有候选视频段的视频段特征图。

第一处理模块120，用于将视频特征和视频段特征图输入动作检测模型，利用动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图。

第一预测模块130，用于利用动作检测模型对融合特征图进行预测，得到每个候选视频段的预测结果。

动作片段确定模块140，用于根据每个候选视频段的预测结果，从所有候选视频段中确定动作片段。

可选地，第一获取模块110具体用于：

对待检测视频进行初步特征提取，得到初步视频特征；

对初步视频特征进行特征增强，得到视频特征；

对每个候选视频段进行特征提取，得到视频段特征图。

可选地，第一获取模块110执行对待检测视频进行初步特征提取，得到初步视频特征的方式，包括：

按照设定时间间隔，从待检测视频中抽取多个视频帧；

将多个视频帧输入TSN模型中，利用TSN模型提取各个视频帧的视觉特征和动作特征并进行连接，得到初步视频特征。

可选地，第一获取模块110执行对初步视频特征进行特征增强，得到视频特征的方式，包括：

利用图卷积捕获待检测视频中各个视频帧的上下文关系，将多尺度的语义信息动态融合到初步视频特征中，得到视频特征。

可选地，动作检测模型包括多个多尺度动态网络；第一处理模块120具体用于：

将视频特征和视频段特征图输入第一个多尺度动态网络进行多尺度特征提取，得到所有候选视频段的初步特征图；

将视频特征和第N-1个多尺度动态网络的输出作为第N个多尺度动态网络的输入，利用多尺度动态网络进行多尺度特征提取；

将最后一个多尺度动态网络的输出作为融合特征图。

可选地，尺度动态网络包括多个多尺度动态单元；第一处理模块120执行将视频特征和视频段特征图输入第一个多尺度动态网络进行多尺度特征提取，得到所有候选视频段的初步特征图的过程，包括：

将视频特征和视频段特征图输入每个多尺度动态单元；

利用多尺度动态单元从目标尺度进行特征提取，得到目标尺度的特征表达，其中，一个多尺度动态单元对应一个尺度；

获得多个多尺度动态单元输出的多个尺度的特征表达；

将多个尺度的特征表达进行聚合，得到所有候选视频段的特征信息；

对特征信息进行1×1卷积操作后，与视频段特征图进行叠加，得到初步特征图。

可选地，第一处理模块120执行利用多尺度动态单元从目标尺度进行特征提取，得到目标尺度的特征表达的方式，包括：

对视频段特征图进行滑窗操作，得到取样特征图；

对视频特征进行平均池化，得到待检测视频的全局特征；

利用1×1卷积对全局特征进行卷积操作以减少通道数，得到待检测视频的全局信息；

将全局信息和视频段特征图进行融合，得到中间特征图；

利用中间特征图生成每个候选视频段的动态卷积核；

利用动态卷积核对取样特征图进行卷积操作，得到目标尺度的特征表达。

可选地，第一预测模块130具体用于：

利用卷积层对融合特征图进行卷积操作，得到每个候选视频段的预测结果。

可选地，候选视频段是对待检测视频进行枚举得到的，候选视频段包括开始时间和结束时间；动作片段确定模块140具体用于：

根据每个候选视频段的预测结果，计算每个候选视频段的评判分数；

根据每个候选视频段的评判分数，获得包含动作的候选视频段；

对包含动作的候选视频段进行分类，得到包含动作的候选视频段的动作类别；

获得动作片段，其中，动作片段包括包含动作的候选视频段的开始时间、结束时间及动作类别。

请参照图9，图9示出了本申请实施例提供的模型训练装置200的方框示意图。模型训练装置200应用于任何具有图像处理功能的电子设备，包括：第二获取模块210、预处理模块220、第二处理模块230、第二预测模块240及训练模块250。

第二获取模块210，用于获取训练样本及训练样本对应的标签，标签表征训练样本中的各个动作片段，包括动作片段的开始时间、结束时间和动作类别。

预处理模块220，用于对训练样本进行预处理，得到训练样本的视频特征和训练样本中所有候选视频段的视频段特征图。

第二处理模块230，用于将视频特征和视频段特征图输入动作检测模型，利用动作检测模型进行多尺度特征提取，得到所有候选视频段的融合特征图。

第二预测模块240，用于利用动作检测模型对融合特征图进行预测，得到每个候选视频段的预测结果。

训练模块250，用于基于每个候选视频段的预测结果、标签和预设的损失函数对动作检测模型进行反向传播训练，得到训练后的动作检测模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的动作片段检测装置100和模型训练装置200的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参照图10，图10示出了本申请实施例提供的电子设备10的方框示意图。电子设备10可以是执行上述动作片段检测方法的移动终端或服务器，也可以是执行上述模型训练方法的任何具有图像处理功能的电子设备。电子设备10包括处理器11、存储器12及总线13，处理器11通过总线13与存储器12连接。

存储器12用于存储程序，例如图8所示的动作片段检测装置100、或者图9所示的模型训练装置200。以动作片段检测装置100为例，动作片段检测装置100包括至少一个可以软件或固件（firmware）的形式存储于存储器12中的软件功能模块，处理器11在接收到执行指令后，执行所述程序以实现上述实施例揭示的动作片段检测方法。

存储器12可能包括高速随机存取存储器（Random Access Memory，RAM），也可能还包括非易失存储器（non-volatile memory，NVM）。

处理器11可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、微控制单元(Microcontroller Unit，MCU）、复杂可编程逻辑器件（Complex Programmable LogicDevice，CPLD）、现场可编程门阵列（Field Programmable Gate Array，FPGA）、嵌入式ARM等芯片。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器11执行时实现上述实施例揭示的动作片段检测方法、或者模型训练方法。

综上所述，本申请实施例提供的一种动作片段检测方法、模型训练方法及装置，针对待检测视频，枚举待检测视频中所有的候选视频段，并获取待检测视频的视频特征和所有候选视频段的视频段特征图；然后，将视频特征和视频段特征图输入预先训练的动作检测模型，利用动作检测模型进行多尺度特征提取及预测，得到每个候选视频段的预测结果；最后，根据每个候选视频段的预测结果，从所有候选视频段中确定出动作片段，从而能够从长视频中自动剪辑出动作片段。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：沈复民;徐行;任燚梵;邵杰;申恒涛;
专利申请人：成都考拉悠然科技有限公司;