掌桥专利:专业的专利平台
掌桥专利
首页

一种视频识别方法

文献发布时间:2024-04-18 20:01:23


一种视频识别方法

技术领域

本公开涉及计算机技术领域,特别是涉及一种视频识别方法。

背景技术

近年来,各种网络视频平台发展迅速,网络视频数据量激增。得益于深度神经网络技术的进步,精确的视频识别算法在推荐、监控、内容搜索等领域取得了成功的应用。

相关技术专注于设计更大更深更复杂的神经网络来提升视频识别算法的准确率,却忽视了因此带来的巨大的计算资源开销。在实际应用中算法的计算量与推理延迟、能源消耗、碳排放量直接相关,无论从经济、环保还是安全角度计算量都是一个不可忽视的重要因素。此外,在视频识别技术的广泛应用场景中,例如动态捕捉、安防系统等,基于深度神经网络的算法往往需要部署在计算资源有限的边缘设备上。在这种情况下,制约算法的瓶颈不再是算法的准确率,而是算法的计算效率。因此,解决当前视频识别算法高精度而低效率的问题十分迫切。

发明内容

鉴于上述问题,本公开实施例提供了一种视频识别方法,以便克服上述问题或者至少部分地解决上述问题。

本公开实施例的第一方面,提供了一种视频识别方法,应用于视频识别模型,所述视频识别模型包括:全局特征提取网络、局部特征提取网络、策略网络和分类器;所述视频识别模型是基于条件退出策略训练得到的,所述条件退出策略用于:动态控制所述视频识别模型的训练过程中使用样本数据的数量;所述方法包括:

将目标视频输入所述视频识别模型,得到所述全局特征提取网络输出的所述目标视频的各个视频帧的全局特征图;

将所述各个视频帧的全局特征图输入所述策略网络,得到多个目标视频帧;其中,所述目标视频帧包含的信息量大于非目标视频帧包含的信息量;

将每个所述目标视频帧的全局特征图输入所述策略网络,得到每个所述目标视频帧的目标图像区域;其中,所述目标图像区域包含的信息量大于非目标图像区域包含的信息量;

将每个所述目标视频帧的目标图像区域输入所述局部特征提取网络,得到每个所述目标视频帧的局部特征图;

将每个所述目标视频帧的局部特征图输入所述分类器,,得到所述目标视频的识别结果。

可选地,所述视频识别模型的训练步骤至少包括:

将视频样本输入初始视频识别模型,得到初始全局特征提取网络输出的所述视频样本的各个视频帧样本的全局特征图样本;所述视频样本携带类别标签;所述初始视频识别模型包括:所述初始全局特征提取网络、初始局部特征提取网络、初始策略网络和初始分类器;

将所述各个视频帧样本的全局特征图样本输入所述初始策略网络,得到多个目标视频帧样本;其中,所述目标视频帧样本的数量是通过所述条件退出策略确定的;

将每个所述目标视频帧样本的全局特征图样本输入所述初始分类器,得到每个所述目标视频帧的第一识别结果;

将每个所述目标视频帧样本输入所述初始策略网络,得到每个所述目标视频帧样本的目标图像区域样本;

将每个所述目标视频帧样本的目标图像区域样本输入所述初始局部特征提取网络,得到每个所述目标视频帧样本的局部特征图样本;

将每个所述目标视频帧样本的局部特征图样本输入所述初始分类器,得到每个所述目标视频帧的第二识别结果;

将所述视频帧样本的全局特征图样本和每个所述目标视频帧样本的局部特征图样本输入所述初始分类器,得到第三识别结果;

基于所述第一识别结果、所述第二识别结果、所述第三识别结果和所述类别标签,对所述初始视频识别模型进行训练,得到训练好的所述视频识别模型。

可选地,所述将视频样本输入初始视频识别模型,得到初始全局特征提取网络输出的所述视频样本的各个视频帧样本的全局特征图样本,包括:

将所述视频样本输入所述初始视频识别模型,得到组成所述视频样本的各个初始视频帧样本;

对所述各个初始视频帧样本进行均匀采样,得到所述视频样本的各个视频帧样本;

将所述各个视频帧样本输入所述初始全局特征提取网络,得到所述各个视频帧样本的全局特征图样本。

可选地,所述将所述各个视频帧样本输入所述初始策略网络,得到多个目标视频帧样本,包括:

将所述各个视频帧样本输入所述初始策略网络,得到多个初始目标视频帧样本;

按照所述多个初始目标视频帧样本在所述视频样本中的先后顺序,依次针对每个所述初始目标视频帧样本,判断所述初始目标视频帧样本是否满足退出条件;其中,所述退出条件为:根据所述初始目标视频帧样本及位于所述初始目标视频帧样本之前的各个所述视频帧样本,预测的所述视频样本的识别结果的准确率,大于退出阈值;

在任一所述初始目标视频帧样本满足所述退出条件的情况下,将所述初始目标视频帧样本及位于所述初始目标视频帧样本之前的各个所述初始目标视频帧样本,确定为所述目标视频帧样本。

可选地,所述判断所述初始目标视频帧样本是否满足退出条件,包括:

将所述初始目标视频帧样本及位于所述初始目标视频帧样本之前的各个所述初始目标视频帧样本,输入所述初始局部特征提取网络,得到多个初始局部特征图样本;

将所述初始目标视频帧样本的全局特征图样本、位于所述初始目标视频帧样本之前的各个所述视频帧样本的全局特征图样本,以及所述多个初始局部特征图输入所述初始分类器,得到条件识别结果;

根据所述条件识别结果和所述类别标签,确定预测的所述视频样本的识别结果的准确率;

判断所述准确率是否大于所述退出阈值。

可选地,所述将每个所述目标视频帧样本输入所述初始策略网络,得到每个所述目标视频帧样本的目标图像区域样本,包括:

将每个所述目标视频帧样本输入所述初始策略网络,得到每个所述目标视频帧对应的四元组,所述四元组包括:中心坐标、高度和宽度;

根据所述四元组对所述目标视频帧样本进行裁剪,得到每个所述目标视频帧样本的目标图像区域样本。

可选地,所述基于所述第一识别结果、所述第二识别结果、所述第三识别结果和所述类别标签,对所述初始视频识别模型进行训练,得到训练好的所述视频识别模型,包括:

基于所述第一识别结果和所述类别标签,确定时间损失函数;

基于所述第二识别结果和所述类别标签,确定空间损失函数;

基于所述第三识别结果和所述类别标签,确定类别损失函数;

基于所述时间损失函数、所述空间损失函数和所述类别损失函数,对所述初始视频识别模型进行训练,得到训练好的视频识别模型。

可选地,所述基于所述第二识别结果和所述类别标签,确定空间损失函数,包括:

基于每个所述目标视频帧样本的第二识别结果和所述类别标签,构建交叉熵损失函数;

获取每个所述目标视频帧样本的高度和宽度,以及获取每个所述目标视频帧样本的目标图像区域样本的高度和宽度;

根据每个所述目标视频帧样本的高度和宽度,以及每个所述目标视频帧样本的目标图像区域样本的高度和宽度,确定每个所述目标视频帧样本对应的高度差值和宽度差值;

基于所述交叉熵损失函数、每个所述目标视频帧样本对应的高度差值和宽度差值,确定所述空间损失函数。

可选地,所述基于所述第三识别结果和所述类别标签,确定类别损失函数,包括:

获取全局特征对应的类别损失函数,以及获取局部特征对应的类别损失函数;

基于所述第三识别结果和所述类别标签,确定分类类别损失函数;

将所述全局特征对应的类别损失函数、所述局部特征对应的类别损失函数和所述分类类别损失函数之和,确定为所述类别损失函数。

可选地,所述获取全局特征对应的类别损失函数,包括:

将各个所述视频帧样本的全局特征图样本输入所述初始分类器,得到第四识别结果;

根据所述第四识别结果和所述类别标签,得到所述全局特征对应的类别损失函数;

所述获取局部特征对应的类别损失函数,包括:

将各个所述目标视频帧样本的局部特征图样本输入所述初始分类器,得到第五识别结果;

根据所述第五识别结果和所述类别标签,得到所述局部特征对应的类别损失函数。

本公开实施例的第二方面,提供了一种视频识别装置,应用于视频识别模型,所述视频识别模型包括:全局特征提取网络、局部特征提取网络、策略网络和分类器;所述视频识别模型是基于条件退出策略训练得到的,所述条件退出策略用于:动态控制所述视频识别模型的训练过程中使用样本数据的数量;所述装置包括:

全局特征提取模块,用于将目标视频输入所述视频识别模型,得到所述全局特征提取网络输出的所述目标视频的各个视频帧的全局特征图;

视频帧确定模块,用于将所述各个视频帧的全局特征图输入所述策略网络,得到多个目标视频帧;其中,所述目标视频帧包含的信息量大于非目标视频帧包含的信息量;

区域确定模块,用于将每个所述目标视频帧的全局特征图输入所述策略网络,得到每个所述目标视频帧的目标图像区域;其中,所述目标图像区域包含的信息量大于非目标图像区域包含的信息量;

局部特征提取模块,用于将每个所述目标视频帧的目标图像区域输入所述局部特征提取网络,得到每个所述目标视频帧的局部特征图;

分类模块,用于将每个所述目标视频帧的局部特征图输入所述分类器,得到所述目标视频的识别结果。

本公开实施例的第三方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行指令,以实现如第一方面的视频识别方法。

本公开实施例的第四方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如第一方面的视频识别方法。

本公开实施例包括以下优点:

本公开实施例中,视频识别模型可以获取目标视频的目标视频帧,并且获取目标视频帧的目标图像区域,进而依据目标图像区域的局部特征图获取到目标视频的识别结果;其中,目标视频帧包含的信息量大于非目标视频帧包含的信息量,目标图像区域包含的信息量大于非目标图像区域包含的信息量。如此,相较于根据目标视频的各个视频帧进行视频识别,本公开实施例仅仅根据目标视频帧进行视频识别,从时间维度上降低了视频数据的冗余性;相较于根据视频帧的整张图像区域进行视频识别,本公开实施例仅仅根据目标视频帧的目标图像区域进行视频识别,从空间维度上降低了视频数据的冗余性。此外,视频识别模型是基于条件退出策略训练得到的,条件退出策略可以用于动态控制视频识别模型的训练过程中使用样本数据的数量,因此,从样本维度上降低了视频数据的冗余性。如此,本公开实施例通过压缩时间冗余信息、空间冗余信息、样本冗余信息,高效地完成了视频识别。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本公开实施例中一种视频识别方法的步骤流程图;

图2是本公开实施例中一种视频识别方法的框架示意图。

具体实施方式

为使本公开的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本公开作进一步详细的说明。

视频识别是指识别视频内容,并对视频进行分类。输入数据的冗余性是导致相关视频识别算法低效率的重要原因。相关高效视频识别方法仅仅关注时间维度的数据冗余性,而忽视了空间维度和样本维度的数据冗余性,导致性能不佳。

一些研究提出了一种从粗到精的资源高效视频识别框架(LiteEval),该方法利用两个长短期记忆网络(LSTM)维护粗粒度特征和细粒度特征,利用门控单元动态判断每一帧是否需要进行细粒度计算,从时间维度上降低了数据冗余性和计算开销。然而该方法没有考虑空间维度的数据冗余性和样本维度的数据冗余性。此外,长短期记忆网络本身有着不小的计算量,并且顺序选帧的方式不利于提高计算速度,因此计算效率不高。

一些研究提出了一种条件早退的高效视频识别网络(FrameExit),该方法设计了时序门控模块,动态决定到每一帧时是否停止计算,从而降低数据的时间维度冗余性提高计算效率。然而该方法同样没有考虑空间维度和样本维度,并且要求最终选择的帧的特征在时序上具有连续性,这种连续选帧的策略导致在一些视频数据上难以达到最优的效率。因此该方法的计算效率仍有很大的提升空间。

本公开提出了时间维度、空间维度和样本维度联合动态计算的方法,充分降低了输入视频数据在时间维度、空间维度和样本维度的冗余性。本公开改进了时间维度动态计算的策略,用更高效的卷积神经网络代替循环神经网络(如LiteEval的长短期记忆网络),将时序动态选帧建模成多项式分布非重复多次采样的过程,既大幅减少了计算开销,又能灵活地将计算资源分配给最值得关注的帧。在空间维度和样本维度基于双线性插值的动态选区和基于不同聚焦帧数的自适应条件退出策略,大幅提高了视频识别模型的计算效率。

参照图1所示,示出了本公开实施例中一种视频识别方法的步骤流程图,该视频识别方法应用于视频识别模型,所述视频识别模型包括:全局特征提取网络、局部特征提取网络、策略网络和分类器;所述视频识别模型是基于条件退出策略训练得到的,所述条件退出策略用于:动态控制所述视频识别模型的训练过程中使用样本数据的数量。如图1所示,该视频识别方法具体可以包括步骤S11~步骤S15。

步骤S11:将目标视频输入所述视频识别模型,得到所述全局特征提取网络输出的所述目标视频的各个视频帧的全局特征图。

目标视频可以为任意待识别的视频。将目标视频输入视频识别模型,可以得到目标视频的各个视频帧。将目标视频的各个视频帧输入全局特征提取网络,可以得到各个视频帧的全局特征图。全局特征提取网络的网络架构,可以参照相关技术,本公开对此不做限制。

可选地,考虑到相近的视频帧描述的视频内容相接近,可以通过对目标视频的各个视频帧进行均匀采样,得到采样后的各个视频帧。将采样后的各个视频帧输入全局特征提取网络,得到各个视频帧的全局特征图。通过对视频帧进行均匀采样,进而基于采样后的视频帧进行后续处理,可以大大节省计算资源。

可选地,也可以先获取目标视频的各个视频帧,然后将目标视频的各个视频帧输入视频识别模型,得到全局特征提取网络输出的各个视频帧的全局特征图。

步骤S12:将所述各个视频帧的全局特征图输入所述策略网络,得到多个目标视频帧。

其中,所述目标视频帧包含的信息量大于非目标视频帧包含的信息量。

视频识别模型训练好的模型,视频识别模型包括的策略网络也是训练好的策略网络。因此,将各个视频帧的全局特征图输入策略网络,策略网络可以获取到包含的信息量较大的多个目标视频帧。

步骤S13:将每个所述目标视频帧的全局特征图输入所述策略网络,得到每个所述目标视频帧的目标图像区域。

其中,所述目标图像区域包含的信息量大于非目标图像区域包含的信息量。

将每个目标视频帧的全局特征图输入策略网络,可以得到每个目标视频帧的目标图像区域。目标视频帧的目标图像区域为矩形,可以通过四元组进行确定,四元组包括:中心坐标、高度和宽度。将每个目标视频帧的全局特征图输入策略网络,策略网络可以输出四元组,视频识别模型基于四元组对目标视频帧进行裁剪,得到目标视频帧的目标图像区域。

步骤S14:将每个所述目标视频帧的目标图像区域输入所述局部特征提取网络,得到每个所述目标视频帧的局部特征图。

将每个目标视频帧的目标图像区域输入局部特征提取网络,可以得到每个目标视频帧的目标图像区域的特征图,即,得到目标视频帧的局部特征图。

步骤S15:将每个所述目标视频帧的局部特征图输入所述分类器,得到所述目标视频的识别结果。

在进行视频识别时,仅仅依据目标视频帧的局部特征图进行视频识别,以减少计算量。将目标视频帧的局部特征图输入分类器,可以得到目标视频的识别结果。目标视频的识别结果可以表征目标视频的类别。

通过实验发现,相较于相关技术采用所有视频帧的所有图像区域得到的视频识别结果的准确性,采用本公开实施例的技术方案得到的视频识别结果的准确性得到了提高。原因在于,在进行视频识别时,舍弃的一部分视频帧和一部分图像区域,是包含的信息量较小的视频帧和图像区域,因此,对视频识别结果的影响性较小。此外,舍弃的视频帧和图像区域,可能反而会对视频识别结果造成干扰,因此,舍弃了这部分视频帧和图像区域,反而使视频识别结果的准确性得到提高。

采用本公开实施例的技术方案,相较于根据目标视频的各个视频帧进行视频识别,本公开实施例仅仅根据目标视频帧进行视频识别,从时间维度上降低了视频数据的冗余性;相较于根据视频帧的整张图像区域进行视频识别,本公开实施例仅仅根据目标视频帧的目标图像区域进行视频识别,从空间维度上降低了视频数据的冗余性。此外,视频识别模型是基于条件退出策略训练得到的,条件退出策略可以用于动态控制视频识别模型的训练过程中使用样本数据的数量,因此,从样本维度上降低了视频数据的冗余性。如此,本公开实施例通过压缩时间冗余信息、空间冗余信息、样本冗余信息,高效地完成了视频识别。

下面介绍视频识别模型的训练方法,视频识别模型是对初始视频识别模型进行训练得到的,初始视频识别模型为待训练的视频识别模型。初始视频模型包括:初始全局特征提取网络、初始局部特征提取网络、初始策略网络和初始分类器。初始全局特征提取网络为待训练的全局特征提取网络,初始局部特征提取网络为待训练的局部特征提取网络,初始策略网络为待训练的策略网络,初始分类器为待训练的分类器。

将初始全局特征提取网络表征为f

视频识别模型的训练步骤至少包括步骤S21~步骤S28。

步骤S21:将视频样本输入初始视频识别模型,得到初始全局特征提取网络输出的所述视频样本的各个视频帧样本的全局特征图样本。

所述视频样本携带类别标签。

用符号描述视频样本,视频样本的长度为T

视频样本可以为训练样本集中的任意视频样本,会利用训练样本集中的多个视频样本对初始视频识别模型进行训练,本公开为了不赘述,仅以一个视频样本进行描述。

将视频样本输入初始视频识别模型,可以得到视频样本的各个视频帧样本。将视频样本的各个视频帧样本输入初始全局特征提取网络,可以得到各个视频帧样本的全局特征图样本。

可选地,将视频样本输入初始视频识别模型,可以得到组成所述视频样本的各个初始视频帧样本;对所述各个初始视频帧样本进行均匀采样,得到所述视频样本的各个视频帧样本;将所述各个视频帧样本输入所述初始全局特征提取网络,得到所述各个视频帧样本的全局特征图样本。

各个初始视频帧样本为视频样本的帧序列表征的视频帧。对帧序列V进行均匀采样T

将N

可选地,也可以先获取视频样本的各个视频帧样本,然后将视频样本的各个视频帧样本输入初始视频识别模型,得到初始全局特征提取网络输出的各个视频帧样本的全局特征图样本。

步骤S22:将所述各个视频帧样本的全局特征图样本输入所述初始策略网络,得到多个目标视频帧样本。

其中,所述目标视频帧样本的数量是通过所述条件退出策略确定的。

步骤S23:将每个所述目标视频帧样本的全局特征图样本输入所述初始分类器,得到每个所述目标视频帧的第一识别结果。

后文将详述通过条件退出策略确定目标视频帧样本的数量的方法,此处先仅仅介绍确定目标视频帧的方法。

待训练的初始策略网络确定的目标视频帧样本的准确性不佳,通过对初始视频识别模型进行训练,初始策略网络也会得到训练,从而能够提高初始策略网络采样目标视频帧样本的准确性。

本公开将选择目标视频帧样本的问题,建模为时序采样问题,以实现时间动态计算。为了降低视频数据的时间冗余性,本公开将与识别任务最相关的目标视频帧选择问题建模为时序概率分布的不重复采样问题。依照与任务的相关性从全部T个视频帧样本中选择T

其中,n

其中,加权采样依照多项式分布

其中,minimize表征最小化;

将每个目标视频帧样本

此处的期望有两层,一层是在一个视频样本中采样不同目标视频帧样本的期望,一层是在训练样本集中依照不同视频的期望。

为了达到上述优化目标,同时不增加显著的计算开销,本公开在训练时将从T

为了实现确定性的推理,本公开在测试时对

步骤S24:将每个所述目标视频帧样本输入所述初始策略网络,得到每个所述目标视频帧样本的目标图像区域样本。

初始策略网络还可以选择目标视频帧样本的目标图像区域样本,获得目标视频帧样本的局部特征图,实现空间动态计算。

为了降低视频数据的空间冗余性,本公开对选中的每个目标视频帧样本v

将每个所述目标视频帧样本输入所述初始策略网络,得到每个所述目标视频帧对应的四元组,所述四元组包括:中心坐标、高度和宽度;根据所述四元组对所述目标视频帧样本进行裁剪,得到每个所述目标视频帧样本的目标图像区域样本。

这里的形状自适应体现在目标图像区域样本

步骤S25:将每个所述目标视频帧样本的目标图像区域样本输入所述初始局部特征提取网络,得到每个所述目标视频帧样本的局部特征图样本。

步骤S26:将每个所述目标视频帧样本的局部特征图样本输入所述初始分类器,得到每个所述目标视频帧的第二识别结果。

为了训练策略网络π,本公开设计了如下的优化目标:

其中,原始的目标视频帧样本的大小为H×W;目标视频帧样本的全局特征图样本的大小为H

本公开通过特征空间的等比例插值来指导原始的目标视频帧样本像素空间的裁剪,并且深度特征由全局特征图样本

步骤S27:将所述视频帧样本的全局特征图样本和每个所述目标视频帧样本的局部特征图样本输入所述初始分类器,得到第三识别结果。

对粗粒度的全局特征图样本

将上述两组特征向量输入初始分类器f

步骤S28:基于所述第一识别结果、所述第二识别结果、所述第三识别结果和所述类别标签,对所述初始视频识别模型进行训练,得到训练好的所述视频识别模型。

基于所述第一识别结果和所述类别标签,确定时间损失函数;基于所述第二识别结果和所述类别标签,确定空间损失函数;基于所述第三识别结果和所述类别标签,确定类别损失函数;基于所述时间损失函数、所述空间损失函数和所述类别损失函数,对所述初始视频识别模型进行训练,得到训练好的视频识别模型。

基于类别标签和各个目标视频帧样本对应的第一识别结果,可以建立交叉熵损失函数,将各个交叉熵损失函数的均值,确定为时间损失函数

基于每个述目标视频帧样本的第二识别结果和所述类别标签,构建交叉熵损失函数;获取每个所述目标视频帧样本的高度和宽度,以及获取每个所述目标视频帧样本的目标图像区域样本的高度和宽度;根据每个所述目标视频帧样本的高度和宽度,以及每个所述目标视频帧样本的目标图像区域样本的高度和宽度,确定每个所述目标视频帧样本对应的高度差值和宽度差值;基于所述交叉熵损失函数、每个所述目标视频帧样本对应的高度差值和宽度差值,确定所述空间损失函数

基于所述第三识别结果和所述类别标签,确定类别损失函数,可以包括:获取全局特征对应的类别损失函数,以及获取局部特征对应的类别损失函数;基于所述第三识别结果和所述类别标签,确定分类类别损失函数;将所述全局特征对应的类别损失函数、所述局部特征对应的类别损失函数和所述分类类别损失函数之和,确定为所述类别损失函数。

将各个所述视频帧样本的全局特征图样本输入所述初始分类器,得到第四识别结果;根据所述第四识别结果和所述类别标签,得到所述全局特征对应的类别损失函数。

将各个所述目标视频帧样本的局部特征图样本输入所述初始分类器,得到第五识别结果;根据所述第五识别结果和所述类别标签,得到所述局部特征对应的类别损失函数。

可以通过如下公式确定类别损失函数

其中,公式的第一项L

可以理解的是,初始分类器基于每个目标视频帧样本的全局特征图样本可以预测出一个第一识别结果,初始分类器基于每个目标视频帧样本的局部特征图样本可以预测出一个第二识别结果,初始分类器基于所有视频帧样本的全局特征图样本和所有目标视频帧的局部特征图样本可以预测出第三识别结果,初始分类器基于所有视频帧样本的全局特征图样本可以预测出第四识别结果,初始分类器基于所有目标视频帧的局部特征图样本可以预测出第五识别结果。

可以通过如下公式确定出总损失函数

以最小化

下面介绍利用条件退出策略确定每个视频样本对应的目标视频帧样本的数量的方法。

将所述各个视频帧样本输入所述初始策略网络,得到多个初始目标视频帧样本;按照所述多个初始目标视频帧样本在所述视频样本中的先后顺序,依次针对每个所述初始目标视频帧样本,判断所述初始目标视频帧样本是否满足退出条件;其中,所述退出条件为:根据所述初始目标视频帧样本及位于所述初始目标视频帧样本之前的各个所述视频帧样本,预测的所述视频样本的识别结果的准确率,大于退出阈值;在任一所述初始目标视频帧样本满足所述退出条件的情况下,将所述初始目标视频帧样本及位于所述初始目标视频帧样本之前的各个所述初始目标视频帧样本,确定为所述目标视频帧样本。

所述判断所述初始目标视频帧样本是否满足退出条件,,可以包括:将所述初始目标视频帧样本及位于所述初始目标视频帧样本之前的各个所述初始目标视频帧样本,输入所述初始局部特征提取网络,得到多个初始局部特征图样本;将所述初始目标视频帧样本的全局特征图样本、位于所述初始目标视频帧样本之前的各个所述视频帧样本的全局特征图样本,以及所述多个初始局部特征图输入所述初始分类器,得到条件识别结果;根据所述条件识别结果和所述类别标签,确定预测的所述视频样本的识别结果的准确率;判断所述准确率是否大于所述退出阈值。

局部特征提取网络是视频识别模型中的参数量和计算量最大、推理能力最强的组件,是计算开销的主要来源。局部特征提取网络用于提取目标视频帧的局部特征,因此,减少目标视频帧的数量,可以有效节省计算开支。

初始策略网络可以确定多个初始目标视频帧样本,但在训练过程中,需要输入局部特征提取网络的初始目标视频帧样本是动态计算的。

每次将一个初始目标视频帧样本输入初始局部特征提取网络,得到该初始目标视频帧样本的初始局部特征图样本。因为是依次提取初始目标视频帧样本的初始局部特征图样本,因此,在得到一个初始目标视频帧样本的初始局部特征图样本之前,已经得到了位于该初始目标视频帧样本之前的各个初始目标视频帧样本的初始局部特征图样本。

将已得到的多个初始局部特征图样本,以及该初始目标视频帧样本的全局特征图样本和位于该初始目标视频帧样本之前的各个视频帧样本的全局特征图样本,输入所述初始分类器,可以得到一个条件识别结果。条件识别结果可以表征该视频样本属于各个类别的置信度,通过条件识别结果和类别标签,可以确定预测的所述视频样本的识别结果的准确率。在准确率大于退出阈值的情况下,证明无需再提取下一初始目标视频帧样本的局部特征图样本,而将当前已经提取了初始局部特征图样本的各个初始目标视频帧样本,确定为目标视频帧样本,如此,相当于确定了目标视频帧样本的数量。

通过条件退出策略,可以实现样本动态计算,从而将更多的计算资源分配给较难的视频样本,本公开采用条件退出策略,让初始局部特征提取网络处理数量可变的目标视频帧样本,即动态决定T

其中,p

当上述条件成立时,计算至第t帧即可退出,获得预测结果。因此对于简单样本,计算较少的帧数即可满足退出条件;对于困难样本,需要计算足够多的帧数才能退出,从而实现了依照样本预测难度的动态计算,在验证训练样本集上达到高效视频识别。

设置不同的候选退出阈值;在给定计算开销下,获取各个所述候选退出阈值对应的预测的视频样本的识别结果的准确率;将最高的所述准确率对应的候选退出阈值,确定为退出阈值。

对于训练样本集D

其中,maximize表征最大化,η

设视频样本每帧通过初始局部特征提取网络后满足分类置信度要求条件退出的概率为常数q,则视频样本在第t时刻的目标视频帧样本实现条件退出的概率为q

图2是本公开实施例中一种视频识别方法的框架示意图。本公开实施例中,全局特征提取网络、局部特征提取网络、策略网络和分类器可以应用于高效快速视频识别任务。其中全局特征提取网络和局部特征提取网络可以依照任务的计算资源要求部署为任意的深度神经网络,本公开的算法框架可以实现灵活部署。

采用本公开实施例的技术方案,实现了如下几个有效效果:

(1)时空自适应高效计算:设计全局特征提取网络和局部特征提取网络,全局特征提取网络计算量小,输入完整的视频帧,获取全局帧的粗粒度的全局特征图,并用于时空自适应选择;局部特征提取网络计算量大,输入时序采样的部分目标视频帧的部分关键区域,获取目标视频帧的细粒度的局部特征图,用于预测结果。在不损失准确率的前提下节省了计算开销,提高了计算效率;

(2)时间维度动态计算:在时间维度选择信息量最大的一组目标视频帧,将时序采样建模为不重复的多次多项式分布采样,该概率分布由策略网络动态计算得出。并通过蒙特卡洛方法计算目标视频帧的特征组合的预测结果期望交叉熵损失来实现端到端的训练和优化;

(3)空间维度动态计算:在空间维度每帧选择信息量最大的局部矩形区域,矩形位置、形状和大小是自适应的,由策略网络动态计算得出。通过相同的位置、形状、大小参数计算全局特征图的局部特征矩形区预测结果的交叉熵损失完成梯度反向传播,用特征空间的组合指导帧信息的选择,实现端到端的训练和优化;

(4)样本维度动态计算:在样本维度依照视频样本难易程度分配计算开销,即输入目标视频帧样本的数量。样本维度动态计算解决了有限资源条件下针对总数据集的视频识别问题,有效提高了视频识别的推理效率和速度。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本公开实施例所必须的。

本公开实施例还提供了一种视频识别装置的结构示意图,所述装置应用于视频识别模型,所述视频识别模型包括:全局特征提取网络、局部特征提取网络、策略网络和分类器;所述视频识别模型是基于条件退出策略训练得到的,所述条件退出策略用于:动态控制所述视频识别模型的训练过程中使用样本数据的数量;所述装置包括:全局特征提取模块、视频帧确定模块、区域确定模块、局部特征提取模块和分类模块,其中:

全局特征提取模块,用于将目标视频输入所述视频识别模型,得到所述全局特征提取网络输出的所述目标视频的各个视频帧的全局特征图;

视频帧确定模块,用于将所述各个视频帧的全局特征图输入所述策略网络,得到多个目标视频帧;其中,所述目标视频帧包含的信息量大于非目标视频帧包含的信息量;

区域确定模块,用于将每个所述目标视频帧的全局特征图输入所述策略网络,得到每个所述目标视频帧的目标图像区域;其中,所述目标图像区域包含的信息量大于非目标图像区域包含的信息量;

局部特征提取模块,用于将每个所述目标视频帧的目标图像区域输入所述局部特征提取网络,得到每个所述目标视频帧的局部特征图;

分类模块,用于将每个所述目标视频帧的局部特征图输入所述分类器,得到所述目标视频的识别结果。

可选地,所述视频识别模型的训练步骤至少包括:

将视频样本输入初始视频识别模型,得到初始全局特征提取网络输出的所述视频样本的各个视频帧样本的全局特征图样本;所述视频样本携带类别标签;所述初始视频识别模型包括:所述初始全局特征提取网络、初始局部特征提取网络、初始策略网络和初始分类器;

将所述各个视频帧样本的全局特征图样本输入所述初始策略网络,得到多个目标视频帧样本;其中,所述目标视频帧样本的数量是通过所述条件退出策略确定的;

将每个所述目标视频帧样本的全局特征图样本输入所述初始分类器,得到每个所述目标视频帧的第一识别结果;

将每个所述目标视频帧样本输入所述初始策略网络,得到每个所述目标视频帧样本的目标图像区域样本;

将每个所述目标视频帧样本的目标图像区域样本输入所述初始局部特征提取网络,得到每个所述目标视频帧样本的局部特征图样本;

将每个所述目标视频帧样本的局部特征图样本输入所述初始分类器,得到每个所述目标视频帧的第二识别结果;

将所述视频帧样本的全局特征图样本和每个所述目标视频帧样本的局部特征图样本输入所述初始分类器,得到第三识别结果;

基于所述第一识别结果、所述第二识别结果、所述第三识别结果和所述类别标签,对所述初始视频识别模型进行训练,得到训练好的所述视频识别模型。

可选地,所述将视频样本输入初始视频识别模型,得到初始全局特征提取网络输出的所述视频样本的各个视频帧样本的全局特征图样本,包括:

将所述视频样本输入所述初始视频识别模型,得到组成所述视频样本的各个初始视频帧样本;

对所述各个初始视频帧样本进行均匀采样,得到所述视频样本的各个视频帧样本;

将所述各个视频帧样本输入所述初始全局特征提取网络,得到所述各个视频帧样本的全局特征图样本。

可选地,所述将所述各个视频帧样本输入所述初始策略网络,得到多个目标视频帧样本,包括:

将所述各个视频帧样本输入所述初始策略网络,得到多个初始目标视频帧样本;

按照所述多个初始目标视频帧样本在所述视频样本中的先后顺序,依次针对每个所述初始目标视频帧样本,判断所述初始目标视频帧样本是否满足退出条件;其中,所述退出条件为:根据所述初始目标视频帧样本及位于所述初始目标视频帧样本之前的各个所述视频帧样本,预测的所述视频样本的识别结果的准确率,大于退出阈值;

在任一所述初始目标视频帧样本满足所述退出条件的情况下,将所述初始目标视频帧样本及位于所述初始目标视频帧样本之前的各个所述初始目标视频帧样本,确定为所述目标视频帧样本。

可选地,所述判断所述初始目标视频帧样本是否满足退出条件,包括:

将所述初始目标视频帧样本及位于所述初始目标视频帧样本之前的各个所述初始目标视频帧样本,输入所述初始局部特征提取网络,得到多个初始局部特征图样本;

将所述初始目标视频帧样本的全局特征图样本、位于所述初始目标视频帧样本之前的各个所述视频帧样本的全局特征图样本,以及所述多个初始局部特征图输入所述初始分类器,得到条件识别结果;

根据所述条件识别结果和所述类别标签,确定预测的所述视频样本的识别结果的准确率;

判断所述准确率是否大于所述退出阈值。

可选地,所述将每个所述目标视频帧样本输入所述初始策略网络,得到每个所述目标视频帧样本的目标图像区域样本,包括:

将每个所述目标视频帧样本输入所述初始策略网络,得到每个所述目标视频帧对应的四元组,所述四元组包括:中心坐标、高度和宽度;

根据所述四元组对所述目标视频帧样本进行裁剪,得到每个所述目标视频帧样本的目标图像区域样本。

可选地,所述基于所述第一识别结果、所述第二识别结果、所述第三识别结果和所述类别标签,对所述初始视频识别模型进行训练,得到训练好的所述视频识别模型,包括:

基于所述第一识别结果和所述类别标签,确定时间损失函数;

基于所述第二识别结果和所述类别标签,确定空间损失函数;

基于所述第三识别结果和所述类别标签,确定类别损失函数;

基于所述时间损失函数、所述空间损失函数和所述类别损失函数,对所述初始视频识别模型进行训练,得到训练好的视频识别模型。

可选地,所述基于所述第二识别结果和所述类别标签,确定空间损失函数,包括:

基于每个所述目标视频帧样本的第二识别结果和所述类别标签,构建交叉熵损失函数;

获取每个所述目标视频帧样本的高度和宽度,以及获取每个所述目标视频帧样本的目标图像区域样本的高度和宽度;

根据每个所述目标视频帧样本的高度和宽度,以及每个所述目标视频帧样本的目标图像区域样本的高度和宽度,确定每个所述目标视频帧样本对应的高度差值和宽度差值;

基于所述交叉熵损失函数、每个所述目标视频帧样本对应的高度差值和宽度差值,确定所述空间损失函数。

可选地,所述基于所述第三识别结果和所述类别标签,确定类别损失函数,包括:

获取全局特征对应的类别损失函数,以及获取局部特征对应的类别损失函数;

基于所述第三识别结果和所述类别标签,确定分类类别损失函数;

将所述全局特征对应的类别损失函数、所述局部特征对应的类别损失函数和所述分类类别损失函数之和,确定为所述类别损失函数。

可选地,所述获取全局特征对应的类别损失函数,包括:

将各个所述视频帧样本的全局特征图样本输入所述初始分类器,得到第四识别结果;

根据所述第四识别结果和所述类别标签,得到所述全局特征对应的类别损失函数;

所述获取局部特征对应的类别损失函数,包括:

将各个所述目标视频帧样本的局部特征图样本输入所述初始分类器,得到第五识别结果;

根据所述第五识别结果和所述类别标签,得到所述局部特征对应的类别损失函数。

需要说明的是,装置实施例与方法实施例相近,故描述的较为简单,相关之处参见方法实施例即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本公开实施例的实施例可提供为方法、装置或计算机程序产品。因此,本公开实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开实施例是参照根据本公开实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本公开所提供的一种视频识别方法,进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本公开的限制。

相关技术
  • 一种后端存储设备的管理方法、装置、设备以及存储介质
  • 网络存储设备的告警信息监控管理方法、装置及设备
  • 多版本数据存储管理方法及装置、电子设备、存储介质
  • 存储设备管理方法、装置及可读存储介质
  • 存储设备管理方法、装置及可读存储介质
  • 光缆割接告警的管理方法、装置、设备及存储介质
  • 告警数据的管理方法、装置、计算机设备及存储介质
技术分类

06120116551599