导航：首页> 基本电子电路>基于压缩视频实现实时异常行为识别的方法、装置及其存储介质

基于压缩视频实现实时异常行为识别的方法、装置及其存储介质

文献发布时间：2023-06-19 09:30:39

技术领域

本发明涉及计算机视觉领域，尤其涉及异常行为识别领域，具体是指一种基于压缩视频实现实时异常行为识别的方法、装置及其计算机可读存储介质。

背景技术

随着视频监控基础设施建设日益完善，监控视频数量显著增长，必须充分发挥视频监控系统的优势，由被动式的人工监控向主动式的智能监控系统转变。

异常行为识别本质属于行为识别范畴，行为识别作为计算机视觉领域的重点研究内容，受到了国内外学者的广泛关注。智能监控系统中的异常行为识别技术对行为识别提出了实时性的要求，而当前行为识别领域的研究大多侧重于准确率，所提出的识别算法通常具有较高的时间和空间计算复杂度，不能很好地满足实时性需求。

经过对现有技术的检索发现，K.Simonyan等人在2014年的《Advances in neuralinformation processing systems，pp.568-576，(神经信息处理系统进展大会，第568-576页)》上发表了题为“Two-stream convolutional networks for action recognition invideos(用于视频动作识别的双流卷积网络)”的文章，该文章提出了双流模型来实现基于视频的动作识别。双流模型由空间网络模型和时间网络模型构成，空间网络模型以单帧视频图像为输入训练 CNN模型，描述运动的静态外表信息；时间网络模型以密集光流序列为输入训练CNN模型，描述目标者/摄像机的运动。两个分支的网络分别对动作的类别作出判断，最后对两个网络的类别得分通过直接平均或SVM的方式进行融合，得到最终的分类结果。

经检索还发现，L.Wang等人在2016年的《European conference on computervision，pp. 20–36，(欧洲计算机视觉会议，第20–36页)》上发表了题为“Temporal segmentnetworks: Towards good practices for deep action recognition(时序分割网络:走向深度行为识别的良好实践)”的文章，该文章提出了一个视频级的框架TSN，可以基于整段视频进行行为识别。首先从整段视频中稀疏采样出一系列短的视频片段，然后每个片段给出其本身对于行为识别类别的预测，然后从这些片段的“共识”中得到视频级的预测结果。

实时的异常行为检测，是针对输入的监控视频流，设置一个固定大小的滑窗，在监控视频上滑动依次得到一些小片段，然后利用主流方法进行行为识别。若存在异常行为应尽早发现，因而不能采用计算复杂度过大的算法。而上述框架使用光流捕捉运动信息，作为时间网络模型的输入，而光流需要提前计算，并且非常耗时，因而无法满足实时性需求。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足实时性好、精准度高、适用范围较为广泛的基于压缩视频实现实时异常行为识别的方法、装置及其计算机可读存储介质。

为了实现上述目的，本发明的基于压缩视频实现实时异常行为识别的方法、装置及其计算机可读存储介质如下：

该基于压缩视频实现实时异常行为识别的方法，其主要特点是，所述的方法包括以下步骤：

(1)通过分段采样操作处理将原始视频均匀划分成若干个片段，并按照一定的采样密度从每个视频片段中获取一个I帧的描述信息和若干个P帧的描述信息；

(2)进行异常行为识别网络模型搭建；

(3)进行异常行为识别网络模型训练。

较佳地，所述的步骤(1)具体为：

将原始的压缩视频均匀划分为时间长度相同的K个视频片段，从每个视频片段中随机采样，得到1个I帧和L个P帧的描述信息。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)通过Res2Net18网络搭建基于P帧累积运动向量的行为分类器和基于P帧累积残差的行为分类器，将它们分别记为Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE 网络；

(2.2)将从各视频片段中提取到的各类帧信息分别输入到对应网络中，每个网络输出一个分类得分；

(2.3)根据输入的帧信息类型，对所有视频片段中基于每类输入得到的分类得分进行求和平均，得到在原始视频层面上基于每类输入的分类得分，即基于I帧图像、基于P帧累积运动向量和基于P帧累积残差的分类得分；

(2.4)采用加权求和的方式进行融合，得到总分类得分作为异常行为识别网络的输出。

较佳地，所述的步骤(3)具体包括以下步骤：

(3.1)通过预训练的高水平网络模型初始化异常行为识别网络的参数；

(3.2)根据定义的交叉熵损失函数，使用批量梯度下降算法优化网络参数；

(3.3)对训练后的网络直接处理压缩视频，实时进行异常行为的识别。

较佳地，所述的步骤(3.2)还包括以下步骤：

(3.2-1)对Res2Net18-MV网络，使用监督迁移的方式进行优化。

较佳地，所述的步骤(2.1)的Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE 网络均包含Res2Net模块，所述的Res2Net模块包括：

第一常规卷积层，卷积核大小为1×1，用于通过卷积操作生成特征图C

特征图层，与所述的第一常规卷积层相连接，用于将输入的特征图均匀地划分为s个特征子图，分别处理各个特征子图，通过3×3的卷积操作得到相应输出并，将特征子图的输出级联得到特征图层的输出；

第二常规卷积层，与所述的特征图层相连接，卷积核大小为1×1，用于对输入y进行卷积操作生成特征图C

较佳地，所述的步骤(2.1)的Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE 网络均包含Res2Net模块均采用ReLU作为激活函数。

较佳地，所述的步骤(3.1)具体为：

通过在大规模图像数据集ImageNet上预训练的Res2Net50模型初始化Res2Net50-I的网络参数；通过预训练的基于光流的Res2Net18模型初始化Res2Net18-MV的网络参数；通过在大规模图像数据集ImageNet上预训练的Res2Net18模型初始化Res2Net18-RE的网络参数。

较佳地，所述的步骤(3.2-1)具体包括以下处理过程：

(3.2-1.1)通过Res2Net18网络训练基于光流的行为分类器Res2Net18-OP；

(3.2-1.2)引入监督损失函数，通过训练后的Res2Net18-OP网络模型指导Res2Net18-MV 网络模型进行训练，同时得到训练Res2Net18-MV网络的损失函数。

较佳地，所述的步骤(3.2-1.2)中得到训练Res2Net18-MV网络的损失函数，具体为：

根据以下公式得到训练Res2Net18-MV网络的损失函数：

Loss

其中，G表示真实的分类得分，O

较佳地，所述的步骤(1)的I帧的描述信息为经过解码的RGB图像，所述的RGB图像为224×224个像素点的固定尺寸。

较佳地，所述的步骤(1)的P帧的描述信息为累积运动向量和累积残差，用于刻画该帧相对所参考的I帧的变化。

该基于压缩视频实现实时异常行为识别的装置，其主要特点是，所述的装置包括用于存储程序的存储器以及用于执行所述的程序的处理器，以实现上述的基于压缩视频实现实时异常行为识别的方法。

该计算机可读存储介质，其主要特点是，包括程序，所述的程序可被处理器执行以完成上述的基于压缩视频实现实时异常行为识别的方法。

采用了本发明的基于压缩视频实现实时异常行为识别的方法、装置及其计算机可读存储介质，为适应实际监控场景下对异常行为识别的实时性需要，提供了一种直接利用压缩视频进行异常行为检测的方法，规避了对压缩视频的解码和密集光流的计算，从而大幅地节省了计算时间。同时利用压缩视频中易于提取的运动向量和残差，包含了运动信息的描述，从而在满足高实时性要求的同时，也保证了较高异常行为识别的准确率。

附图说明

图1为本发明的基于压缩视频实现实时异常行为识别的方法的整体原理示意图。

图2为本发明的基于压缩视频实现实时异常行为识别的方法中的Res2Net模块结构示意图。

图3为本发明的基于压缩视频实现实时异常行为识别的方法的实施例中提供的行为识别性能测试结果示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该基于压缩视频实现实时异常行为识别的方法，其中包括以下步骤：

(1)通过分段采样操作处理将原始视频均匀划分成若干个片段，并按照一定的采样密度从每个视频片段中获取一个I帧的描述信息和若干个P帧的描述信息；

将原始的压缩视频均匀划分为时间长度相同的K个视频片段，从每个视频片段中随机采样，得到1个I帧和L个P帧的描述信息；

(2)进行异常行为识别网络模型搭建；

(2.2)将从各视频片段中提取到的各类帧信息分别输入到对应网络中，每个网络输出一个分类得分；

(2.3)根据输入的帧信息类型，对所有视频片段中基于每类输入得到的分类得分进行求和平均，得到在原始视频层面上基于每类输入的分类得分，即基于I帧图像、基于 P帧累积运动向量和基于P帧累积残差的分类得分；

(2.4)采用加权求和的方式进行融合，得到总分类得分作为异常行为识别网络的输出；

(3)进行异常行为识别网络模型训练；

(3.1)通过预训练的高水平网络模型初始化异常行为识别网络的参数；

通过在大规模图像数据集ImageNet上预训练的Res2Net50模型初始化Res2Net50-I的网络参数；通过预训练的基于光流的Res2Net18模型初始化 Res2Net18-MV的网络参数；通过在大规模图像数据集ImageNet上预训练的 Res2Net18模型初始化Res2Net18-RE的网络参数；

(3.2)根据定义的交叉熵损失函数，使用批量梯度下降算法优化网络参数；

(3.2-1)对Res2Net18-MV网络，使用监督迁移的方式进行优化；

(3.2-1.1)通过Res2Net18网络训练基于光流的行为分类器Res2Net18-OP；

(3.2-1.2)引入监督损失函数，通过训练后的Res2Net18-OP网络模型指导Res2Net18-MV网络模型进行训练，同时得到训练Res2Net18-MV网络的损失函数；

(3.3)对训练后的网络直接处理压缩视频，实时进行异常行为的识别。

作为本发明的优选实施方式，所述的步骤(2.1)的Res2Net50-I网络、Res2Net18-MV 网络和Res2Net18-RE网络均包含Res2Net模块，所述的Res2Net模块包括：

第一常规卷积层，卷积核大小为1×1，用于通过卷积操作生成特征图C

第二常规卷积层，与所述的特征图层相连接，卷积核大小为1×1，用于对输入y进行卷积操作生成特征图C

较佳地，所述的步骤(2.1)的Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE 网络均包含Res2Net模块均采用ReLU作为激活函数。

作为本发明的优选实施方式，所述的步骤(3.2-1.2)中得到训练Res2Net18-MV网络的损失函数，具体为：

根据以下公式得到训练Res2Net18-MV网络的损失函数：

Loss

其中，G表示真实的分类得分，O

作为本发明的优选实施方式，所述的步骤(1)的I帧的描述信息为经过解码的RGB图像，所述的RGB图像为224×224个像素点的固定尺寸。

作为本发明的优选实施方式，所述的步骤(1)的P帧的描述信息为累积运动向量和累积残差，用于刻画该帧相对所参考的I帧的变化。

该基于压缩视频实现实时异常行为识别的装置，其中所述的装置包括用于存储程序的存储器以及用于执行所述的程序的处理器，以实现上述的基于压缩视频实现实时异常行为识别的方法。

该计算机可读存储介质，其中包括程序，所述的程序可被处理器执行以完成上述的基于压缩视频实现实时异常行为识别的方法。

本发明的具体实施方式中，直接利用具有更高信息密度的压缩视频训练一个基于卷积神经网络的异常行为分类器，具体包括：在帧采样策略方面，采用分段采样策略将原始视频划分成若干个片段，然后按照合适的采样密度从每个视频片段提取帧信息；在网络模型方面，采用Res2Net50搭建基于I帧图像的行为分类器，采用Res2Net18网络搭建基于P帧累积运动向量的行为分类器和基于P帧累积残差的行为分类器，采用求和的方式对各分类器产生的分类得分进行融合；在模型训练方面，采用预训练的高水平网络模型初始化异常行为识别网络参数，并使用监督迁移机制，用训练好的光流模型指导基于累积运动向量模型的训练。本发明通过直接利用压缩视频数据中包含的运动信息，有效减少了计算量，在满足高实时性要求的同时，也保证了较高异常行为识别的准确率。

本发明的基于压缩视频实现实时异常行为识别的方法，其中，包括以下步骤：

第一步、压缩视频采样步骤：

采用分段采样策略将原始视频均匀划分成若干个片段，然后按照一定的采样密度从每个视频片段中获取一个I帧和若干个P帧的描述信息；

第二步、异常行为识别网络模型搭建步骤：

使用Res2Net50网络搭建基于I帧图像的行为分类器，使用Res2Net18网络搭建基于P 帧累积运动向量的行为分类器和基于P帧累积残差的行为分类器，将它们分别记为Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络。首先，将从各视频片段中提取到的各类帧信息分别输入到对应网络中，相应地，每个网络会输出一个分类得分；然后，按照输入的帧信息类型，对所有视频片段中基于每类输入得到的分类得分进行求和平均，从而得到在原始视频层面上基于每类输入的分类得分，即基于I帧图像、基于P帧累积运动向量和基于P帧累积残差的分类得分。最后采用加权求和的方式对它们进行融合，得到一个总的分类得分作为异常行为识别网络的输出；

第三步、异常行为识别网络模型训练步骤：

首先使用预训练的高水平网络模型初始化异常行为识别网络的参数，进而，根据定义的交叉熵损失函数，使用批量梯度下降算法优化网络参数。特别地，对于Res2Net18-MV网络，额外使用了监督迁移的方式进行优化。最终训练好的网络可直接处理压缩视频，能够实时地进行异常行为的识别。

第一步中，压缩视频采样策略，是将原始的压缩视频均匀划分为时间长度相同的K个视频片段，然后再从每个视频片段中随机采样，得到1个I帧和L个P帧的描述信息。

第一步中，I帧的描述信息，是指经过解码得到的一幅完整的RGB图像，并且被裁剪成224×224个像素点的固定尺寸，记为I

第二步中，Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络均包含Res2Net 模块。其中，Res2Net模块由三个卷积层构成，具体结构如下：

第一层为常规卷积层，卷积核大小为1×1，假设Res2Net模块的输入是X，则经过1×1 的卷积操作后生成特征图C

第二层先将输入的特征图均匀地划分为s个特征子图，记为x

最后，将s个特征子图的输出级联起来得到y＝(y

第三层也是卷积核大小为1×1的常规卷积层，对输入y执行1×1的卷积操作生成特征图 C

除非另有陈述，在Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络中，Res2Net模块里所有的卷积步长默认设为1，特征子图数默认设为4。如存在Res2Net模块的输入X与输出Y维度不一致的情况，即输入、输出特征图的通道数不同，均采用补零操作来增加维度。

第二步中，Res2Net50-I网络，由以下各层堆叠而成，包括：

(1)第一组卷积层：输入图像的尺寸为224×224，输入通道数为3，由一个常规的卷积层构成，卷积核大小为7×7，卷积步长为2。

(2)最大池化层：输入特征图的大小为112×112，输入通道数为64，采用最大池化操作，池化核为3×3，池化步长为2。

(3)第二组卷积层：输入特征图大小为56×56，输入通道数为64，由三个Res2Net模块堆叠构成，所有模块的第一、二层输出通道数为64，第三层输出通道数为256。

(4)第三组卷积层：输入特征图大小为56×56，输入通道数为256，由四个Res2Net模块堆叠构成，所有模块的第一、二层输出通道数为128，第三层输出通道数为512。除了第一个Res2Net模块的第一层的卷积步长设为2以外，其他部分均保持默认设置。

(5)第四组卷积层：输入特征图大小为28×28，输入通道数为512，由六个Res2Net模块堆叠构成，所有模块的第一、二层输出通道数为256，第三层输出通道数为1024。除了第一个Res2Net模块的第一层的卷积步长设为2以外，其他部分均保持默认设置。

(6)第五组卷积层：输入特征图大小为14×14，输入通道数为1024，由三个Res2Net模块堆叠构成，所有模块的第一、二层输出通道数为512，第三层输出通道数为2048。除了第一个Res2Net模块的第一层的卷积步长设为2以外，其他部分均保持默认设置。

(7)平均池化层：输入特征图的大小为7×7，输入通道数为2048，采用平均池化操作，池化核为7×7。

(8)全连层：输入维度为2048，将可供识别的异常行为类别个数记为N,相应的输出维度为N+1。输出值表示分类得分，即当前视频样本存在某类异常行为的分数，其中，最后一维表示视频不存在异常行为的得分。

第二步中，Res2Net18-MV网络和Res2Net18-RE网络与Res2Net50-I网络结构相似，存在以下差异：

(1)在Res2Net18-MV网络和Res2Net18-RE网络中，第二组至第五组卷积层是由两个 Res2Net模块堆叠构成；

(2)Res2Net18-MV网络的输入通道数为2；Res2Net18-RE网络的输入通道数为3；

Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络均采用ReLU作为激活函数。

第二步中，对于从各个视频片段中所提取的经解码和裁剪的I帧图像和用于描述P帧的累积运动向量和累积残差，分别使用Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE 网络进行处理，相应地，各个网络输出的分类得分可以表示为：

进一步，采用求和平均的方式将所有K个视频片段中基于各类输入得到的分类得分进行融合，分别得到在原始视频层面上基于I帧图像、基于P帧累积运动向量和基于P帧累积残差的分类得分，相应的计算公式为：

然后应用softmax函数得到概率形式的分类得分，最后对它们进行加权求和得到一个总的分类得分作为异常行为识别网络的输出，具体表示为：

O＝α·O

其中，α,β,γ为权重参数。

第三步中，异常行为识别网络参数的初始化，使用在大规模图像数据集ImageNet上预训练的Res2Net50模型初始化Res2Net50-I的网络参数，使用预训练的基于光流的Res2Net18 模型初始化Res2Net18-MV的网络参数，使用在大规模图像数据集ImageNet上预训练的Res2Net18模型初始化Res2Net18-RE的网络参数。

第三步中，对Res2Net18-MV网络采用监督迁移进行训练的方法，首先利用Res2Net18 网络训练一个基于光流的行为分类器，记为Res2Net18-OP。然后利用训练好的Res2Net18-OP 网络模型来指导Res2Net18-MV网络模型的训练。具体而言，额外引入了一个监督损失函数，使得对于同一个P帧，用Res2Net18-OP处理从该帧提取的光流信息所得到的分类得分，和用Res2Net18-MV处理从该帧提取的累积运动向量信息所得到的分类得分尽量接近。最终训练Res2Net18-MV网络的损失函数表示为：

Loss

其中，G表示真实的分类得分，O

参照图1所示，本发明的基于压缩视频的实时异常行为识别方法的实施例包括如下步骤：

1、压缩视频采样步骤

采用分段采样策略将原始的压缩视频均匀划分为时间长度相同的K个视频片段，然后按照一定的采样密度从每个视频片段中随机采样，获取1个I帧和L个P帧的描述信息。其中， I帧的描述信息，是指经过解码得到的一幅完整的RGB图像，并且被裁剪成224×224个像素点的固定尺寸，记为I

2、异常行为识别网络模型搭建步骤：

使用Res2Net50网络搭建基于I帧图像的行为分类器，使用Res2Net18网络搭建基于P 帧累积运动向量的行为分类器和基于P帧累积残差的行为分类器，将它们分别记为Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络。这些网络均包含Res2Net模块，Res2Net模块的结构如图2所示，由三个卷积层构成，具体结构如下：

第一层为常规卷积层，卷积核大小为1×1，假设Res2Net模块的输入是X，则经过1×1 的卷积操作后生成特征图C

第二层先将输入的特征图均匀地划分为s个特征子图，记为x

最后，将s个特征子图的输出级联起来得到y＝(y

第三层也是卷积核大小为1×1的常规卷积层，对输入y执行1×1的卷积操作生成特征图 C

除非另有陈述，在所述的Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络中，Res2Net模块里所有的卷积步长默认设为1，特征子图数默认设为4。如存在Res2Net模块的输入X与输出Y维度不一致的情况，即输入、输出特征图的通道数不同，均采用补零操作来增加维度。

Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络结构如图3所示。对于从各个视频片段中所提取的经解码和裁剪的I帧图像和用于描述P帧的累积运动向量和累积残差，分别使用Res2Net50-I网络、Res2Net18-MV网络和Res2Net18-RE网络进行处理，相应地，各个网络输出的分类得分可以表示为：

然后应用softmax函数得到概率形式的分类得分，最后对它们进行加权求和得到一个总的分类得分作为异常行为识别网络的输出，具体表示为：

O＝α·O

其中，α,β,γ为权重参数。

3、异常行为识别网络模型训练步骤

使用在大规模图像数据集ImageNet上预训练的Res2Net50模型初始化Res2Net50-I的网络参数，使用预训练的基于光流的Res2Net18模型初始化Res2Net18-MV的网络参数，使用在大规模图像数据集ImageNet上预训练的Res2Net18模型初始化Res2Net18-RE的网络参数。根据定义的交叉熵损失函数，使用批量梯度下降算法优化网络参数。

特别地，对于Res2Net18-MV网络，额外使用了监督迁移的方式进行优化。首先利用Res2Net18网络训练一个基于光流的行为分类器，记为Res2Net18-OP。然后利用训练好的Res2Net18-OP网络模型来指导Res2Net18-MV网络模型的训练。具体而言，额外引入了一个监督损失函数，使得对于同一个P帧，用Res2Net18-OP处理从该帧提取的光流信息所得到的分类得分，和用Res2Net18-MV处理从该帧提取的累积运动向量信息所得到的分类得分尽量接近。最终训练Res2Net18-MV网络的损失函数表示为：

Loss

其中，G表示真实的分类得分，O

最终训练好的网络可直接处理压缩视频，能够实时地进行异常行为的识别。

对训练好的异常行为识别网络模型在UCF-101和HMDB-51数据集上进行了性能测试，测试结果所示，融合后的结果分别取得了92.2％和61.9％的准确率。模型处理batch为16的批量数据的延时为211.22ms，相当于模型一秒钟能够处理75帧，完全可以满足实时处理视频的要求，从识别效果和处理速度均满足实时异常行为检测算法的要求。

采用了本发明的基于压缩视频实现实时异常行为识别的方法，为适应实际监控场景下对异常行为识别的实时性需要，提供了一种直接利用压缩视频进行异常行为检测的方法，规避了对压缩视频的解码和密集光流的计算，从而大幅地节省了计算时间。同时利用压缩视频中易于提取的运动向量和残差，包含了运动信息的描述，从而在满足高实时性要求的同时，也保证了较高异常行为识别的准确率。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：成云飞;王武;刘月霞;
专利申请人：公安部第三研究所;