掌桥专利:专业的专利平台
掌桥专利
首页

一种基于结构可重参数化的轻量级视频行为识别方法

文献发布时间:2023-06-19 18:25:54


一种基于结构可重参数化的轻量级视频行为识别方法

技术领域

本发明涉及一种基于结构可重参数化的轻量级视频行为识别方法,属于计算机人工智能学科技术领域。

背景技术

视频行为识别是通过对一段视频片段进行分析从而得到视频中人物的动作行为,在安防监控、驾驶员或乘客行为识别、短视频审核等具有广泛的应用前景。

使用3D卷积能够有效的捕捉到时间维度和空间维度的信息,但直接基于3D卷积的视频行为识别网络(D.Tran,L.Bourdev,R.Fergus,L.Torresani and M.Paluri.LearningSpatiotemporal Features with 3D Convolutional Networks.Proceedings of theIEEE international conference on computer vision(ICCV).2015:4489-4497.)往往会造成参数量大和浮点计算量高等问题,无法直接在算力受限的边缘设备上应用与普及。

为了解决上述问题,使用直接基于轻量化网络扩展而来的3D结构网络模型虽然拥有较小的参数量和计算量,然而精度损失严重,基于SlowFast的视频行为识别网络通过快慢双分支通道提取视频帧中的运动信息和背景信息,虽然一定程度上减小了模型的大小,但最终的模型仍然相对较为臃肿,难以直接部署和使用,这就限制了基于3D卷积的视频行为识别的使用与普及。

发明内容

为了解决目前的视频行为识别方法无法同时保证精度和计算效率的问题,本发明提供了一种基于结构可重参数化的轻量级视频行为识别方法,所述技术方案如下:

本发明的第一个目的在于提供一种轻量级视频行为识别方法,包括以下步骤:

步骤一:获取待识别的行为视频;

步骤二:对所述待识别的行为视频进行预处理,得到行为图像序列;

步骤三:将所述行为图像序列输入基于结构可重参数化的轻量级视频行为识别网络;

步骤四:所述基于结构可重参数化的轻量级视频行为识别网络对所述行为图像序列进行计算并输出行为识别结果。

可选的,所述基于结构可重参数化的轻量级视频行为识别网络的构建过程包括:

步骤1:将DBB模块结构扩展为3D结构,即使用3D卷积替换原2D卷积,使用2D池化操作替换原2D池化操作,构建3D-DBB模块;

步骤2:使用所述3D-DBB模块构建结构可重参数化的深度卷积,即3D-DBB-DepthWise模块;

步骤3:使用所述3D-DBB模块构建结构可重参数化的逐点卷积,即3D-DBB-PointWise模块;

步骤4:将所述3D-DBB-DepthWise模块和3D-DBB-PointWise模块进行堆叠,构建结构可重参数化的深度可分离卷积,即DP3DBB模块;

步骤5:以轻量级网络为骨干网络,将所述轻量级网络中的深度可分离卷积替换为所述DP3DBB模块。

可选的,所述步骤5中的轻量级网络包括:MobileNet系列网络和/或ShuffleNet系列网络。

可选的,所述步骤5中的替换方式为:将所述ShuffleNet系列网络的基本模块和下采样模型的两分支各看作一个整体,将分支路上含深度可分离结构直接替换为仅含有一个所述DP3DBB模块的分支结构。

可选的,所述步骤5中的替换方式为:将所述ShuffleNet系列网络的基本模块和下采样模型的两分支上的每个单元看作一个独立的个体,即每个单元均替换成所述DP3DBB模块。

可选的,所述3D-DBB模块的激活函数为HardSwish激活函数。

可选的,所述步骤二中对所述待识别的行为视频进行预处理的过程包括:归一化、随机裁剪、分辨率调整。

可选的,所述分辨率调整为224x 224。

本发明的第二个目的在于提供一种视频行为识别系统,包括:

视频获取模块,用于采集待识别的行为视频;

视频预处理模块,用于对采集的行为视频进行处理并输出行为图像序列;

上述的基于结构可重参数化的轻量级视频行为识别网络,用于对所述行为图像序列进行计算;

输出显示模块,用于根据所述基于结构可重参数化的轻量级视频行为识别网络的计算结果输出行为识别结果。

可选的,视频行为识别系统还包括报警装置,用于根据行为识别结果发出警报信号。

本发明有益效果是:

本发明的轻量级视频行为识别方法,基于3D卷积结构的轻量化问题,利用3D结构的重参数化使得网络能够继续使用3D卷积能够提取时空上的特征的优点,并且在经过重参数化后仍能达到轻量化网络模型的目的,最终能够以较小的参数量和计算量去部署模型和进行模型推理,即以较大的参数量去训练网络,在推理时以较小的模型进行推理并保证模型精度不会下降。3D结构的重参数化设计达到了轻量化了3D网络模型的目的并保持模型的精度不会过分丢失。

利用本发明构建的轻量级网络进行视频行为识别,不仅可以提升识别效率,且同时保证了识别精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明的3D-DBB模块结构图。

图2是本发明的3D-DBB-DepthWise模块结构图;

图3是本发明的3D-DBB-PointWise模块结构图;

图4是本发明的DP3DBB模块结构图。

图5是本发明的两种不同的深度可分离卷积替换方式结构图。

图6是本发明的ShuffleDBBv1的基础模块结构替换设计图。

图7是本发明的ShuffleDBBv1的下采样模块结构替换设计图。

图8是本发明的ShuffleDBBv2基础模块和下采样模型结构替换设计图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一:

本实施例提供一种轻量级视频行为识别方法,包括:

步骤一:获取待识别的行为视频;

步骤二:对所述待识别的行为视频进行预处理,得到行为图像序列;

步骤三:将所述行为图像序列输入基于结构可重参数化的轻量级视频行为识别网络;

步骤四:所述基于结构可重参数化的轻量级视频行为识别网络对所述行为图像序列进行计算并输出行为识别结果。

实施例二:以3D-ShuffleNetV2为骨干网络,使用第一种替换方式替换深度可分离结构本实施例提供一种轻量级视频行为识别方法,包括:

步骤一:获取待识别的行为视频;

可采用摄像头采集实时视频,或者采用现有的包含行为的视频。

步骤二:对待识别的行为视频进行预处理,得到行为图像序列,预处理的过程主要包括:抽取视频帧,对视频帧进行归一化、随机裁剪等操作,获得行为图像序列,本实施例将输入图像序列的分辨率控制在224x 224。

步骤三:将所述行为图像序列输入基于结构可重参数化的轻量级视频行为识别网络;

该识别网络的构建过程如下:

步骤1:为了适用于视频行为识别这种带有时间序列维度的数据,本实施例将DBB(Diverse Branch Block)结构通过膨胀的方式,即使用3D卷积替换原2D卷积,使用2D池化操作替换原2D池化操作,从而能够提取到时空维度上的特征,使其能够适用于基于三维卷积的任务当中,膨胀后得到的3D-DBB模块结构如图1所示。

步骤2:使用3D-DBB模块构建结构可重参数化的深度卷积,并命名为3D-DBB-DepthWise模块,模块结构如图2所示,将标准的3D-DBB模块中的各个卷积进行分组,从而模拟出标准深度可分离卷积的核心对卷积进行分组卷积,达到减少参数量和计算量的目的。

步骤3:使用步骤1所提出的3D-DBB模块构建结构可重参数化的逐点卷积,并命名为3D-DBB-PointWise模块,模块结构如图3所示,即将标准的3D-DBB模块中所有的3x3x3卷积全部使用1x1x1卷积进行替换,从而模拟标准深度可分离卷积的逐点卷积的效果。

步骤4:将步骤二的3D-DBB-DepthWise模块和3D-DBB-PointWise模块进行堆叠,构建结构可重参数化的深度可分离卷积,即DP3DBB模块,DP3DBB结构如图4所示。

步骤5:以3D-ShuffleNetV2为骨干网络,使用替换方式一构建结构可重参数化的轻量级ShuffleDBBv1网络,替换方式一如图5所示,将3D-ShuffleNetV2的基本模块和下采样模型的两分支各看作一个整体,将分支路上含深度可分离结构直接替换为仅含有一个DP3DBB结构分支结构。初始3D-ShuffleNetV2的基本模块和下采样分别如图6(a)和图7(a)所示,采用方式一直接使用DP3DBB模块替换掉原分支路上含有深度可分离结构的卷积结构,替换后的基础模块和下采样模块结构分别如图6(b)和图7(b)所示,将其进行结构重参数化后,最终推理结构的基础模块和下采样模块分别如图6(c)和图7(c)所示。

步骤6:训练和测试基于结构可重参数化和轻量化网络相结合的网络模型,在训练时,使用结构重参数化前的网络进行训练,在推理测试时,使用结构重参数化后的网络进行推理测试。

步骤6.1:使用EgoGesture、Jester和UCF-101三个视频行为数据集进行测试改进的模型的有效性,对数据集的视频数据集进行抽取视频帧操作。

步骤6.2:对视频帧进行预处理操作,如归一化、随机裁剪等。将输入图像序列的分辨率控制在224x 224。

步骤6.3:将经过预处理操作的连续16帧视频帧序列输入给网络模型,进行模型训练。通过网络的前向计算,以及损失函数计算网络误差,并将该误差反向传播,计算网络每一层权重的误差梯度,并进行权值更新,逐渐缩小网络误差值。不断循环执行上述过程,寻找最有效的网络训练参数,使得网络损失降低至最小即完成网络的训练过程,获得网络模型,此过程可以简单概括为参数寻优。

步骤6.4:测试并计算网络模型重参数化之前和之后的参数量、浮点计算量、以及在GPU和CPU上的推理延迟。

步骤四:所述基于结构可重参数化的轻量级视频行为识别网络对所述行为图像序列进行计算并输出行为识别结果。

实施例三:以3D-ShuffleNetV2为骨干网络,使用第二种替换方式替换深度可分离结构本实施例提供一种轻量级视频行为识别方法,包括:

实施步骤与实施例二基本相同,仅步骤5替换方式不同,实施例三步骤5具体替换方式如下:

以3D-ShuffleNetV2为骨干网络,使用替换方式二构建结构可重参数化的轻量级ShuffleDBBv2网络,替换方式二如图5所示,将ShuffleNetV2的基本模块和下采样模型的两分支上的每个单元看作一个独立的个体,即每个单元均替换成对应的3D-DBB模块结构。替换过程如图8所示,其中图8(a)是原ShuffleNet的基本模块,(b)是方式二替换后的结构重参数化后的下采样模块,(c)是原ShuffleNet的下采样模型,(d)是方式二替换后的结构重参数化后的下采样模块。

实施例四:以3D-MobileNetV1为骨干网络

本实施例提供一种轻量级视频行为识别方法,包括:

实施步骤与实施例二基本相同,仅步骤5替换方式不同,实施例三步骤5具体替换方式如下:

以3D-MobileNetV1为骨干网络,使用DP3DBB模块替换3D-MobileNetV1网络中的深度可分离结构。具体的网络结构如表1所示。

表1MobileV1DBB网络结构

为了证明本发明的有益效果,进行了全面的对比实验,将本发明的视频行为方法与直接基于轻量化网络扩展而来的轻量级视频行为识别方法以及先进的视频行为识别网络进行了比较,实验数据如表2和表3所示,其中表1是本实施例与经典视频行为识别网络已经直接基于轻量级网络扩展而来的网络模型的参数量、浮点计算量、在EgoGesture、Jester和UCF-101数据集上的准确率,以及在CPU和GPU上的推理延迟对比数据。表2是本实施例与先进的视频行为识别网络的在使用预训练模型后在EgoGesture数据集上的准确率对比。

表2各个视频行为识别模型的参数量、浮点计算量、在EgoGesture、Jester和UCF-101数据集上的准确率,以及在CPU和GPU上的推理延迟

表3使用预训练模型后在EgoGesture数据集上的结果对比

由表2的数据可以看出,本发明与经典视频行为识别网络以及直接基于轻量化网络扩展而来的网络相比,准确率显著提高,并且在经过重参数化后,速度可以与直接基于轻量化网络扩展而来的视频行为识别网络相媲美。由表3数据可以看出,本实施例在参数量仅为ResNeXt-101网络1/50的情况下,准确率仅下降0.42%。

综上所述,本发明的轻量级视频行为识别方法,基于3D卷积结构的轻量化问题,利用3D结构的重参数化使得网络能够继续使用3D卷积能够提取时空上的特征的优点,并且在经过重参数化后仍能达到轻量化网络模型的目的,最终能够以较小的参数量和计算量去部署模型和进行模型推理,即以较大的参数量去训练网络,在推理时以较小的模型进行推理并保证模型精度不会下降。3D结构的重参数化设计达到了轻量化了3D网络模型的目的并保持模型的精度不会过分丢失。

本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于长短期时域建模算法的轻量级视频行为识别方法
  • 基于长短期时域建模算法的轻量级视频行为识别方法
技术分类

06120115564647