掌桥专利:专业的专利平台
掌桥专利
首页

一种基于时空通道激励的视频动作识别方法及设备

文献发布时间:2024-04-18 19:59:31


一种基于时空通道激励的视频动作识别方法及设备

技术领域

本发明属于图像处理技术领域,尤其涉及一种基于时空通道激励的视频动作识别方法及设备。

背景技术

随着安全城市、人工智能的快速发展,录像设备越来越普及,视频类软件也与日俱增。医院、商场和公共交通的监控视频每天都会记录大量的内容,以确保稳定的公共秩序和出行安全。所有这些场景都需要高效、准确的视频理解。

时间建模能力是视频理解方法的关键,例如,停车和驾驶,没有时间建模能力的模型会造成识别混乱。自从双流网络的引入,深度学习方法已经逐渐成为视频理解的标准。TSM作为最有效的模型之一,打破了传统的二维卷积方法,通过对时间维度上的特征通道进行前后偏移来独立处理时间维度,这样就可以用较少的网络参数对时间和空间信息进行建模,进行离线和在线视频理解。但TMS模型虽然通过部分通道移位模拟时间信息,但它忽略了空间和时间维度之间的互动,其特征提取能力仍有待提高。

发明内容

鉴于上述的分析,本发明旨在提供一种基于时空通道激励的视频动作识别方法,用于解决现有技术中的用于视频的特征提取方法忽略了空间和时序维度之间的互动,提取的特征忽略时间维度信息,导致利用该特征识别效果差、效率低的问题。

本发明的目的主要是通过以下技术方案实现的:

一方面,本发明提供了一种基于时空通道激励的视频动作识别方法,该方法包括:

构建视频动作数据集,所述数据集中包括视频片段和视频动作类别;

构建视频动作识别模型,所述视频动作识别模型包括时空通道激励模块,用于对待识别的视频在空间维度和时序维度上采用通道激励的方法进行特征提取,得到融合空间特征和时序特征的特征图;

基于所述视频动作数据集,通过损失函数对所述视频动作识别模型进行迭代训练得到训练好的视频动作识别模型;

将待识别的视频输入训练后的所述视频动作识别模型,得到动作类别识别结果。

进一步的,所述视频动作识别模型基于Resnet50模型构建得到;所述Resnet50模型的第2个stage到第五个5stage的每个Resblock模块后均设置至少一个所述时空通道激励模块,对每个Resblock模块的输出进行空间和时序特征提取和融合。

进一步的,所述时空通道激励模块包括输入模块、SGAP模块、TGAP模块和特征融合模块;

所述输入模块用于将对应的所述Resblock模块输出的特征图按通道维度分为两组特征图X

所述SGAP模块和TGAP模块分别用于对两组特征图X

所述特征融合模块用于将所述空间特征图和时序特征图进行特征融合,提取得到所述视频的融合空间特征和时序特征的特征图。

进一步的,所述SGAP模块在空间维度上采用通道激励的方法进行特征提取得到空间特征图,包括:通过所述SGAP模块对其中的一组特征图X

所述TGAP模块在时序维度上采用通道激励的方法进行特征提取得到时序特征图,包括:通过所述TGAP模块对另一组特征图X

进一步的,所述对所述初级空间特征图采用一维卷积对空间特征进行建模,包括:

对所述初级空间特征图进行1D卷积,将通道数降为C/2Gr,r为卷积层降维比率,G为分组超参数;

对通道降维后的特征图进行1D卷积操作,将通道数恢复为C/2G;

对通道恢复后的特征图经过批量标准化,并通过激活函数进行激活;

将激活后得到的特征权重与所述初级空间特征图进行叠加,得到所述视频对应的空间特征图。

进一步的,通过下述公式对一组特征图X

其中,

进一步的,通过下述公式对初级空间特征图进行建模:

其中,

进一步的,通过下述公式对另一组特征图X

其中,其中

进一步的,所述特征融合模块用于将所述空间特征图和时序特征图进行特征融合,包括:

所述特征融合模块接收所述SGAP模块和TGAP模块输出的所述时序特征图和空间特征图,并将所述时序特征图和空间特征图通过通道错开的方式合并,以及将合并后的特征图进行通道洗牌;

通过平均池化操作对通道洗牌后的特征图进行特征提取后与合并后的特征图进行残差连接,并通过激活函数激活后得到所述视频对应的包含空间特征和时序特征的特征图。

另一方面,还公开了一种计算机设备,该设备包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的基于时空通道激励的视频动作识别方法。

本技术方案的有益效果:

本发明基于Resnet50模型,结合时空通道激励模块,通过可分离时序注意特征和空间注意特征的融合方法,通过SGAP和TGAP分支分别提取时序特征和空间的特征,通过通道激励和混合重组的操作确保了时空特征的关联;在提高时序特征提取和空间特征提取性能的同时保持高效性;通过在两个基准数据集上进行的大量实验表明,本发明的视频动作识别方法在准确性和视觉效果上均优于现有的动作识别网络。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;

图1是本发明实施例的基于时空通道激励的视频动作识别方法流程图;

图2是本发明实施例的时序特征提取和空间特征提取流程图;

图3是本发明实施例的特征融合方法流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施案例一起用于阐释本发明的原理,并非用于限定本发明的范围。

本发明的一个实施例,提供了一种基于时空通道激励的视频动作识别方法,如图1所示,该方法包括:

步骤S1:构建视频动作数据集,所述数据集中包括视频片段和视频动作类别;

步骤S2:构建视频动作识别模型,所述视频动作识别模型包括时空通道激励模块,用于对待识别的视频在空间维度和时序维度上采用通道激励的方法进行特征提取,得到融合空间特征和时序特征的特征图;

步骤S3:基于所述视频动作数据集,通过损失函数对所述视频动作识别模型进行迭代训练得到训练好的视频动作识别模型;

步骤S4:将待识别的视频输入训练后的所述视频动作识别模型,得到动作类别识别结果。

具体的,在步骤S1中,本实施例选择UCF101和HMDB51作为训练数据集,其中,UCF101包含13320个视频片段,101个动作类别;HMDB51包含7000个视频片段,51个动作类别;在两个数据集基础上,进一步对视频片段采用随机水平翻转和90°、180°、270°旋转来扩充训练数据;为了在训练模型时使用图像数据类型,从数据集中提取RGB视频帧保存为图像,以文件夹的形式保存,并按其动作类别进行命名。本实施例按8:2的比例将所有视频帧数据划分为训练集和测试集。

在步骤S2中,本实施例的视频动作识别模型基于Resnet50模型构建得到;并在Resnet50模型的第2个stage到第5个5stage的每个Resblock模块后均设置至少一个所述时空通道激励模块,用于对每个Resblock模块的输出进行空间和时序特征提取和融合;

其中,每个时空通道激励模块均包括输入模块、SGAP模块、TGAP模块和特征融合模块;

输入模块用于将对应的Resblock模块输出的特征图按通道维度分为两组特征图X

SGAP模块和TGAP模块分别用于对两组特征图X

特征融合模块用于将空间特征图和时序特征图进行特征融合,提取得到视频的融合空间特征和时序特征的特征图。

具体的,如图2所示,本发明提出的时空通道激励模块可以有效的用于视频以进行可分离时序和空间注意特征的特征提取;该方法基于TSM模型,首先以通道维度对特征图进行分组,然后分别计算两个特征组的空间和时序通道维度上的依赖关系;最后,将所有的特征使用通道洗牌操作进行交叉融合。通过这种方法,实现了引入更少的计算来改善时序和空间通道转移后的特征表示,并提高了TSM模型的性能。

作为一个具体的实施例,给定一个由多帧图像组成视频作为视频动作识别模型的输入,经过Resblock模块进行特征提取后得到由多帧图像组成的特征图,将得到的特征图输入到时空通道激励模块的输入模块,通过输入模块将每一组特征图分为两个小组X

其中,T为图像帧数,本实施例中取8,C为图像通道数x

进一步的,对两组特征图分别在空间维度和时序维度上采用通道激励的方法进行特征提取,即分别采用SGAP模块和TGAP模块进行空间特征提取和时序特征提取,其中SGAP模块包含时间压缩子模块和池化子模块用于进行时间压缩和池化操作,TGAP模块包含时间压缩子模块和池化子模块用于进行空间压缩和池化操作;

更具体的,输入特征图被拆分为两组X

其中,在空间维度上采用通道激励的方法进行特征提取得到空间特征图,包括:对其中的一组特征图X

对初级空间特征图采用一维卷积对空间特征进行建模,包括:对初级空间特征图进行1D卷积,将通道数降为C/2Gr,r为卷积层降维比率;对通道降维后的特征图进行1D卷积操作,将通道数恢复为C/2G;对通道恢复后的特征图经过批量标准化,并通过激活函数进行激活;将激活后得到的特征权重与初级空间特征图进行叠加,得到视频对应的空间特征图。

优选的,通过下述公式对一组特征图X

其中,

通过下述公式对初级空间特征图进行建模:

其中,

进一步的,在时序维度上采用通道激励的方法进行特征提取得到时序特征图,包括:对另一组特征图X

其中,对初级时序特征图采用二维卷积对空间特征进行建模,包括:对所述初级时序特征图进行2D卷积,将通道数降为C/2Gr,r为卷积层降维比率;对通道降维后的特征图进行2D卷积操作,将通道数恢复为C/2G;对通道恢复后的特征图经过批量标准化,并通过激活函数进行激活;将激活后得到的特征权重与所述初级时序特征图进行叠加,得到所述视频对应的时序特征图。

优选的,通过下述公式对另一组特征图X

其中,

通过下述公式对所述初级时序特征图进行建模:

其中,

本实施例中,通过1D卷积和2D卷积分别对空间特征和时序特征进行建模,并与初始特征向量进行叠加,实现了对每个像素点在不同的channels上进行线性组合(信息整合),且保留了原始图像的原有平面结构,通过通道调整,完成升维和降维的功能,可以控制模型训练的参数,并且可以更加针对性的获取视频的有效特征,对无用的特征进行过滤;该激励机制聚焦于提升模型的空间信息与时序信息的融合能力,采用通道分组的方式并行的学习空间和时序信息,通过自适应融合机制过滤出有效的时空语义。通过卷积层之后经过激活,有效提升了模型的表达能力,提高了特征提取的有效性。

进一步的,通过特征融合模块将所述空间特征图和时序特征图进行特征融合,提取得到所述视频的融合空间特征和时序特征的特征图。

具体的,本实施例采用特征融合模块将时序特征图和空间特征图通过通道错开的方式合并;如图3所示,并将合并后的特征图进行通道洗牌;并通过平均池化操作对通道洗牌后的特征图进行特征提取后与合并后的特征图进行残差连接,并通过激活函数激活后得到所述视频对应的包含空间特征和时序特征的特征图。

更具体的,通过下述公式进行特征融合:

I

其中,I

步骤S3中,在PyTorch平台上实现视频动作识别方法,并采用Nvidia Tesla v100s显卡进行实验,使用小批量随机梯度下降算法和Adam优化算法训练模型,批大小设置为12,初始化学习率为0.0001,学习率的衰减周期为10,衰减因子为0.1,dropout设置为0.8,模型迭代次数为25次。据研究表明,使用预训练是一种有效的方法,可以在目标数据集中的训练样本不足的情况下初始化卷积神经网络。为了避免过拟合,使用Kinetics数据集的预训练模型来初始化网络权重。

需要说明的是,本实施例中,将时空通道激励模块添加到Resnet50模型的4个主干上以提高网络的动作识别能力;在评估动作识别网络性能时,使用的评价指标是精度;精度是指在所有预测样本中,网络正确预测事件的比例,反映了动作识别网络的准确性,TP表示预测正确的数量,FP表示预测错的数量,TP+FP则表示预测总数,精度(准确率)则表示模型预测正确的数量占预测总数的比例。

本实施还通过消融实验验证本发明提出的基于时空通道激励的视频动作识别方法的有效性;

首先分析了时空通道激励模块在骨干网络中的位置对网络性能的影响。此外,为了验证该模块的有效性,我们对比了在stage3支路上,不同时空通道激励模块数量对网络性能影响。

表1是第一个消融实验的结果,在实验中将分别在stage1、stage2、stage3、stage4上各添加3个时空通道激励模块SSA;有实验结果可以看出,随着网络的加深,时空通道激励模块的效果提升越明显,在保证基础设置相同的前提下,在stage4中加入时空通道激励模块能够有效的提升网络的时序提取能力。如表1所示,在UCF101数据集上,使用时空通道激励模块可以将网络性能提高0.5%;在HMDB51数据集上,使用时空通道激励模块可以将网络性能提高1.4%;这表明该模块有助于融合空间和时序特征,证明了该模块的有效性。

表1时空注意力激励块位置对网络性能的影响

表2是第二个消融实验的结果,在实验中将时空通道激励模块的数量分别设置为0、1、3、6。随着块数的增加,UCF101和HMDB51数据集上的性能逐渐提高,但参数量和计算量也在增加。可以看到本实施例提出的时空通道激励模块可以在增加少量参数和计算量的情况下有效增加网络的性能。

表2时空注意力激励块数量对网络性能的影响

将带有时空通道激励模块的网络与7种先进的轻量化SISR方法在*2、*3和*4尺度上进行了比较,包括IDT、DRTAP、TWO-STREAM、C3D、P3D、R(2+1)D、TSN、TSM。如表3所示,在2DCNN和3DCNN度量方面,SSA在所有基准上都优于其他先进的轻量级方法。

表3各种方法在两个数据集上进行效果对比

本发明的另一个实施例,还公开了一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的基于时空通道激励的视频动作识别方法。

综上,本发明的实施例提供的基于时空通道激励的视频动作识别方法,基于Resnet模型,采用时空通道激励模块实现可分离时空注意特征融合方法,在提高时序特征提取性能的同时保持高效性,本发明的SGAP和TGAP分支能够分别提取时序和空间的特征,通过通道激励和混合重组的操作确保了时空特征的关联;该方法聚焦于提升模型的空间信息与时序信息的融合能力,采用通道分组的方式并行的学习空间和时序信息,通过自适应融合机制过滤出有效的时空语义;通过在两个基准数据集上的大量实验表明,本发明在准确性和视觉效果方面优于其他先进的动作识别网络。

本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

相关技术
  • 分析样品中多重目标核酸检测方法
  • 一种从临床样品中快速简便提取核酸的方法
  • 用于消化样品中核酸的方法
  • 从含有核酸的样品中分离核酸的方法及用于该方法的样品处理试剂
技术分类

06120116519020