掌桥专利:专业的专利平台
掌桥专利
首页

基于阶段特征融合的TSF网络结构及视频行为识别方法

文献发布时间:2023-06-19 16:06:26



技术领域

本发明涉及视频动作识别技术领域,更具体的说是涉及一种基于阶段特征融合的TSF网络结构及视频行为识别方法。

背景技术

现有技术中,使用深度学习方法解决视频中动作识别的问题有两大类思路:以抽取并分类时空特征为目的的视频识别方法;以提取骨架信息进行再训练为目的的姿态估计方法。由于神经网络可以从数据中学习到特征,这种学习方式也符合人类认识世界的机理,因此,通过神经网络学习到的语义特征往往可以用于动作识别。

在图像检测分类方面ConvNet具有很大的优势,取得了很多突破性成果。ConvNet也被引入到视频动作识别领域。ConvNet在大规模监督数据集上具有十分出色的建模能力,但是视频不同于图像,它具有丰富的时序特征,因此在视频动作识别上,端到端的深度卷积神经网络对于传统的手工提取特征没有明显优势。主流ConvNet架构在视频动作识别上的主要缺点是缺乏在长时域结构上建模的能力。在学术界提出了一些方法来解决这个问题,其主要依赖于具有预定义采样间隔的密集时间采样。SlowFast是最近提出的一个动作识别算法,采用改造的3D ResNet作为骨干网络构造快慢两个通道,快慢通道通过设置不同的采样频率,可以有效的提取部分时空信息,但是依赖于密集均匀采样,具有计算量大、长时域特征提取无力、可能过拟合的缺点。另一个方案就是通过对视频数据分段完成对时域的分割,对每段切片进行稀疏采样来提取时空特征,然后分别对时空特征进行融合得出共识,虽然可以有效地对长时域结构建模,但是片段提取出的特征都是相对独立的,融合片段共识对整个视频进行了建模,忽略了时空信息是随着时间不断累加,每个片段都有和上下文联系的阶段性时空特征,因此可以对长时间结构建模,但是不能充分提取长时域信息。

上述现有技术中仍存在一些问题:1)如何进行长时域结构建模,学习视频的时空特征;2)如何充分地捕获长时域结构的时空特征。因此,如何克服上述技术问题,是本领域技术人员亟需解决的问题。

发明内容

有鉴于此,本发明提出了一种网络框架,称为时间分段快慢融合网络(TSF)。该框架采取了快慢通道使用非对称采样的思想并进行改进,在每段视频中按比例均匀稀疏采样输入两个通道。在此基础上,采用分段结构通过邻域特征融合策略聚合信息,进行了视频级别的长时域建模。本发明解决了双流网络架构不能提取长时域特征的缺点,并获得视频级的识别效果。

为了实现上述目的,本发明提供如下具体技术方案:

一种基于阶段特征融合的TSF网络结构,包括以下部分:

视频切片模块,用于对待识别视频进行视频切片,得到K段视频;

时空特征提取模块,用于对每段视频的视频帧进行采样;将每段视频采样得到的视频帧按比例输入至Slow通道和Fast通道,提取出每段视频的时空特征;

预测模块,用于通过邻域特征融合的方法,使用预测函数获取K个预测得分;

聚合模块,用于对所述K个预测得分进行聚合,得到待识别视频的预测得分;依据待识别视频的预测得分,得到待识别视频的识别结果。

在上述TSF网络结构的基础上,进一步公开一种基于阶段特征融合的视频行为识别方法,包括以下步骤:

步骤1、对待识别视频进行视频切片,得到K段视频;

步骤2、对每段视频的视频帧进行采样;将每段视频采样得到的视频帧按比例输入至Slow通道和Fast通道,提取出每段视频的时空特征;

步骤3、通过邻域特征融合的方法,基于每段视频的时空特征,使用预测函数获取K段视频的K个预测得分;

步骤4、对所述K个预测得分进行聚合,以获得它们之间的阶段共识,得到待识别视频的预测得分;依据待识别视频的预测得分,得到待识别视频的识别结果。

可选的,所述步骤2中,使用非对称稀疏采样方法,对每段视频的视频帧进行采样,既捕获了丰富的信息,也可以在合理的时间和计算资源下实现对长时间序列的端到端学习。

可选的,所述步骤3中,K个预测得分包括第一段视频的初步预测得分和剩下的K-1段视频的K-1个阶段性预测得分。

可选的,所述步骤3中,邻域特征融合的方法具体为:

依据第一段视频的时空特征,通过预测函数直接得到初步预测得分;

从第二段视频开始,每段视频得到的时空特征都分别与前面所有段视频的时空特征进行特征矩阵拼接,再经过预测函数得到阶段性预测得分。

可选的,所述步骤3中,预测函数使用Softmax函数获取预测得分。

可选的,所述步骤4中,使用分段共识函数对K个预测得分进行聚合。

可选的,所述步骤4中,所述待识别视频的预测得分包括每种行为标签的预测得分,以每种行为标签的预测得分为置信度,选取置信度最高的行为标签对应的行为类别,作为待识别视频的识别结果。

可选的,基于损失函数,使用反向传播算法,对预测函数的参数进行优化迭代,损失函数表示为:

其中C为动作分类的类别数,y

经由上述的技术方案可知,本发明公开了一种基于阶段特征融合的TSF网络结构及视频行为识别方法,与现有技术相比,具有以下有益效果:

本发明提出了邻域特征融合策略,并在此基础上,提供了TSF网络结构及其对应的视频行为识别方法,将视频沿着时间维度的时空特征不断进行阶段性拼接融合并得出预测结果,最后将各个阶段的预测结果进行聚合,得到总的预测结果。通过对阶段性信息的汇总与判断达到阶段性共识,既考虑到了视频段之间的上下文联系,又综合了视频级的特征,大大增强网络对长时间建模的能力,充分的提取到长时域特征。与现有技术相比,TSF网络结构不仅收敛速度快,而且可以更加充分的提取长时域特征,准确率更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明的TSF网络结构示意图;

图2为本发明的视频行为识别方法步骤图;

图3为UCF 101数据集的时长频次示意图;

图4为一种实施例中的特征融合示意图;

图5(a)为TSF网络结构的损失函数曲线示意图;

图5(b)为SlowFast网络结构的损失函数曲线示意图;

图6为多种网络结构模型的视频识别准确率结果示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

传统的双流网络对于短时序动作效果良好,在生活中,某些行为时间跨度长,属于长时序动作,如果不能有效地提取长时序特征,则无法获得较好的检测效果。解决该问题最直观的方法就是对视频密集采样,但是该方法会大大增加计算量,而且对于长时序的片段仍然不能达到视频级预测。

本发明实施例公开了一种基于阶段特征融合的TSF网络结构,参见图1,用于进行视频识别,包括以下部分:

视频切片模块,用于对待识别视频进行视频切片,得到K段视频;

时空特征提取模块,用于对每段视频的视频帧进行采样;将每段视频采样得到的视频帧按比例输入至Slow通道和Fast通道,提取出每段视频的时空特征;

预测模块,用于通过邻域特征融合的方法,使用预测函数获取K个预测得分;

聚合模块,用于对K个预测得分进行聚合,得到待识别视频的预测得分;依据待识别视频的预测得分,得到待识别视频的识别结果。

本发明实施例还公开了一种基于阶段特征融合的视频行为识别方法,参见图2,包括以下步骤:

步骤1、对待识别视频进行视频切片,得到K段视频,(T

步骤2、使用非对称稀疏采样方法,对每段视频的视频帧进行采样;将每段视频采样得到的视频帧按比例输入至Slow通道和Fast通道,提取出每段视频的时空特征。其中输入至Slow通道和Fast通道的视频帧比例优选采用Slow:fast=2:16。

步骤3、通过邻域特征融合的方法,基于每段视频的时空特征,使用预测函数获取K段视频的K个预测得分,包括第一段视频的初步预测得分和剩下的K-1段视频的K-1个阶段性预测得分。

其中,邻域特征融合的方法具体为:

依据第一段视频的时空特征,通过预测函数直接得到初步预测得分;

从第二段视频开始,每段视频得到的时空特征都分别与前面所有段视频的时空特征进行特征矩阵拼接,再经过预测函数得到阶段性预测得分。

步骤4、使用分段共识函数,对所述K个预测得分进行聚合,得到待识别视频的预测得分;所述待识别视频的预测得分包括每种行为标签的预测得分,以每种行为标签的预测得分为置信度,选取置信度最高的行为标签对应的行为类别,作为待识别视频的识别结果。举例说明,预测得分的结果为:标签0奔跑0.95,标签1摔倒0.96,标签2打斗0.94,标签3抽烟0.99,找到得分最高的结果,对应便签3,其置信度为0.99,因此待检测视频的行为识别结果为抽烟。

在一种实施例中,上述过程还包括参数优化步骤。模型在增加阶段性共识

其中C为动作分类的类别数,y

网络的训练过程中,可以联合多个阶段使用反向传播算法对权重参数W进行优化迭代,网络的损失函数为整个视频级结果的损失,而不是视频段的损失。通过优化视频级结果的损失来更新整体的模型参数:

下面列举具体实施方式以验证本发明的有益效果:

一、数据集收集。

UCF 101是常用的基础数据集。UCF 101动作识别数据集从youtube收集而得,共包含101类动作。其中每类动作由25个人做动作,每人做4-7组,共13320个视频,UCF 101在动作的采集上具有非常大的多样性,包括相机运行、外观变化、姿态变化、物体比例变化、背景变化、光纤变化等。101类动作可以分为5大类:人与物体互动、人体动作、人与人互动、乐器演奏、体育运动。该数据集的总体长度超过27小时。由于该数据集中的大多数视频都包含摄像机运动、背景混合、部分遮挡、照明条件差和低质量帧,在行为识别任务中具有挑战性。

本实施例采用UCF 101数据集,其时长分布频次如图3,可知在数据集中大部分行为的视频时长多数在2-10S区间内,因此推测当算法可以提取长时域特征训练时,算法的检测效果会提升。

二、视频切片与参数设置。

将视频分割为3个Clip即分3个阶段融合,如图4所示。对于Slow通道每个视频段均匀采样2帧,而Fast通道均匀采样16帧,这样既利用了快慢通道的生物学特点和优势,又避免了密集采样带来的巨大开销。与之前使用密集采样帧的工作相比,大大降低了卷积网络的计算成本,能够在有限的时间和合理的计算资源下充分的提取长时域特征。

三、时空特征的提取与得分预测。

将第一个Clip送入网络中,提取出时空特征,通过预测函数直接得到初步预测得分;从第二段Clip开始,每段Clip得到的时序特征都分别与上一个Clip进行特征矩阵拼接后,在经过预测函数得到阶段性预测得分。最后将时序网络的3个阶段性预测得分,选用加权平均融合的共识算法,得到最终预测得分。最后加权平均融合结果S可表示为:

其中k为分段数,s

四、TSF网络结构的性能检测。

使用Top-K指标来衡量模型的性能,其中K表示经过Softmax函数后得到的置信度最高的个数,通常K取值为1,3,5等,即正确结果包含于前K大预测置信度中,当K=1时,认为预测置信度数值最大的为预测结果。本实施例设置K=1,通过计算正确分类样本数占总分类样本数的比例作为准确率,其计算公式为:

其中True是正确识别的数量,All是测试的总数量。

在TSF网络结构中,设置TSF网络输入的是从视频中采样的RGB图像,每帧随机水平翻转和RGB抖动,图像大小固定为224×224;空间流和时间流网络设置训练集的batch_size为64,batch_size的大小代表着每批次包含的样本容量;初始学习率lr设置为0.01。后续随着迭代情况使用余弦退火策略调整学习率,计算公式如下:

其中

五、TSF网络结构与现有技术的性能比较。

本实施例将SlowFast网络结构与TSF网络结构进行了对比实验,分段K设置为2。RGB图像输入SlowFast网络结构和TSF网络结构时,训练损失函数曲线如图5(a)-图5(b),其中图5(a)为TSF网络结构的损失函数曲线,图5(b)为SlowFast网络结构的损失函数曲线,横坐标为网络训练阶段的迭代次数,纵坐标为loss值。从图5(a)-图5(b)中可以看出,随着迭代次数的增加,loss不断减小,即分类结果逐步向真实结果靠近。TSF网络结构经过5000次迭代后,loss曲线开始平缓,网络收敛;SlowFast网络结构经过60000次迭代后,损失曲线平稳,网络收敛。

在测试中,使用连续的RGB图像作为已训练好的神经网络的输入,准确率结果如图6所示。

TSF网络结构在训练中先于SlowFast收敛,并且准确率高出SlowFast 8.41个百分点,此外,比TSN网络结构也高出5.13个百分点,表明了TSF网络结构不仅收敛速度快,而且可以更加充分的提取长时域特征,从而取得更佳的效果。综上,TSF网络结构准确率高于SlowFast,并且可以更快的训练模型,具有更好的实用价值。

进一步的,还将TSF网络结构与其他主流行为识别算法模型在UCF101上的表现进行对比。由图6可以发现,本发明提出的TSF网络结构在准确率上有明显提高。这也证明了TSF网络结构可以从充分地学习长时域特征,其中邻域特征融合使得时域特征逐步显著,从而在视频级上对行为进行有效识别。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 基于阶段特征融合的TSF网络结构及视频行为识别方法
  • 一种基于时空融合特征和注意力机制的视频行为识别方法
技术分类

06120114703086