掌桥专利:专业的专利平台
掌桥专利
首页

基于非自回归注意力机制的在线动作检测方法及系统

文献发布时间:2023-06-19 19:30:30


基于非自回归注意力机制的在线动作检测方法及系统

技术领域

本发明涉及动作识别技术领域,具体涉及一种基于非自回归注意力机制的在线动作检测方法及系统。

背景技术

在线动作检测任务的目的是正确地从视频流中识别正在进行的人体动作。近年来,在线动作检测任务引起了越来越多的关注,主要源于其在自动驾驶、只能视频监控和异常监测等方面具有的广阔应用场景和市场价值。

在线动作检测任务需要处理的对象是在线的视频流,因此,其所使用的模型只能根据观测的局部信息进行有效地推理。这项任务的关键挑战在于:需要根据不完整的视频信息实时监测视频帧到达时的动作。要解决这个问题,需要学习时长的动作以来关系。

目前,主流的在线动作检测方法采用基于循环神经网络的编码模型分别建模和预测长时动作特征。但是,循环神经网络在动作预测过程中采用递进串行的方式去预测,下一时间点的预测依赖于上一时刻的预测结果,从而会导致错误信息的累积。

发明内容

针对背景技术中所提及的技术缺陷,本发明实施例的目的在于提供一种基于非自回归注意力机制的在线动作检测方法及系统。

为实现上述目的,第一方面,本发明实施例提供了一种基于非自回归注意力机制的在线动作检测方法,包括:

S1,利用车载摄像系统采集人体动作视频数据,并对所述人体动作视频数据采取等间隔稀疏采样,得到多个连续的时间片段单元;

S2,将多个连续的时间片段单元划分为观测部分和预测部分;

S3,采用双流网络对所述观测部分进行时空特征提取,并进行通道拼接,得到第一数据;

S4,将所述第一数据送入双向循环神经网络,采用双向循环神经网络捕捉所述观测部分中、视频连续帧之间的上下文语义信息;

S5,采用非自回归注意力模型对捕捉的上下文语义信息进行处理,得到局部人体动作特征;

S6,采用双流网络对所述预测部分进行时空特征提取,并进行通道拼接,得到第二数据;

S7,将所述第二数据送入非自回归注意力模型,预测未来时间点的动作特征,得到预测动作特征;

S8,将所述局部人体动作特征和预测动作特征送入分类器,得到人体动作在线检测结果。

作为一种具体实现方式,所述双流网络包括由RestNet-200网络构建的空间分支网络和由BN-Inception网络构建的时间分支网络,所述空间分支网络的输入为RGB图像,所述时间分支网络的输入为相邻两帧之间的光流图像。

作为一种具体实现方式,所述非自回归注意力模型包括多头自注意力模块、多头交叉注意力模块和前馈网络。

第二方面,本发明实施例提供了另一种基于非自回归注意力机制的在线动作检测方法,包括:

S1,利用车载摄像系统采集人体动作视频数据;

S2,对所述人体动作视频数据采取等间隔稀疏采样,得到多个连续的时间片段单元;

S3,将多个连续的时间片段单元划分为观测部分和预测部分;

S4,将所述观测部分送入双流网络,提取时空特征和通道拼接,并送入双向循环神经网络中,捕捉视频连续帧之间的上下文语义特征表示h;

S5,将所述预测部分和上下文语义特征表示h送入非自回归注意力模型,得到人体动作在线检测结果。

其中,所述非自回归注意力模型包括多头自注意力模块、多头交叉注意力模块和前馈网络,步骤S5包括:

S51,将token向量送入多头交叉注意力模块,得到特征表示x;

S52,将步骤S4得到的上下文语义特征表示h和步骤51得到的特征表示x一起送入交叉注意力模块,对特征表示x进行线性变换;

S53,将步骤S52中得到的特征表示x送入前馈网络,同时经过跳跃连接操作得到最终的输出特征

S54,在训练阶段,根据输出特征

S55,在推理阶段,重复步骤S2-S4、S51-S54得到每一帧的预测类别置信度得分,将得分最高的动作类别作为当前的人体动作在线检测结果。

第三方面,本发明实施例提供了一种基于非自回归注意力机制的在线动作检测系统,包括:

第一单元,用于利用车载摄像系统采集人体动作视频数据,并对所述人体动作视频数据采取等间隔稀疏采样,得到多个连续的时间片段单元;

第二单元,用于将多个连续的时间片段单元划分为观测部分和预测部分;

第三单元,用于采用双流网络对所述观测部分进行时空特征提取,并进行通道拼接,得到第一数据;

第四单元,用于将所述第一数据送入双向循环神经网络,采用双向循环神经网络捕捉所述观测部分中、视频连续帧之间的上下文语义信息;

第五单元,用于采用非自回归注意力模型对捕捉的上下文语义信息进行处理,得到局部人体动作特征;

第六单元,用于采用双流网络对所述预测部分进行时空特征提取,并进行通道拼接,得到第二数据;

第七单元,用于将所述第二数据送入非自回归注意力模型,预测未来时间点的动作特征,得到预测动作特征;

第八单元,用于将所述局部人体动作特征和预测动作特征送入分类器,得到人体动作在线检测结果。

第四方面,本发明实施例还提供了一种基于非自回归注意力机制的在线动作检测系统,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如上述第二方面所述的方法步骤。

与现有技术相比,本发明的有益效果如下:

针对在线动作检测任务,以往的方法采用基于循环神经网络的自回归方式串行地去预测未来时刻的动作特征。在串行结构中,当前时刻的预测结果依赖于上一时刻的结果,因此,这将造成错误信息的累积,同时,采用循环神经网络无法对序列进行并行化处理,导致预测效率大大降低。本发明采用非自回归模型解决上述方法存在的弊端,一方面,注意力机制能有效捕捉视频序列中的有用信息,可支持并行化处理,提高预测效率;另一方面,利用长度可学习的向量建模预测特征的长度,采用非自回归的方式并行地预测未来动作特征,有效减少错误信息的累积对最终预测结果造成的影响。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明第一实施例提供的基于非自回归注意力机制的在线动作检测方法的流程图;

图2是本发明第二实施例的方法流程图;

图3是Bi-LSTM网络的结构示意图;

图4是非自回归注意力模型的结构示意图;

图5是本发明第一实施例提供的基于非自回归注意力机制的在线动作检测系统的结构图;

图6是本发明第二实施例提供的系统结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

本发明的发明构思是:首先采用长短时间记忆网络LSTM聚合观测部分动作的有效信息,LSTM网络能有效捕捉动作的上下文信息;基于捕捉到的上下文信息,利用多头自注意力、多头交叉注意力以及前馈神经网络,结合一个长度可学习的token向量,以并行的非自回归方式有效预测未来一定长度的动作特征表示。

本发明实施例提供的基于非自回归注意力机制的在线动作检测方案可概括为:步骤1):利用车载摄像系统采集人体动作视频数据,对视频进一步采取等间隔稀疏采样得到动作片段单元;步骤2):采用双流网络为每个动作片段单元提取固定维度的特征表示;步骤3):采用循环神经网络捕捉观测部分的局部人体动作特征;步骤4):基于捕捉到的局部特征,采用非自回归注意力模型预测未来时间点的动作特征表示;步骤5):将局部特征和预测未来特征拼接,并送入到分类器得到人体动作在线检测结果。该系统和方法能实时有效地检测人体动作的发生,在自动驾驶、人机交互等方面有着广泛的应用前景。

下面,分两个具体实施例详细描述上述基于非自回归注意力机制的在线动作检测方案。

实施例1:

请参考图1,本发明第一实施例提供的基于非自回归注意力机制的在线动作检测方法包括:

S101,利用车载摄像系统采集人体动作视频数据,并对所述人体动作视频数据采取等间隔稀疏采样,得到多个连续的时间片段单元。

S102,将多个连续的时间片段单元划分为观测部分和预测部分。

S103,采用双流网络对所述观测部分进行时空特征提取,并进行通道拼接,得到第一数据。

其中,所述双流网络包括由RestNet-200网络构建的空间分支网络和由BN-Inception网络构建的时间分支网络,所述空间分支网络的输入为RGB图像,所述时间分支网络的输入为相邻两帧之间的光流图像。

S104,将所述第一数据送入双向循环神经网络,采用双向循环神经网络捕捉所述观测部分中、视频连续帧之间的上下文语义信息。

S105,采用非自回归注意力模型对捕捉的上下文语义信息进行处理,得到局部人体动作特征。

其中,所述非自回归注意力模型包括多头自注意力模块、多头交叉注意力模块和前馈网络。

S106,采用双流网络对所述预测部分进行时空特征提取,并进行通道拼接,得到第二数据。

S107,将所述第二数据送入非自回归注意力模型,预测未来时间点的动作特征,得到预测动作特征。

S108,将所述局部人体动作特征和预测动作特征送入分类器,得到人体动作在线检测结果。

实施例2:

请参考图2,本发明第二实施例提供的基于非自回归注意力机制的在线动作检测方法包括:

步骤一:

利用车载摄像系统采集人体动作视频数据,将其划分为训练集和测试集。针对训练集和测试集,采取等间隔稀疏采样,得到多个连续的时间片段单元。

具体地,采集的人体动作视频数据为THUMOS2014数据集,将其划分为200个训练集和213个测试集,且每个视频带有时序上的标注信息,即标注了动作的开始和结束时间点。每个视频都是由连续的人体运动图像组成的,可将其划分为多个连续的时间片段单元(可称之为视频特征序列)。

需要说明的是,在步骤一中,对视频采样的帧率设置为24FPS,即每秒24帧,对视频帧采样的频率为4FPS,即每秒采样4帧图像。

步骤二:

构建双流网络作为特征提取器。

具体地,双流网络包括两个分支:空间分支由ResNet-200网络构建,时间分支由BN-Inception网络构建,分别用来提取视频图像空间维度的静态信息和时间维度的运动信息;空间分支网络的输入为RGB图像,时间分支网络的输入为相邻两帧之间的光流图像。

需要说明的是,在步骤二中,特征提取所采用的网络是在ActivityNet-V1.3人体动作数据集上预训练得到的,将时间和空间网络的输出拼接后的特征维度为3072。其中,ResNet200网络的Flatten 673层输出维度为2048,BN-Inception网络的global pool层输出维度为1024。

步骤三:

将多个连续的时间片段单元划分为观测部分和预测部分,并将观测部分送入双流网络,提取时空特征,进一步地送入双向循环神经网络,捕捉视频连续帧之间的上下文语义特征表示h。

具体地,将多个连续的时间片段单元划分为观测部分和预测部分。假设前t帧为可观测部分F

其中,LSTM

需要说明的是,在步骤三中,视频的预测部分主要是作为训练阶段的监督信号使用,模型需要根据观测部分进行有效地推理,将推理得到的预测结果与相应真值进行对比,从而更好地优化网络模型。在具体实施例中,将观测部分设置为12个时间片段,预测部分设置为8个时间片段。

进一步地,如图3所示,Bi-LSTM包含两个方向相反的LSTM神经网络,每个网络包含1个隐藏层,每层神经元个数为256,拼接后的特征维度为512。

步骤四:

将上一步得到的语义特征表示h送入到非自回归模型,得到特征表示x。

如图4所示,非自回归模型由多头自注意力模块(MSA)、多头交叉注意力模块(MCA)和前馈网络(FFN)组成。所谓非自回归是指,在预测过程中,一次性可以得到未来一定长度的预测片段,而采用循环递进式的串行方式逐步去预测。显而易见,非自回归能显著提高预测的效率,同时能有效避免因错误信息累积所造成的预测偏差。

首先,对输入特征h进行三元组线性变换,

Q

其中,W

非自回归模型通过一个长度可学习的向量token∈R

Q

进一步地,将token向量送入到多头自注意力机模块,得到特征表示x,

x=token+MSA(token,token,token)

MSA=Stack(Head

步骤五:

将步骤三得到的特征表示h和步骤四得到的特征表示x一起送入交叉注意力模块,对特征表示x进行线性变换。

具体地,对x进行线性变换,

Q

并计算x的Q

x=x+MSA(x,h,h)

MSA=Stack(Head

其中,多头是将单个头Head

需要说明的是,在步骤四和步骤五的多头注意力机制中,头数目设置为8。

步骤六:

将步骤五得到的特征表示x送入到前馈神经网络,同时经过跳跃连接操作得到最终的输出特征

步骤七:

在训练阶段,将预测特征

整个网络采用有监督的训练方式,优化损失函数如下:

其中,CE为交叉熵损失函数,

步骤八:

推理阶段,采用前述步骤得到每一帧的预测类别置信度得分,将得分最高的动作类别作为当前的识别结果。

需要说明的是,实施例1中与实施例2中步骤类似的部分,可参考实施例2部分的详述。

从以上描述可以得知,本发明实施例:

针对在线动作检测任务,以往的方法采用基于循环神经网络的自回归方式串行地去预测未来时刻的动作特征。在串行结构中,当前时刻的预测结果依赖于上一时刻的结果,因此,这将造成错误信息的累积,同时,采用循环神经网络无法对序列进行并行化处理,导致预测效率大大降低。本发明采用非自回归模型解决上述方法存在的弊端,一方面,注意力机制能有效捕捉视频序列中的有用信息,可支持并行化处理,提高预测效率;另一方面,利用长度可学习的向量建模预测特征的长度,采用非自回归的方式并行地预测未来动作特征,有效减少错误信息的累积对最终预测结果造成的影响。

基于相同的发明构思,本发明实施例提供了一种基于非自回归注意力机制的在线动作检测系统。如图5所示,该系统包括:

第一单元,用于利用车载摄像系统采集人体动作视频数据,并对所述人体动作视频数据采取等间隔稀疏采样,得到多个连续的时间片段单元;

第二单元,用于将多个连续的时间片段单元划分为观测部分和预测部分;

第三单元,用于采用双流网络对所述观测部分进行时空特征提取,并进行通道拼接,得到第一数据;

第四单元,用于将所述第一数据送入双向循环神经网络,采用双向循环神经网络捕捉所述观测部分中、视频连续帧之间的上下文语义信息;

第五单元,用于采用非自回归注意力模型对捕捉的上下文语义信息进行处理,得到局部人体动作特征;

第六单元,用于采用双流网络对所述预测部分进行时空特征提取,并进行通道拼接,得到第二数据;

第七单元,用于将所述第二数据送入非自回归注意力模型,预测未来时间点的动作特征,得到预测动作特征;

第八单元,用于将所述局部人体动作特征和预测动作特征送入分类器,得到人体动作在线检测结果。

作为本发明的另一种优选实施例,如图6所示,该检测系统可以包括:一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104,上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序,所述计算机程序包括程序指令,所述处理器101被配置用于调用所述程序指令执行如实施例1或实施例2所述的方法步骤。

应当理解,在本发明实施例中,所称处理器101可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等,输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器,并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如,存储器104还可以存储设备类型的信息。

具体实现中,本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于非自回归注意力机制的在线动作检测方法的实施例中所描述的实现方式,在此不再赘述。

需要说明的是,关于检测系统部分更为具体的工作流程描述,请参考前述方法实施例部分,在此不再赘述。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 基于关节点时空简单循环网络和注意力机制的动作分类方法
  • 基于注意力机制和非合理动作抑制的机械臂自主抓取方法
  • 基于注意力机制的动作识别方法、系统、设备及存储介质
技术分类

06120115930589