掌桥专利:专业的专利平台
掌桥专利
首页

一种基于无锚框技术的时序动作检测方法及检测器

文献发布时间:2023-06-19 16:12:48



技术领域

本发明属于计算机软件技术领域,涉及时序动作检测技术,一种基于无锚框技术的时序动作检测方法。

背景技术

视频时序动作检测算法的目标是识别出视频中行为人动作的类别以及动作发生的具体起止时间。时序动作检测广泛应用于智能安防、自动驾驶、智能剪辑等领域。已有的动作检测算法主要分为两种,基于动作分数的动作检测算法和基于锚框的动作检测算法。

第一种算法首先在视频序列中逐帧预测该帧是否属于动作类别,然后通过后处理策略,将连续的,被预测为动作类别的视频帧连接起来,以此确定动作发生的具体区间。这种算法的问题是往往只考虑单帧视频,无法很好地对动作区间整体进行建模,这就导致了单帧预测的不稳定性,很容易出现误判的单帧预测。在这种情况下,往往需要小心地调整后处理策略,才能得到可靠的动作检测结果。这就限制了算法的鲁棒性和普适性,需要根据业务场景不断调整后处理策略。

第二种算法依赖于二维图片物体检测中的锚框策略。这种算法首先预设了几种不同时间长度的锚框,然后假设现实应用中的动作长度都可以被划分到这几种不同类型的锚框中。但是现实应用中的动作时间长度是无限的,而锚框的设计是有限的,使用基于锚框的策略不可避免的会出现误差。锚框的设计一般是考虑常见的动作时间长度,而当现实应用中出现特别长或者特别短的动作时,使用锚框策略就很难捕捉到这些长度比较“奇异”的动作。

发明内容

本发明要解决的问题是:现有的基于锚框技术的时序动作检测算法需要手工设计锚框,再基于预先定义的锚框来回归动作边界,但是实际上不同动作的时长跨度非常巨大,手工设计的锚框灵活性差,无法覆盖各种动作。

本发明的技术方案为:一种基于无锚框技术的时序动作检测方法,构建检测网络,对视频中的时序动作进行检测,网络结构包括特征提取网络、时序特征金字塔、边界偏移回归器、实例感知对齐模块和细化分类回归器:

特征提取网络:使用C3D作为基础网络结构对输入的视频序列I进行特征提取,对于连续T帧的图像序列I提取得到视频特征序列f;

时序特征金字塔:对得到的视频特征序列f使用不同核大小的池化层构建具有不同时间尺度的多级特征图;

边界偏移回归器:将多级特征图送入由三个一维卷积层和一个可形变卷积层组成的神经网络序列处理,对时序特征序列中的每一个时序位置生成该时刻相对动作左右边界距离的预测,再将生成的动作边界偏移作用于特征序列中的每个时序位置从而得到预测的动作边界;

实例感知对齐模块:将预测的动作边界映射回特征提取网络得到的视频特征序列f,然后在视频特征序列上得到属于动作边界所示动作的动作特征片段,将该动作的特征片段长度的一半作为上下文特征的长度,在动作边界前后分别得到上下文特征片段,将两个上下文特征片段与动作特征片段沿着时序维度拼接起来,再经过自适应最大值池化层得到经过对齐操作过后的动作特征;

细化分类回归器:将由实例感知对齐模块得到的动作特征分别输入两个分支进行分类和回归,在分类分支中,输出(C+1)维度的类别分数,其中C表示动作类别的数量;回归分支采用RCNN提出的回归分支,负责预测特征序列对应的动作边界偏移量,即归一化的时序长度和对数空间的中心偏移;经过分类回归得到动作预测结果,即动作的类别及在视频序列中的边界;

经过上述网络结构,对细化分类回归器得到的预测结果使用非极大值抑制算法进行去重,再将属于同一个视频的每个视频片段的动作检测结果拼接起来,得到最终的动作检测结果。

进一步的,检测网络的实施包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,

1)生成训练样例:对视频按照设定的采样帧率进行抽帧,然后将视频分为若干个有重叠的视频片段,每个视频片段包含采样后的连续帧RGB图像和对应的动作实例标注,最后将视频片段作为网络输入;

2)网络配置阶段,配置特征提取网络、时序特征金字塔、边界偏移回归器、实例感知对齐模块和细化分类回归器;

3)训练阶段:在边界偏移回归器的训练阶段中,使用IoU Loss监督预测的动作边界,在细化分类回归的训练阶段中使用Cross-entropy Loss监督类别预测分支,使用L1Loss监督回归预测分支,在训练时使用真实标记监督三个分支独立完成训练,再将三个损失函数叠加,对总体损失使用SGD优化器进行优化,通过反向传播算法来更新网络参数,直至达到迭代次数;

4)测试阶段:将测试集中的视频片段采集图像序列,输入网络,得到在整个视频中的时序动作检测结果,验证检测效果。

本发明还提供一种基于无锚框技术的时序动作检测器,检测器具有计算机可读存储介质,其中配置有计算机程序,所述计算机程序按照上述检测网络编程,计算机程序被执行时实现上述基于无锚框技术的时序动作检测方法。

本发明提出了一种基于无锚框技术的时序动作检测方法,直接回归距离动作左右边界的距离。并且针对无锚框回归中出现的感受野中心偏移问题,提出了实例感知对齐模块,使用无锚框边界偏移回归器预测的动作边界显式提取位于预测动作持续时间内的特征,以取得更佳的动作分类和动作边界回归效果。

本发明与现有技术相比有如下优点

本发明提出了一种无锚框的视频时序动作检测器,完成视频中动作的时序定位和分类任务,相比于以往带锚框的检测器,无需预先设置锚框,更加简单高效。

本发明针对无锚框回归中出现的感受野中心偏移问题,我们提出了实例感知对齐模块,使用无锚框边界偏移回归器预测的动作边界显式提取位于预测动作持续时间内的特征,以取得更佳的动作分类和动作边界回归效果。

本发明在视频动作时序检测任务上体现了很好的鲁棒性和高效性,相比于先前带锚框的视频动作检测器更加精简高效,具有很强的扩展性和移植性。

附图说明

图1是本发明的无锚框动作检测检测框架图。

图2是本发明的时序特征金字塔示意图。

图3是本发明的无锚框边界偏移回归器示意图。

图4是本发明提出的实例感知对齐模块示意图。

具体实施方式

本发明提出了一种基于无锚框技术的视频动作检测方法。在本发明方法的框架中,取消了预设的锚框,转而直接回归距离动作左右边界的距离,这种策略更加灵活,可以应对各种不同的动作时间长度。与基于单帧预测的算法相比,本发明的方法包含多尺度预测,不同长度的动作被分配到不同的尺度进行预测,这保证了本发明方法对于任何长度的动作,都可以对整个动作区间进行建模,而不是只依赖于单帧预测,这样的策略提升了预测结果的鲁棒性。

本发明的检测方法基于计算机程序实现,对此还提供一种基于无锚框技术的时序动作检测器,检测器具有计算机可读存储介质,其中配置有计算机程序,所述计算机程序按照上述检测网络编程,计算机程序被执行时实现上述基于无锚框技术的时序动作检测方法。作为一个实施例,本发明检测网络经过在THUMOS14时序动作检测数据集上的训练和测试达到了高准确性,具体使用Python3编程语言,Pytorch 1.3.0深度学习框架实施,得到无锚框的时序动作检测器。

图1是本发明所使用的网络系统框架图,本发明的网络实现包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,具体实施步骤如下:

1)训练样例生成阶段:预先提取好THUMOS14数据集视频帧存储在硬盘上,采样帧率为25fps,利用滑动窗口技术将长视频分段,窗口大小为768帧(约30秒),滑动步长为192帧。如果该视频片段中存在动作实例且存在的动作实例与该视频片段的IoA大于0.7,则该视频片段被选为一个训练样本,每一帧视频图片分辨率调整为171×128像素大小。在训练阶段,对输入的每一帧进行随机的裁剪,大小为112×112像素。在测试阶段对输入帧进行中心裁剪,大小为112×112像素。为了增加训练数据,我们不但用滑动窗口从视频开头到结尾提取数据,而且从视频结尾到开头再提取一次,并且采用了随机水平翻转的数据增强策略。最后在读入图片后,将得到的图片序列减去THUMOS数据集三通道的均值并除以三通道的标准差实现归一化,最后转换为Tensor的形式,按批处理并打乱数据加载次序。

以RGB图片为输入,训练样本视频片段的帧序列I如下:

其中Img

2)网络配置阶段:

2.1)特征提取网络:使用C3D作为基础网络结构,网络中载入ActivityNet动作识别数据集中预训练模型的参数,取C3D网络conv5层输出结果作为基础视频特征。具体而言,特征提取网络的输入为步骤1)中经过数据预处理后的视频片段,大小为3x768x112x112,输出特征图为512x96x7x7。

设C3D网络为B,对输入序列I进行时空特征提取,得到特征序列f如下:

其中,8为C3D网络在时序维度的下采样率,R为C3D网络在空间维度的下采样率。

2.2)时序特征金字塔:对特征提取网络中得到的视频特征序列使用不同核大小的池化层构建具有不同时间尺度的多级特征图。如图2所示,以THUMOS14数据集上的配置为例,将特征提取网络中得到的视频特征分别经过核大小为2x7x7和4x7x7的3D最大值池化层生成两个不同尺度的特征图

上述多尺度时序特征金字塔具体计算如下:

记第k层3D池化层为P

其中,池化层P

本发明特征金字塔技术构建不同时间尺度的多级特征图。由于不同动作时间长度变化非常大,在单一尺度上根据特征对动作进行预测会导致感受野无法覆盖所有动作的范围,从而使动作检测准确度下降。本发明使用特征金字塔技术构建不同时序尺度的多级特征图,低层特征图感受野范围小,对动作精细变化把握更佳,适合检测持续时间较短的动作,而高层特征图感受野范围大,对动作整体性建模更好,适合检测持续时间较长的动作。因而使用时序特征金字塔可以实现在合适的时间尺度上对动作进行检测,提高动作检测的准确率。

2.3)边界偏移回归器:将2.2)中得到的特征图送入由三个一维卷积层和一个可形变卷积层组成的神经网络序列处理,每一层的卷积核大小为3,步长设置为1来保证输入特征的时序维度大小不变。具体而言,输入512x48和512x24维度的特征,输出2x48和2x24的边界偏移预测结果。如图3所示,对于每个时序特征位置t通过一个回归层生成左右边界的偏移量(l

在训练的过程中,给定真实动作标签(c*,s*,e*),c*表示动作类别,s*,e*分别表示动作持续时间的开始帧和结束帧。一个时序特征位置t只有落在真实动作的持续时间内才会被认定为正样本,反之为负样本不参与边界偏移回归任务。回归损失采用IoU Loss,记为

边界偏移回归器的实现方式如下:

1.记第j层的边界回归偏移预测结果为(l

CB=Relu(Conv1D)

记边界回归偏移器卷积块为CB,包含卷积核大小为3的1D卷积层和Relu激活函数层,边界回归偏移器共包含4个边界回归偏移器卷积块CB,最终输出通道数为2,分别表示到动作左右边界距离的预测结果。

2.在t位置预测的动作起止时间的计算方式如下:

s

e

其中,s

3.在训练的过程中,边界偏移回归器这个分支产生损失函数项记为

其中N

I

U

本发明使用无锚框边界偏移回归器对特征金字塔输出的多级时序特征图进行回归生成动作边界偏移。不同于常规使用的基于锚框的时序动作检测算法,本发明采用了一种更为简单有效的无锚框表示,对时序特征序列中的每一个时序位置预测该时刻相对动作左右边界的距离,使用无锚框方法更加灵活,能够考虑到基于锚框的方法所无法覆盖到的特定长度的动作,不仅简化了动作建模复杂度,而且提升了处理速度,更有效地实现了动作实例建模。

2.4)实例感知对齐模块:如图4所示,将2.3)中预测的动作边界映射回特征提取网络中得到的视频特征序列f,在f上映射后的开始帧与结束帧为

实例感知对齐模块的具体计算方式如下:

1.将预测的动作起止时间映射回C3D特征:

其中,λ

2.提取动作特征和上下文特征:

利用边界回归偏移器预测得到的动作起止时间,我们可以从C3D特征上截取相应的动作特征F

3.得到t位置最终动作特征表示:

将动作特征F

本发明的实例感知对齐模块将用于分类和回归的动作特征与动作边界对齐。当预测位置不在动作中心时,在预测过程中为了覆盖所有动作区域,感受野必须偏大导致引入太多背景噪音,且动作边界通常是模糊的。为了避免这种问题,使用实例感知对齐模块,根据无锚框边界偏移回归器预测得到的动作实例修正特征。具体来说,首先将预测的动作映射到具有更精细时间和空间维度的特征图上,然后我们就可以明确定位属于动作及其上下文的区域,再使用自适应最大值池化层提取显著性特征。最后,对齐后的特征可用于对动作进行分类和细化边界。

2.5)细化分类回归器:将由例感知对齐模块得到的联合动作特征表示F

在训练过程中,预测的动作实例

细化分类回归阶段具体计算过程如下:

1.分类分支

c=Softmax(Linear(Relu(Linear(F

2.回归分支

3.在训练的过程中,这个分支产生的分类损失函数项记为

lre

2.6)后处理:首先,将视频片段的动作检测结果按时序排列,并使用非极大值抑制算法(NMS)去除重复的动作提名,NMS阈值设置为0.6,按照预测动作分数保留最优的200个动作提名作为该视频片段的动作检测结果。然后将同一个视频的所有片段的动作检测合并,按时间顺序排列,再次使用非极大值抑制算法,这一步的目的是去除片段重叠部分的重复动作提名,NMS阈值设置为0.3,按照预测动作分数保留最优的200个动作提名作为该视频的动作检测结果。

3)训练阶段,使用IoU Loss作为边界偏移回归器的损失函数,使用Cross-EntropyLoss监督细化分类回归阶段的分类分支,使用Smooth L1 Loss监督细化分类回归阶段的回归分支,在训练时使用真实标记监督三个分支独立完成训练,三个分支的loss按照1:1:1加权相加,对总体loss使用SGD优化器进行优化,初始学习率为5e-5,当第4个epoch后降低10倍学习率,在8块NVIDIA Tesla P40 GPU上完成训练,单卡BatchSize设置为8,总的训练轮数为6轮。

训练损失函数具体计算过程如下:

a=1

b=1

其中包括边界偏移回归器的

4)测试阶段,测试集输入数据没有进行数据增强,直接使用双线性插值方式变形为171x128,再使用中心裁剪得到112x112的帧图像,将每帧图像减去THUMOS14数据集三通道各自均值并除以三通道的标准差实现归一化,在测试时通过水平翻转提升测试效果,在THUMOS测试集上,mAP@0.3达到63.7,mAP@0.4达到58.2,mAP@0.5达到49.2,mAP@0.6达到36.4,mAP@0.7达到24.2。

技术分类

06120114744412