掌桥专利:专业的专利平台
掌桥专利
首页

一种考生考场异常行为分析方法、系统、设备及存储介质

文献发布时间:2023-06-19 19:07:35


一种考生考场异常行为分析方法、系统、设备及存储介质

技术领域

本发明涉及数据处理技术领域,特别是涉及一种考生考场异常行为分析方法、系统、设备及存储介质。

背景技术

针对教育考试领域海量的监控视频数据,利用视频异常行为检测技术自动识别在线监控中可能存在的异常行为,能够节省人力物力资源,并更好地保证考证的公平公正。考场监控视频异常行为检测包括两个阶段,第一阶段负责检测考场监控视频中的考生目标,第二阶段对检测出的目标进行行为分析,并判断是否存在异常行为。

目前对考生目标的检测分为目标检测和实例分割,基于深度学习的目标检测主要有单阶段检测方法和两阶段检测方法两个分支。

单阶段检测方法的基本思路是通过卷积神经网络(Convolutional NeuralNetwork, CNN)进行特征提取,随后直接在输出层回归得到图像中目标的位置和类别,常见的单阶段检测方法包括YOLO(You Only LookOnce)系列算法等。

与单阶段检测方法不同之处在于,两阶段检测方法首先进行区域候选框(RegionProposal)的生成,区域候选框为一个可能包含目标的候选框,然后再对候选框进行位置回归与分类,常见的两阶段检测方法包括FastR-CNN、FasterR-CNN等。两阶段目标检测方法的性能通常比单阶段检测方法高,但是在检测速度上,单阶段目标检测方法表现出更好的优势。

实例分割任务相当于在目标检测的基础上多了一个分割分支,进一步将目标像素分割出来,常见的实例分割算法如MaskR-CNN等。

在行为分析阶段,目前主要分为视频异常检测领域和行为识别领域。

视频异常检测领域通常将除正常(normal)行为以外的所有行为视为异常(abnormal)行为,即定义正常行为的边界,由于异常种类多且样本少,因此目前基于深度学习的视频异常检测技术主要包含无监督和弱监督两种。无监督方法主要基于自编码器(AutoEncoder)和生成对抗网络(GenerativeAdversarial Network,GAN)等技术手段重构输入帧或预测未来帧。弱监督方法通常利用多实例学习,每个视频片段构成一个实例,分别正包和负包,正包中包含异常视频帧,负包中只包含正常视频帧,利用C3D等特征提取网络提取视频片段特征,再通过全连接层分类。

行为识别领域可以对输入的视频片段进行分类,识别出视频中人物的具体动作类别。发明人发现,在对目标进行检测的基础上,若将检测出来的目标利用异常检测领域的方法进行分析,则只能将目标的行为分为正常和异常两种类别;若将检测出来的目标利用行为识别领域的方法进行分析,则可以对目标的具体动作进行细分。

目前,现有的行为识别领域的方法主要是针对场景中人数比较少的简单场景下的;同时,大部分方法针对幅度较大的动作进行检测识别,对于较为复杂的考场视频数据来说,现有的方法并不适用。

发明内容

为了解决上述问题,本发明提出了一种考生考场异常行为分析方法、系统、设备及存储介质,基于多尺度特征视觉transformer模块和基于3D卷积的特征金字塔网络构建特征提取模块,采用多头池化注意力机制进行下采样操作,通过引入相对位置嵌入,解决视觉的平移不变性问题,在基于3D卷积的特征金字塔网络对应层的视频片段特征上提取感兴趣特征,实现目标级别的动作分类。

为了实现上述目的,本发明采用如下技术方案:

第一方面,本发明提供一种考生考场异常行为分析方法,包括:

获取考场监控视频,检测考场内目标的类别和位置,并分割出目标边界框;

根据确定的考生目标边界框,采用基于3D卷积的特征金字塔网络进行多尺度特征提取,对每个尺度下的特征图采用多头池化注意力机制进行下采样操作,提取考场内考生的视频片段特征;

对基于3D卷积的特征金字塔网络对应层的视频片段特征上的2D感兴趣特征沿时间轴复制,以扩展为3D感兴趣特征,将3D感兴趣特征在时间及空间经池化操作后,得到目标级别的感兴趣特征,以此识别考生动作类别,从而判断是否存在异常行为。

作为可选择的实施方式,采用级联式网络检测考场内目标的类别和位置,并分割出目标边界框,所述级联式网络为级联至少两个不同阈值的由分类器、分割分支和回归器组成的检测器,且后一级检测器的阈值高于前一级检测器的阈值。

作为可选择的实施方式,在所述级联式网络的基础上引入特征金字塔网络,以在不同特征层上对不同大小的目标分别进行检测。

作为可选择的实施方式,基于3D卷积的特征金字塔网络新增时间维度,且将2D卷积扩展为3D卷积。

作为可选择的实施方式,所述多头池化注意力机制中每个头都在D维输入张量X的D/H个通道上执行池化自注意力操作,具体地,将D维的序列长度为L的输入张量X分别线性映射为查询中间张量、键中间张量和值中间张量,将查询中间张量、键中间张量和值中间张量分别进行池化操作,得到维度为

作为可选择的实施方式,在多头池化注意力机制中引入相对位置嵌入,具体地,将两个输入元素之间的相对位置编码为位置嵌入向量,将位置嵌入向量嵌入到自注意力中。

作为可选择的实施方式,所述考生考场异常行为分析方法还包括采用带权重的交叉熵损失函数,根据考生动作类别的训练样本数目设置相应考生动作类别的权重系数。

第二方面,本发明提供一种考生考场异常行为分析系统,包括:

实例分割模块,被配置为获取考场监控视频,检测考场内目标的类别和位置,并分割出目标边界框;

特征提取模块,被配置为根据确定的考生目标边界框,采用基于3D卷积的特征金字塔网络进行多尺度特征提取,对每个尺度下的特征图采用多头池化注意力机制进行下采样操作,提取考场内考生的视频片段特征;

行为识别模块,被配置为对基于3D卷积的特征金字塔网络对应层的视频片段特征上的2D感兴趣特征沿时间轴复制,以扩展为3D感兴趣特征,将3D感兴趣特征在时间及空间经池化操作后,得到目标级别的感兴趣特征,以此识别考生动作类别,从而判断是否存在异常行为。

第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。

第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。

与现有技术相比,本发明的有益效果为:

本发明提出一种考生考场异常行为分析方法、系统、设备及存储介质,采用级联式网络,通过不断提高的IOU(Intersection Over Union)阈值,在保证正样本数量不减少的情况下训练出高质量的检测器,实现对考场内目标的类别和位置的检测,还能够分割出目标边界框,同时引入特征金字塔网络,解决目标检测中的多尺度问题,提高对小目标的检测性能。

本发明提出一种考生考场异常行为分析方法、系统、设备及存储介质,基于多尺度特征视觉transformer模块和基于3D卷积的特征金字塔网络构建特征提取模块,并采用多头池化注意力机制进行下采样操作,同时在transformer模块中引入相对位置嵌入,解决视觉的平移不变性问题。

本发明提出一种考生考场异常行为分析方法、系统、设备及存储介质,在基于3D卷积的特征金字塔网络对应层的视频片段特征上提取RoI(Region of Interest)特征,实现目标级别的动作分类。

本发明提出一种考生考场异常行为分析方法、系统、设备及存储介质,引入带权重的交叉熵损失函数,并依据训练中用到的动作类别的样本数目来设置相应动作类别的权重系数,有助于缓解数据不平衡问题,从而提高对异常动作的识别准确率。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1为本发明实施例1提供的考生考场异常行为分析方法流程图;

图2为本发明实施例1提供的实例分割流程图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种考生考场异常行为分析方法,如图1所示,包括:

获取考场监控视频,检测考场内目标的类别和位置,并分割出目标边界框;

根据确定的考生目标边界框,采用基于3D卷积的特征金字塔网络进行多尺度特征提取,对每个尺度下的特征图采用多头池化注意力机制进行下采样操作,提取考场内考生的视频片段特征;

对基于3D卷积的特征金字塔网络对应层的视频片段特征上的2D感兴趣特征沿时间轴复制,以扩展为3D感兴趣特征,将3D感兴趣特征在时间及空间经池化操作后,得到目标级别的感兴趣特征,以此识别考生动作类别,从而判断是否存在异常行为。

在本实施例中,获取考场监控视频后,由于每个考场内的监控摄像头不一致,视频帧的分辨率大小也不一致,所以首先对考场监控视频进行预处理,丰富数据多样性,缓解过拟合现象,提高模型的泛化能力;具体包括:随机尺度抖动、随机裁剪、水平翻转和亮度调整。

其中,随机尺度抖动是指将视频帧的短边随机压缩到[256,320]像素之间,并保持每个视频帧的长宽比;随机尺度抖动作为数据增广的一种方式,可以增加数据的多样性,减少过拟合现象。

经过随机尺度抖动后,通过随机裁剪将视频帧大小裁剪为224x224。一方面,随机裁剪可以减少输入网络中的图片分辨率的大小,从而降低计算代价;另一方面,随机裁剪也是一种数据增广的方式,从而减少模型出现过拟合。

在真实考场环境中,监控摄像头的位置分布有所不同,形成的视角也有所变化,因此采用水平翻转来对视频图像实现左右翻转,即让视频图像的左右像素点对换,模拟不同视角下的考生。

由于考场外的天气变化以及考试时间不同等原因,导致每个考场的光照条件不一样,因此采用亮度调整的数据增强方法,以此模拟不同光照条件下的考场环境,增加模型训练效果。

在本实施例中,在实例分割阶段,对考场监控视频检测考场内目标(老师和考生)的类别和位置,并分割出目标边界框;同时,在实例分割阶段引入特征金字塔网络,解决目标检测中的多尺度问题,提高检测器对小目标的检测性能。

为获取考场目标的位置及类别信息,本实施例采用级联式网络Cascade MaskR-CNN,其中R-CNN模块采用Faster R-CNN网络,Mask R-CNN是在Faster R-CNN的基础上增加分割分支来实现实例分割,所以MaskR-CNN不仅能检测出目标的类别和位置,还能够对目标进行分割。然而,相比于级联式网络,单结构的MaskR-CNN存在一些问题,在目标检测中,IOU用来描述候选框与真实目标框的交并比,所以IOU阈值是训练中用来划分正样本与负样本的重要参考,其中正样本的候选框内包含目标,负样本的候选框内不包含目标。IOU阈值作为目标检测中的超参数,一直以来都是依赖经验手工划分的,类似于MaskR-CNN这样的单结构检测器,只能设置一个IOU阈值,这样就会存在一些问题,若IOU阈值设置过低,则会有更多的候选框被判定为正样本,这可能会造成检测器产生很多误检区域,导致训练时的噪声增多;若IOU阈值设置过高,就会造成正样本的数量过少,这样容易引起过拟合从而影响检测器的准确率;另外,对于检测器中边框的修正,不同的设定阈值对于不同输入IOU的修正效果也不尽相同,在低IOU时,低阈值的修正效果更好,在IOU高时,高阈值的修正效果更好。

因此,对于单结构检测器,IOU阈值设置过高或过低都会产生相应问题,所以本实施例采用级联式网络Cascade MaskR-CNN,通过级联多个不同阈值的由分类器、分割分支和回归器构成的检测器,先通过低阈值的检测器,这样既能保证正样本的数量足够多,也能对低IOU的位置修正效果更好,当通过修正输出更高IOU时,再通过阈值更高的检测器,以此提高检测的性能;

由此,本实施例以三阶段检测器为例,将三个检测器进行级联,IOU阈值分别设置为[0.5,0.7,0.8],通过不断提高的IOU阈值,在保证正样本数量不减少的情况下训练出高质量的检测器。

另外,为了解决目标检测中的多尺度问题,提高检测器对小目标的检测性能,本实施例在Mask R-CNN的基础上引入特征金字塔网络(Feature PyramidNetworks, FPN),以特征金字塔网络为骨干网络进行多尺度的区域特征提取,对多尺度的区域特征采用三阶段检测器,将每个尺度下提取的区域特征分别输入至级联的三个检测器中,上一级检测器输出的目标边界框和当前尺度下的区域特征作为当前检测器的输入,如图2所示。

在深度网络中,特征层由低到高所提取的信息丰富程度不同,特征层越高提取的语义信息越丰富,但分辨率会逐渐减小,感受野会逐渐增大。浅层的网络更关注于细节信息,高层的网络则更关注于语义信息,若只利用深度网络的最后一层的特征进行预测,将丢失很多细节信息,导致小目标难以检测,通过引入特征金字塔网络,可以融合不同尺度的特征层,来对不同大小的目标进行有效映射,从而实现在不同的特征层上对不同大小目标分别进行预测。

特征金字塔的结构设计使用自底向上、自顶向下和横向连接,左边是自底向上的过程,即通过卷积网络不断的向前传播,特征图尺寸越来越小,语义信息越来越丰富,传统的检测算法只在最后一个特征层进行ROI映射,从而导致小目标识别困难。

特征金字塔网络通过结合自顶向下和横向连接融合了不同尺度的特征,其中横向连接是1×1的卷积层,主要作用是使得特征层的通道数保持一致。最后,通过特征金字塔生成不同尺度大小的特征层,较大目标可以使用高层的特征,较小目标可以使用底层的特征,不同大小的目标使用不同的特征层进行ROI映射。特征金字塔网络融合具有高分辨率的浅层特征和具有丰富语义信息的高层特征,有效解决考场环境下多尺度目标检测的问题。

在本实施例中,完成上述实例分割操作后,进入行为识别阶段,基于多尺度特征视觉transformer模块和基于3D卷积的特征金字塔网络进行特征提取,并采用多头池化注意力机制进行下采样操作,同时在transformer模块中引入相对位置嵌入,解决视觉的平移不变性问题。

在实例分割阶段引入特征金字塔是为了提高对小目标的检测性能。因此,在行为识别阶段,为了提高对小目标行为的识别能力,增加模型对小目标行为的敏感度,本实施例在行为识别阶段引入了特征金字塔网络,并结合多尺度特征视觉transformer模块,在底层以高分辨率对底层视觉信息建模,在高层以丰富语义信息对高层进行建模,不同于实例分割阶段中传统的特征金字塔网络,行为识别阶段的特征金字塔网络是3D结构,多一个时间维度,并将原有的2D卷积扩展为3D卷积。

再者,不同于以往视觉transformer中所有模块的输入输出分辨率是相同的,即采用固定尺度的分辨率,多尺度特征视觉transformer具有从高分辨率到低分辨率的多个阶段的特征层次结构,每个阶段包括多个具有特定固定尺度的transformer模块,并在不同的阶段建立不同尺度的模块,多尺度特征视觉transformer模块的通道数会逐渐增多,同时分辨率会逐渐下降,并从输入的高分辨率和较小的通道数出发,在降低空间分辨率的同时,逐级增加通道数。

在本实施例中,引入了池化注意力(Pooling Attention,PA)机制对每个尺度下的特征图进行下采样操作;具体地,对于一个D维的序列长度为L的输入张量X,其中

其中,权重矩阵

然后,将得到的中间张量

池化操作将减少输入张量的尺寸大小,得到维度为

其中,查询张量

最后,在得到的查询张量Q、键张量K、值张量V上进行池化自注意力操作,计算输出张量

其中,

池化注意力机制通过池化查询张量Q来降低多尺度特征视觉transformer模块不同阶段之间的分辨率,并通过池化键张量K和值张量V来显著降低计算代价和内存复杂度。

此外,为了让attention有更丰富的层次并可以从多个不同角度来看待attention,本实施例采用多头池化注意力机制,每个头都在D维输入张量X的D/H个通道上执行上述池化自注意力操作,其中H表示多头池化注意力机制中头部的数目。

在多尺度特征视觉transformer模块中,若时空结构建模仅依靠绝对位置嵌入来提供位置信息,将忽略视觉的平移不变性,换句话说,即使相对位置不变,多尺度特征视觉transformer模块建模两个元素之间的交互方式也会随着它们的绝对位置而改变。为了解决这个问题,本实施例在多头池化注意力机制中引入相对位置嵌入,将两个输入元素i和j之间的相对位置编码为位置嵌入向量

其中,

在本实施例中,在多头池化注意力机制内部引入池化残差连接(ResidualPoolingConnection),将池化后的查询张量Q添加到输出张量Z中,因此式(7)转变为如下:

在本实施例中,提出一种用于目标级别动作分类的多目标分类头模块,有效进行目标级别的动作分类,具体来说是在基于3D卷积的特征金字塔网络对应层的视频片段特征上提取RoI特征;

其中,首先将帧上的2D RoI沿时间轴复制,以将其扩展为3DRoI;

然后将3D RoI在时间上计算全局平均池化,通过RoI Align在空间上计算RoI特征,对RoI特征进行空间最大池化,得到固定大小的目标级别的感兴趣特征;

最后,根据目标级别的感兴趣特征采用softmax的分类器进行目标级动作类别的识别,从而判断是否存在异常行为;其中,考生的异常行为包括回头、喝水、东张西望、捡东西等。

在本实施例中,由于考场监控数据来自真实考场,所以考生的正常动作样本数远大于异常动作样本数,即训练过程中动作类别不平衡问题突出,为缓解类别不平衡问题对模型训练的影响,本实施例引入带权重的交叉熵损失函数,并依据训练中用到的动作类别的样本数目来设置相应动作类别的权重系数,将样本数目多的动作类别的权重系数设置得小一点,将样本数目少的动作类别的权重系数设置得大一点,有助于缓解数据不平衡问题,从而提高对异常动作的识别准确率。

因此,交叉熵损失函数为:

其中,C为目标动作类别数,

实施例2

本实施例提供一种考生考场异常行为分析系统,包括:

实例分割模块,被配置为获取考场监控视频,检测考场内目标的类别和位置,并分割出目标边界框;

特征提取模块,被配置为根据确定的考生目标边界框,采用基于3D卷积的特征金字塔网络进行多尺度特征提取,对每个尺度下的特征图采用多头池化注意力机制进行下采样操作,提取考场内考生的视频片段特征;

行为识别模块,被配置为对基于3D卷积的特征金字塔网络对应层的视频片段特征上的2D感兴趣特征沿时间轴复制,以扩展为3D感兴趣特征,将3D感兴趣特征在时间及空间经池化操作后,得到目标级别的感兴趣特征,以此识别考生动作类别,从而判断是否存在异常行为。

此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中,还提供:

一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。

应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。

一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。

本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

相关技术
  • 一种基于LDA的用户行为异常分析方法、系统及存储介质
  • 异常验证行为的识别方法、系统、用户设备及存储介质
  • 一种内部用户异常行为检测方法、系统及计算机存储介质
  • 一种软件运行异常的分析方法、装置、电子设备及存储介质
  • 一种通讯异常恢复的方法、异常恢复设备及存储介质
  • 一种考场异常行为检测方法、装置、设备以及存储介质
  • 一种寄递行为异常分析方法、系统、电子设备及存储介质
技术分类

06120115801212