掌桥专利:专业的专利平台
掌桥专利
首页

一种基于人体关键点时空图模型的异常行为检测方法

文献发布时间:2023-06-19 13:49:36


一种基于人体关键点时空图模型的异常行为检测方法

技术领域

本发明属于人体行为异常检测领域,具体涉及一种基于人体关键点时空图模型的异常行为检测方法。

背景技术

现有的监控系统大多处于工作人员对视频信号的人工监控和事后录像分析的阶段,或者简单对场景中的运动目标进行检查跟踪,但是目前的安全需求是能够实时对场景中的异常事件或者异常行为检查和分析。随着计算机视觉的快速发展,基于计算机视觉的智能监控系统的能够实时的对监控场景进行理解和判断,可以及时的发现视频场景中的异常行为,准确的向安保人员发送报警信息,避免犯罪或者危险行为的发生,同时可以节省大量的视频存储空间,避免在异常行为发生后工作人员在海量的视频中查找和取证。

随着深度学习技术在图像分类、目标识别等领域取得的突破性进展,近年来也有相关研究将深度学习技术应用于视频分类研究中,用深度网络对频中的静态特征和运动特征进行分类、检测。异常检测领域中的行为识别问题,主要关注在复杂行为的分类上,即把从视频中提取出人体行为与预先设定的异常行为类模版进行匹配,由匹配结果判断视频是否存在异常行为。人体行为识别根据行为特征模态来分类,主要有:图像人体轮廓特征、深度图、视频人体运动光流以及人体骨架。这其中,深度图对数据形式有高要求,社会上现存的视频监控等不具备录制深度视频的条件,而视频人体运动光流其处理数据量大,代码运行成本高、速度相对较慢。比如LiuW等人提出的一种异常检测方法需要光流计算和生成完整的场景,这使得它成本高,并且对大的场景变化不太鲁棒。因此,上述人体行为识别方法很难使用在异常行为检测领域。

基于人体骨架的行为识别由于其对动态环境和复杂背景的强适应性,得到了广泛的关注和研究。目前有3种深度学习方法解决基于骨架的动作识别问题,分别是:将关节点序列表示成关节点向量,然后用RNN进行预测;将关节点信息表示成伪图像,然后用CNN去预测;将关节点信息表示成图结构,用图卷积进行预测。前两种方法将骨架数据表示为矢量序列或2D网格不能完全表达相关关节之间的依赖性。先前的方法不能利用骨架数据的图结构,并且难以推广到任意形式的骨架。最后一种的典型代表ST-GCN构建的时空图模型是固定的,模型与数据之间没有关联,难以做到行为识别的针对性,这会影响异常行为检测的精度。在获得目标的行为特征之后,当前的异常检测方法需要进行特征手工标注标明该行为属于正常或者是异常,但是手工特征难以表达视频内容的高层语义信息,在大规模视频数据和大量语义类别场景下的视频分类中表现出一定的局限性。

发明内容

针对人体关键点时空图模型缺乏灵活性及异常检测需要人工标注的局限性的问题,提供一种人体关键点时空图模型的构建方法及异常行为的检测方法。

一种基于人体关键点时空图模型的异常行为检测方法,包括如下步骤:

步骤a,当获取到待检测的视频时,对视频中的目标进行人体姿态估计,对当前视频进行预处理,获得视频中每个目标的关键点坐标;

步骤b,将步骤a中获得的目标关键点在基于人体关节自然连接的关系下,各关键点互连,构造空间图,并在连续帧中添加相应关节之间的时间边,搭建目标关键点时空图模型;

步骤c,构建数据驱动的图邻接矩阵,通过矩阵加法,对步骤b中搭建的目标关键点时空图模型进行融合,一起输入到行为特征提取模型当中,获得每个目标的行为特征;

步骤d,将步骤c中获得的目标行为特征x,输入到自动编码器网络中,通过编码网络的处理,将原始特征x压缩表示为隐藏特征z;

步骤e,将步骤d中的获得的潜在向量,输入到自动编码器网络中,通过解码网络的处理,将隐藏特征z恢复为新特征

步骤f,将步骤c中获得的原始行为特征与步骤e中获得的重构行为特征进行误差分析,通过特征重构误差拟合异常评分,根据误差来实现目标的异常行为检测。

进一步地,所述步骤a中,视频预处理包括,采用了OpenPose人体姿态估计中的COCO模型,对每个目标进行人体姿态估计,获得目标的18个关键点的(x,y)坐标和置信度分数acc,得到(x,y,acc)的位置特征。

进一步地,所述步骤b中,获得人体关键点坐标以后,搭建时空图模型包括:

步骤b1,在时间和空间维度下进行坐标数据归一化,也就是将一个关节在不同帧下的位置特征(x,y,acc)进行归一化;

步骤b2,给定身体关节的序列,以人体结构中的节点为图节点,以人体结构的自然连通性为图的边,获得单帧的人体关键点图,保存为邻接矩阵,再以时间的连续性,将同一节点在连续帧中相连,获得时间段内人体的关键点时空图模型;

步骤b3,将时空图中所有关节点的距离为1的邻域,划分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集。

进一步地,所述步骤c中,构建数据驱动的图邻接矩阵包括:

步骤c1,把基于步骤b2中获得的人体关键点图的邻接矩阵进行初始化,获得一个新的邻接矩阵;

步骤c2,把步骤c1中获得的新邻接矩阵在神经网络训练过程中,与其它参数一起被参数化,根据训练数据的不同,获得数据驱动的图邻接矩阵。

进一步地,所述步骤c中,获得每个目标的行为特征包括:

步骤c3,把步骤c2获得的数据驱动的图邻接矩阵与步骤b获得的人体关键点时空图模型,根据网络层次的不同需求,进行矩阵加法融合;

步骤c4,根据步骤b3中获得的三个子集,在步骤c3融合后的基础上,对每个子集构建卷积核大小;

步骤c5,构建图卷积块,包括依次连接的空间图卷积层GCN、BN层、RELU层、注意力模块STC、时域卷积层TCN、BN层、RELU层;

步骤c6,构建图卷积网络,包括依次连接的BN层、6个图卷积块、GAP层和softmax层,卷积块大小从(3,64,1)逐步增加到(128,128,1);

步骤c7,训练图卷积网络,利用模型去获得每个目标的行为特征。

进一步地,所述步骤f中,判别异常行为的依据的基本公式如下:

z=φ

上述各式中,x是输入的原始特征,φ

本发明的有益效果:

(1)相比于绝大部分人体关键点时空图模型构建方法,本发明通过将邻接矩阵变量化,允许其参数在训练时候更新,做到了数据驱动的,进一步增强了对不同行为的识别能力和特征提取能力,网络更加具备灵活性。

(2)相比于绝大部分的异常检测方法,需要针对某一个特定场景,提前设定好异常模板,再将学习到的特征与异常模板匹配才能够实现异常检测,本发明通过自编码器网络的重构误差,来判断是否发生了异常行为,不需要设计多余的异常模板,减少了开发人员的工作量,也扩大了异常检测方法的适用范围,更加具备广泛性。

附图说明

图1是本发明实施例中所述的异常行为检测方法的流程图。

图2是本发明实施例中所述的特征提取网络框架图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明首先对视频集合进行预处理,得到可以直接进行处理的视频序列,然后将视频序列预处理,得到人体关键点坐标。其次,一旦人体关键点坐标被确定,依照人体骨架自然连接,多帧累积之后就可以得到一段时间内人体的关键点时空图模型。然后利用神经网络,通过空间卷积模块和时间卷积模块的交替工作,提取行为特征,描述行为模式。最后,本发明使用自动编码器网络,利用其难以对异常数据进行编码再重构的性质,通过对比重构误差,进行异常检测。

不同于传统的光流方法,基于人体关键点的异常行为检测方法数据量小,计算成本低,并且训练过程不需要人工标注的数据,大大提高了异常检测的适用性。本发明将异常行为检测分成两个部分,即首先对行人视频序列进行处理,提取行为特征。然后根据行为特征进行自动编码器网络的编码与重构,进行异常行为检测,从而判断是否存在异常行为。

以下参照附图1对本发明进行详细的说明。

一种基于人体关键点时空图模型的异常行为检测方法,包括如下步骤:

步骤a,当获取到待检测的视频时,对视频中的目标进行人体姿态估计,对当前视频进行预处理,获得视频中每个目标的关键点坐标。

所述步骤a中,视频预处理包括:采用了OpenPose人体姿态估计算法中的COCO模型,对每个目标进行人体姿态估计,获得目标的18个关键点的(x,y)坐标和置信度分数acc,得到(x,y,acc)的位置特征。

步骤b,将步骤a中获得的目标关键点在基于人体关节自然连接的关系下,各关键点互连,构造空间图,并在连续帧中添加相应关节之间的时间边,搭建目标关键点时空图模型。

所述步骤b中,获得人体关键点坐标以后,搭建时空图模型包括:

步骤b1,在时间和空间维度下进行坐标数据归一化,也就是将一个关节在不同帧下的位置特征(x,y,acc)进行归一化。

步骤b2,给定身体关节的序列,以人体结构中的节点为图节点,以人体结构的自然连通性为图的边,获得单帧的人体关键点图,保存为N*N的邻接矩阵,再以时间的连续性,将同一节点在连续帧中相连,获得时间段内人体的关键点时空图模型。

步骤b3,将时空图中所有关节点的距离为1的邻域,划分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集。

步骤c,构建数据驱动的图邻接矩阵,通过矩阵加法,对步骤b中搭建的目标关键点时空图模型进行融合,一起输入到行为特征提取模型当中,获得每个目标的行为特征。

所述步骤c中,构建数据驱动的图邻接矩阵包括:

步骤c1,新构建一个与步骤b2中N*N的邻接矩阵同样大小的新矩阵,矩阵中各个位置元素均为0。

步骤c2,把步骤c1中获得的新邻接矩阵在神经网络训练过程中,与其它参数一起被参数化,训练数据中包含多种人体动作,不同的动作中各个关键点间的关联程度是不一样的。例如,“拍手”动作下,双手的关联性要比“阅读”动作下的双手关联性更加紧密,所以根据训练数据中动作类型的不同,就可以获得数据驱动的、更能贴近对应动作的图邻接矩阵。

所述步骤c中,获得每个目标的行为特征包括:

步骤c3,把步骤c2获得的数据驱动的图邻接矩阵与步骤b获得的人体关键点时空图模型,进行矩阵加法融合,即遵循矩阵加法,对应位置相加即可。

步骤c4,根据步骤b3中获得的三个子集,在步骤c3融合后的基础上,对每个子集构建卷积核大小。

步骤c5,构建图卷积块,如图2所示,包括依次连接的空间图卷积层GCN、BN层、RELU层、注意力模块STC、时域卷积层TCN、BN层、RELU层。

步骤c6,构建图卷积网络,如图2所示,包括依次连接的BN层、6个图卷积块、GAP层和softmax层,卷积块大小从(3,64,1)逐步增加到(128,128,1)。

步骤c7,训练图卷积网络,利用模型去获得每个目标的行为特征。

步骤d,将步骤c中获得的目标行为特征,输入到自动编码器网络中,通过编码模块的处理,利用通道数增加的大步长来将每个目标的原始行为特征压缩到一个潜在向量。

步骤e,将步骤d中的获得的潜在向量,输入到自动编码器网络中,通过译码模块的处理,逐步恢复原始通道数和特征维数,获得译码后的重构行为特征。

步骤f,将步骤c中获得的原始行为特征与步骤e中获得的重构行为特征进行误差分析,通过特征重构误差拟合异常评分,根据误差来实现目标的异常行为检测。

所述步骤f中,判别异常行为的依据是:自动编码器网络的编码模块通常用于获得比原始特征低维的表示,这迫使编码模块保留在潜在向量中的是原始特征中最广泛、最重要的信息,而步骤c当中获得的行为特征可以用来表示目标的行为,所以潜在向量中保留的最广泛、最重要的信息就是最具广泛性的原始特征信息,因此,各个目标如果出现偏离大多数行为特征的行为,即异常行为,那么异常行为很难从步骤d获得的潜在向量中重构出来,因此有很大的重构误差,特征重构误差能很好地拟合异常评分,根据这一特性就可以实现目标的异常行为检测。这种方法的基本公式如下:

z=φ

上述各式中,x是输入的原始特征,φ

以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

相关技术
  • 一种基于人体关键点时空图模型的异常行为检测方法
  • 一种基于时空信息及人、物交互的人体异常行为检测方法
技术分类

06120113821383