掌桥专利:专业的专利平台
掌桥专利
首页

基于时空信息融合的翻越行为实时检测方法及相关组件

文献发布时间:2023-06-19 19:30:30


基于时空信息融合的翻越行为实时检测方法及相关组件

技术领域

本发明涉及计算机视觉技术领域,尤其涉及基于时空信息融合的翻越行为实时检测方法及相关组件。

背景技术

随着城市工业化加速发展、城市人口日益密集,搭建了各种视频监控基础设施,但以往社区的安保防控工作,主要由人工通过实时监控视频进行异常行为的识别,耗费大量的人力资源且效率低下;随着监控区域和规模的不断扩大,依靠人工决策的传统视频监控管理方式明显难以为继,取而代之的是以人工智能、计算机视觉、深度学习等为核心的智能视频监控技术应用而生,但传统的基于机器学习方法的翻越行为检测需要繁缛的特征工程,无法实时且有效的检测翻越行为。

发明内容

本发明实施例提供了基于时空信息融合的翻越行为实时检测方法及相关组件,旨在解决现有基于机器学习方法的翻越行为检测方法无法对翻越行为进行实时且有效的检测的问题。

第一方面,本发明提供一种基于时空信息融合的翻越行为实时检测方法,其中,包括:

获取监控视频并持续进行抽帧,将抽取的每一帧图像按顺序输入Al phaPose模型,提取出单帧图像的人体骨骼信息,其中所述人体骨骼信息包括人体骨骼关键点的像素坐标及其置信度;

将每一帧图像的人体骨骼信息依次存入固定队列;

判断所述固定队列中的长度是否大于预定长度,若是,则按时间先后将所述固定队列中存入时间最早的一帧图像的人体骨骼信息取出;

按预定义的骨骼点数字索引将所取出的一帧图像的人体骨骼信息构建为表示人体物理结构连接的数组,并输入至2s-AGCN模型,输出行为类别及其置信度。

第二方面,本发明还提供一种基于时空信息融合的翻越行为实时检测装置,其中,包括:

提取单元,用于获取监控视频并持续进行抽帧,将抽取的每一帧图像按顺序输入Al phaPose模型,提取出单帧图像的人体骨骼信息,其中所述人体骨骼信息包括人体骨骼关键点的像素坐标及其置信度;

存入单元,用于将每一帧图像的人体骨骼信息依次存入固定队列;

判断单元,用于判断所述固定队列中的长度是否大于预定长度,若是,则按时间先后将所述固定队列中存入时间最早的一帧图像的人体骨骼信息取出;

输出单元,用于按预定义的骨骼点数字索引将所取出的一帧图像的人体骨骼信息构建为表示人体物理结构连接的数组,并输入至2s-AGCN模型,输出行为类别及其置信度。

第三方面,本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的基于时空信息融合的翻越行为实时检测方法。

第四方面,本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于时空信息融合的翻越行为实时检测方法。

本发明实施例提供了基于时空信息融合的翻越行为实时检测方法及相关组件,本发明实施例主要采用Al phaPose与2s-AGCN结合的技术方法进行检测。具体的,先将视频抽帧获取的单帧图像输入Al phaPose模型进行骨骼点检测,得到的人体骨骼信息存入固定队列,当队列容量满足预定长度后,再将人体骨骼信息取出并输入2s-AGCN模型,输出行为类别及其置信度。本发明能够实时且有效地检测出人体是否在做出翻越行为,此方法提高了检测的精度与速度。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于时空信息融合的翻越行为实时检测方法的流程示意图;

图2为本发明实施例提供的基于时空信息融合的翻越行为实时检测方法的子流程示意图;

图3为本发明实施例提供的Mobi l eOne模块的网络结构图;

图4为本发明实施例提供的YOLOv7-T i ny-Mobi l eOne的3个输出分支的网络结构图;

图5为本发明实施例提供的基于时空信息融合的翻越行为实时检测方法的原理框图;

图6为本发明实施例提供的基于时空信息融合的翻越行为实时检测装置的示意性框图;

图7为本发明实施例提供的提取单元的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1,图1为本发明实施例提供的一种基于时空信息融合的翻越行为实时检测方法的流程示意图,包括步骤S101-S104:

S101、获取监控视频并持续进行抽帧,将抽取的每一帧图像按顺序输入AlphaPose模型,提取出单帧图像的人体骨骼信息,其中所述人体骨骼信息包括人体骨骼关键点的像素坐标及其置信度;

S102、将每一帧图像的人体骨骼信息依次存入固定队列;

S103、判断所述固定队列中的长度是否大于预定长度,若是,则按时间先后将所述固定队列中存入时间最早的一帧图像的人体骨骼信息取出;

S104、按预定义的骨骼点数字索引将所取出的一帧图像的人体骨骼信息构建为表示人体物理结构连接的数组,并输入至2s-AGCN模型,输出行为类别及其置信度。

本发明实施例主要采用Al phaPose与2s-AGCN结合的技术方法进行检测。具体的,先将视频抽帧获取的单帧图像输入Al phaPose模型进行骨骼点检测,得到的人体骨骼信息存入固定队列,当队列容量满足预定长度后,再将人体骨骼信息输入2s-AGCN模型,输出行为类别及其置信度。本发明能够实时且有效地检测出人体是否在做出翻越行为以确保园区内的安防,此方法提高了检测的精度与速度。

其中,在所述步骤S101中,可采集监控视频录制的画面,然后采用Al phaPose模型提取出单帧图像的人体骨骼信息。

首先,在园区入口处或者岗亭处,通过视频抽帧的方法采集监控视频中的图像数据,此图像数据包括人体未正常通过闸机、栏杆、闸口而是违规翻越进入园区时的画面。然后生成与时间相关的图像序列,翻越动作从起始到完成所需时间为3秒左右,即一个完整的翻越动作通常在3秒内完成。

其次,将抽取的每一帧图像按顺序输入Al phaPose模型,提取出单帧图像的人体骨骼信息。

具体的,如图2所示,步骤S101包括步骤S201-S204:

S201、通过目标检测算法检测每一帧图像,得到行人检测框;

S202、将所述行人检测框输入STN模块与SPPE模块,自动生成姿态框;

S203、将所述姿态框输入P-NMS模块进行提炼;

S204、通过姿态生成器生成与姿态框分布相同的行人框,以进行数据增强。

原有Al phaPose使用的检测器(即检测算法)是YOLOv3,确保先提取整个人员区域,而为了更好更快地检测出行人检测框,本实施例将YOLOv7-T i ny作为检测器。

即,在步骤S201中,使用YOLOv7-Ti ny作为检测器,可以更好更快地检测出行人检测框,YOLOv7-Ti ny具有更快更高效的网络架构,并在此基础上引入Mobi l eOne模块来平衡检测器的精度与速度,即YOLOv7-Ti ny-Mobi l eOne。

在本实施例中,如图3所示,左侧部分构成了Mobi l eOne模块的一个完整组成部分。它由上下两部分构成,其中上面部分基于深度卷积(Depthwi se Convo l ut i on),下面部分基于点卷积(Poi ntwi se Convo l ut ion),所述Mobi l eOne模块包括:依次设置的深度卷积模块和点卷积模块;所述深度卷积模块的卷积核大小为3×3,所述点卷积模块的卷积核为1×1;所述深度卷积模块中设置有3条分支,所述点卷积模块中设置有2条分支。Mobi l eOne模块采用了过度参数化分支,这些分支在模型训练时提供了进一步的收益,在推理时该Mobi l eOne模块没有任何分支,在重新参数化过程将分支删除,该Mob i l eOne模块在引入简单的过参数化分支,在推理时,只留下简单的前馈结构,可有效降低内存访问成本,又可在模型中扩展参数,获得更好的表达能力。

本实施例中,如图4所示,Mob i l eOne模块可设置3个,分别连接于YOLOv7-T iny中的最后3个输出分支的卷积模块(Conv)之前,并替换分别原有的3个卷积模块之前的CBL模块。图4中,Concat是指拼接模块,CBL是指卷积模块(包括Conv+BN+Leakyre l u,其中BN是指批归一体化模块、Leakyre l u是指一种激活函数),C5是指5个卷积。

本实施例中,步骤S201采用激活函数对模型训练过程进行优化。

具体地,在YOLOv7-Ti ny-Mobi l eOne中使用H-Swi sh激活函数,该函数数值稳定性好,几乎可以在所有软件和硬件框架中实现,Swi sh激活函数已经被证明是一种比ReLU6更佳的激活函数,但是相比ReLU6,它的计算更复杂,为了能够在移动设备上应用Swish并降低它的计算开销,提出了H-Swi sh激活函数。H-Swi sh激活函数的实现为分段函数,可减少内存访问次数,从而显著地降低延迟时间,即计算速度快。

H-Swi sh激活函数公式如下:

也可表示为:

公式中:x为输入的特征向量。

在步骤S202中,将所述行人检测框输入STN模块与SPPE模块,自动生成姿态框。具体地,行人检测框先输入至STN模块,再输入至两个并行的轻量化单人姿态估计网络(SPPE)模块,其中一个轻量化单人姿态估计网络(SPPE)模块用于生成姿态框,另一个轻量化单人姿态估计网络(SPPE)模块作为正则化作用,用于进一步加强STN提取优质的姿态框。

在步骤S203中,将所述生成的姿态框通过P-NMS模块进行提炼,消除冗余的姿态框。

生步骤S204中,PGPG(姿态生成器)通过生成与标注的姿态框分布相同的行人框做数据增强,进一步提升框架性能。

在所述步骤S102中,设置一个滑动窗口,通过一个固定队列实现滑动窗口,将人体骨骼信息保存至固定队列中,从而能够动态的在固定队列中实现滑动窗口的思想。本实施例只保存人体骨骼信息(即关键点)一方面能够减少模型计算量,另一方面能够保护个人隐私安全。

在所述步骤S103中,如图5所示,判断队列容量是否满足预设长度,若满足,则按时间先后顺序将所述固定队列中存入时间最早的一帧图像的人体骨骼信息取出;若不满足,则无法进行实时检测,不可进行归一化处理,数据重新进入Al phaPose模型,再次提取人体骨骼信息。

其中,预设长度可以是64帧,通过所述滑动窗口在数组上滑动,左边出一个元素,右边入一个元素,只需计算当前窗口内的元素值。固定队列是一个先进先出的数据结构,插入操作在队尾,移出操作在队头。

在所述步骤S104中,将上述满足预设长度的固定队列存储的人体骨骼信息,按预定义的骨骼点数字索引将所取出的一帧图像的人体骨骼信息构建为表示人体物理结构连接的数组,并输入至2s-AGCN模型,最后即可输出行为类别及其置信度。通过上述的滑动窗口达到衔接两个深度学习模型(Al phaPose和2s-AGCN)的目的。

本实施例提到的2s-AGCN行为识别,是将上述队列存储的人体骨骼关键点特征(即人体骨骼信息),根据预定义的骨骼点数字索引构建表示人体物理结构连接的数组。并输入至2s-AGCN模型,输出行为类别及其置信度。

其中,所述2s-AGCN模型由图神经网络(GCN)和时间卷积神经网络(TCN)构成,其主要优势一个是自适应图卷网络能够端到端地自适应学习不同GCN层和骨架样本的拓扑结构,另一个是双流框架提取时间与空间信息,利用关节坐标,骨骼长度和方向提取出丰富的行为信息,增强模型效果。模型网络结构为自适应图卷积网络(AGCN)组成的双流模式(2s-AGCN)。

自适应图卷积公式如下所示:

其中,K

其中,A

自适应图卷积模块按空间域GCN、批处理归一化、ReLU、Dropout、时间域GCN、批处理归一化、ReLU的顺序组成,且将空间GCN与第二个ReLU的输出残差连接,其中时间域GCN的卷积为TCN的卷积操作。输入数据维度为[N,C,T,V,M]分别表示为样本数、通道数、帧数、节点数、人数。计算骨骼信息作为第二特征,每根骨头由两个节点连接,将与骨架重心接近的节点作为源节点,而与重心距离较远的为目标节点,源节点表示为v

Softmax公式如下:

Softmax可将结果映射在[0,1]的范围且相加为1,输出结果为行为类别的概率。首先Softmax对每个未规范化的预测求幂,再对每个求幂后的结果除以它们的总和。

在实际应用时,园区入口处或者岗亭处的监控摄像头进行持续实时抽帧,并将抽帧图像送到训练好的模型进行推理,模型对图像中是否有翻越行为进行检测,实时输出检测结果。若检测结果有翻越行为,则把告警信息发送到后台。

综上所述,本发明实施例采用滑动窗口思想,使用队列数据结构作为衔接不同输入的深度学习模型的工具,实时检测摄像头监控画面是否存在翻越行为;本发明实施例提出Al phaPose模型与2s-AGCN模型结合的方法,并对原有的Al phaPose模型做出改进,有效地检测出人员翻越行为,辅助物业人员监控社区的安全,释放人力资源,赋能安防升级。

如图6所示,本发明实施例还提供一种基于时空信息融合的翻越行为实时检测装置600,其包括:

提取单元601,用于获取监控视频并持续进行抽帧,将抽取的每一帧图像按顺序输入Al phaPose模型,提取出单帧图像的人体骨骼信息,其中所述人体骨骼信息包括人体骨骼关键点的像素坐标及其置信度;

存入单元602,用于将每一帧图像的人体骨骼信息依次存入固定队列;

判断单元603,用于判断所述固定队列中的长度是否大于预定长度,若是,则按时间先后将所述固定队列中存入时间最早的一帧图像的人体骨骼信息取出;

输出单元604,用于按预定义的骨骼点数字索引将所取出的一帧图像的人体骨骼信息构建为表示人体物理结构连接的数组,并输入至2s-AGCN模型,输出行为类别及其置信度。

在一实施例中,如图7所示,提取单元601包括:

检测单元701,用于通过目标检测算法检测每一帧图像,得到行人检测框;

姿态框生成单元702,用于将所述行人检测框输入STN模块与SPPE模块,自动生成姿态框;

提炼单元703,用于将所述姿态框输入P-NMS模块进行提炼;

数据增强单元704,用于通过姿态生成器生成与姿态框分布相同的行人框,以进行数据增强。

本发明还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的方法。

本发明还提供了一种计算机设备,可以包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例所提供的方法。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

相关技术
  • 基于多时空信息融合卷积神经网络的人体行为识别方法
  • 一种基于时空和运行信息融合的人体行为识别方法
技术分类

06120115933694