掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及视频监控技术领域,尤其是涉及一种基于视频分类的跌倒行为识别方法及电子设备。

背景技术

随着人工智能技术的发展和进步,目标识别已在诸多领域应用。目标识别技术除了用于识别目标的类别,还能够识别目标的行为,其中跌倒检测就是一项重要的行为识别技术。

基于图像的跌倒检测技术已在很多不同领域得到广泛的使用,比如:生活、交通、安防等领域。目前的基于图像的跌倒检测技术,只使用了图像的空间维度信息,没有使用时间维度信息,特征维度单一,信息不全,因此存在识别准确率较低的问题。

发明内容

本发明的目的在于提供一种基于视频分类的跌倒行为识别方法及电子设备,解决了跌倒检测技术存在识别准确率较低的问题。

第一方面,本发明提供的一种基于视频分类的跌倒行为识别方法,包括:

检测待识别的视频帧图像中的人体骨架关键点;

基于人体骨架关键点进行人体目标的跟踪,获取人体目标的运动轨迹和人体骨架关键点的运动变化过程;

利用ST-GCN模型识别人体骨架时序图中的跌倒行为,获得第一识别结果;

利用S3DFAST双流模型识别视频序列中的跌倒行为,获得第二识别结果;

对第一识别结果和第二识别结果进行综合判断,获得最终跌倒识别结果。

进一步的,检测待识别的视频帧图像中的人体骨架关键点的步骤,包括:

利用OpenPose模型对待识别的视频帧图像进行检测,获得的人体骨架关键点及所在位置。

进一步的,基于人体骨架关键点进行人体目标的跟踪,获取人体目标的运动轨迹和人体骨架关键点的运动变化过程的步骤,包括:

基于人体骨架关键点利用DeepSort进行人体目标的跟踪,获取人体目标的运动轨迹和人体骨架关键点的运动变化过程。

进一步的,所述ST-GCN模型的训练过程,包括:

由跌倒人体骨架样本和正常活动人体骨架样本,构建深度学习训练集和测试集;

基于训练集和测试集,使用ST-GCN框架训练基于ResNet-50的网络模型,获得ST-GCN模型。

进一步的,所述网络模型的损失函数为标准交叉熵损失函数,参数学习使用标准随机梯度下降算法。

进一步的,S3DFAST双流模型的训练过程,包括:

由跌倒短视频和正常活动短视频,构建深度学习训练集和测试集;

基于训练集和测试集,使用S3DFAST框架训练基于双流的网络模型,获得S3DFAST双流模型。

进一步的,所述网络模型的损失函数为交叉熵损失函数,参数学习使用自适应学习率梯度下降算法。

第二方面,本发明还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

第三方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述方法。

本发明提供的基于视频分类的跌倒行为识别方法,首先检测人体骨架关键点,再进行人体目标的跟踪,获取人体目标的运动轨迹和人体骨架关键点的运动变化过程。然后利用ST-GCN模型识别人体骨架时序图中的跌倒行为,获得具有空间维度信息的第一识别结果,以及利用S3DFAST双流模型识别视频序列中的跌倒行为,获得具有时间维度信息的第二识别结果,最后进行综合判断,获得最终跌倒识别结果,综合了空间维度信息和时间维度信息,因此信息更加全面,解决了现有技术存在的识别准确率较低的问题。

相应地,本发明实施例提供的电子设备及计算机可读存储介质,也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的跌倒行为识别方法的流程图;

图2为本发明实施例中ST-GCN模型的训练过程的流程图;

图3为本发明实施例S3DFAST双流模型的训练过程的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前的基于图像的跌倒检测技术,存在几点不足之处:

(1)只使用了图像的空间维度信息,没有使用时间维度信息,特征维度单一,信息不全;

(2)结合空间维度信息学习的特征不全面,还需要人工寻找能够代表该行为的关键特征,比如跌倒行为需要结合人体的高度和速度等特征来完成跌倒行为的识别,这样会增加人工选择特征的人工耗费;

(3)信息的不完整导致行为识别算法错误率较高,识别率较低。

基于此,本发明实施例提供的一种基于视频分类的跌倒行为识别方法,如图1所示,该方法包括以下步骤:

S1:检测待识别的视频帧图像中的人体骨架关键点。

S2:基于人体骨架关键点进行人体目标的跟踪,获取人体目标的运动轨迹和人体骨架关键点的运动变化过程;

S3:利用ST-GCN模型识别人体骨架时序图中的跌倒行为,获得第一识别结果;

S4:利用S3DFAST双流模型识别视频序列中的跌倒行为,获得第二识别结果;

S5:对第一识别结果和第二识别结果进行综合判断,获得最终跌倒识别结果。

本发明实施例,根据具有空间维度信息的第一识别结果,以及具有时间维度信息的第二识别结果,进行综合判断,获得最终跌倒识别结果,综合了空间维度信息和时间维度信息,因此信息更加全面,解决了现有技术存在的识别准确率较低的问题。并且,不需要人工寻找能够代表该行为的关键特征,节省了人工选择特征的人工耗费,因此本发明实施例识别精度高、实时性好,具有多场景的实用性。

在一种可能的实施方式中,上述步骤S1包括:

对于一段监控图像视频,利用OpenPose模型对待识别的视频帧图像进行检测,获得的人体骨架关键点及所在位置。

OpenPose人体姿态识别模型,是基于卷积神经网络和监督学习并以caffe为框架开发的开源库。可以实现人体动作、面部表情、手指运动等姿态估计。适用于单人和多人,具有极好的鲁棒性,是世界上首个基于深度学习的实时多人二维姿态估计应用。

在一种可能的实施方式中,上述步骤S2包括:

基于人体骨架关键点利用DeepSort进行人体目标的跟踪,获取人体目标的运动轨迹和人体骨架关键点的运动变化过程。Deepsort算法是在sort算法的基础上改进的算法,增加了级联匹配(Matching Cascade)和新轨迹的确认(confirmed),人体目标的跟踪更加准确。

如图2所示,在一种可能的实施方式中,所述ST-GCN模型的训练过程,包括:

由跌倒人体骨架样本和正常活动人体骨架样本,构建深度学习训练集和测试集,构建人体骨架时空图。

基于训练集和测试集,使用ST-GCN(时空图卷积神经网络)框架训练基于ResNet-50的网络模型。

配置深度学习参数训练模型:该模型的pytorch文件模型大小约为0.5M,ST-GCN是TCN(Temporal Convolutional Network,时间卷积网络)和GCN(图卷积网络,GraphConvolutional Network)的结合;模型输入的数据维度为(N,C,T,V,M),比如(256,3,32,18,2)。

其中:N代表一个batch(批量)的视频数量(batchsize=256);C代表关节特征(3);T代表关键帧的数量(32);V代表关节数量(18关节点);M代表一帧中的人数(2)。

损失函数使用标准交叉熵损失函数(CrossEntropyLoss),参数学习使用标准随机梯度下降算法(SGD,Stochastic Gradient Descent)。

最后获得ST-GCN人体骨架跌倒行为识别模型。

如图3所示,在一种可能的实施方式中,S3DFAST双流模型的训练过程,包括:

由跌倒短视频和正常活动短视频,构建深度学习训练集和测试集,构建人体骨架时空图。

基于训练集和测试集,使用S3DFAST框架训练基于双流的网络模型。

配置深度学习参数训练模型:该模型的pytorch文件模型大小约为2.9M,模型结构有两个通道进行流传输,其中一个为Fast通道,主要是为了捕捉运动信息,另一个为Slow通道,主要是为了捕获细节信息;模型输入单张样本大小为3*112*112,输入视频段帧数Fast通道为8帧;Slow通道为16帧。损失函数使用交叉熵损失函数,参数学习使用自适应学习率梯度下降算法(ADAM)。

最后获得S3DFAST跌倒行为识别模型。

在一种可能的实施方式中,上述步骤S5包括:

将具有空间维度信息的第一识别结果,与具有时间维度信息的第二识别结果,进行综合判断,比如将两个识别结果取交集,获得最终跌倒识别结果。

本发明实施例还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

对应于上述方法,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述方法的步骤。

本发明实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术分类

06120115630200