掌桥专利:专业的专利平台
掌桥专利
首页

骨架行为识别方法、装置及电子设备

文献发布时间:2023-06-19 16:12:48



技术领域

本发明涉及计算机视觉技术领域,尤其涉及一种骨架行为识别方法、装置及电子设备。

背景技术

骨架行为识别作为计算机视觉领域中的一个重要研究分支,不仅包括人体骨架行为识别,还包括动物骨架行为识别,由于识别动物行为(比如识别猴类动物骨架行为)对于新型药物评估具有重要意义和应用前景,因此,如何准确识别动物骨架行为成为热门研究方向。

相关技术中,动物骨架行为识别方法与人体骨架行为识别方法的原理类似。动物骨架行为识别方法通常分为两个阶段。先使用姿态估计模型识别出视频中含有动物关键点的骨架信息,再对该骨架信息进行分析得到对应的行为状态,比如骨架行为识别方法可采用时空图卷积网络(Spatio-Temporal Graph Convolutional Networks,ST-GCN)模型。

然而,由于ST-GCN模型只能对骨架信息中的某几帧视频图像进行特征提取,所提取的信息也只涉及动物的局部特征,从而导致动物骨架行为识别的准确率不高。

发明内容

本发明提供一种骨架行为识别方法、装置及电子设备,用以解决现有技术中基于ST-GCN模型提取的特征只涉及动物的局部特征所导致的动物骨架行为识别的准确率不高的缺陷,实现高效且准确识别动物骨架行为的目的。

本发明提供一种骨架行为识别方法,包括:

确定待识别动物的骨架数据;

基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,并基于融合所得的特征进行骨架行为识别。

根据本发明提供的一种骨架行为识别方法,所述基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,包括:

基于预设骨架行为识别模型中的预设ST-GCN子模型,对所述骨架数据进行通道变换;

按照预设通道维度,对所述通道变换后的骨架数据分别进行全局特征提取。

根据本发明提供的一种骨架行为识别方法,所述第一骨架行为特征的数量大于所述第二骨架行为特征的数量时,所述基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,包括:

基于所述全局特征提取所得的各个第一骨架行为特征之间的相关性,确定相关矩阵;

基于所述相关矩阵和所述第二骨架行为特征,对所述骨架数据进行融合。

根据本发明提供的一种骨架行为识别方法,所述基于所述全局特征提取所得的第一骨架行为特征的相关性,确定相关矩阵,包括:

对每个基于所述全局特征提取所得的第一骨架行为特征分别进行降维处理,对应得到第一目标骨架行为特征;

计算所述第一目标骨架行为特征的相关矩阵。

根据本发明提供的一种骨架行为识别方法,所述基于所述相关矩阵和所述第二骨架行为特征,对所述骨架数据进行融合,包括:

对所述第二骨架行为特征进行降维处理,得到第二目标骨架行为特征;

基于所述相关矩阵,对所述第二目标骨架行为特征进行重加权;

对所述重加权后的特征进行升维处理;

基于所述升维处理后的特征,对所述骨架数据进行融合。

根据本发明提供的一种骨架行为识别方法,所述确定待识别动物的骨架数据,包括:

获取表征待识别动物日常行为的原始视频数据;

对所述原始视频数据进行预处理及行为标注,得到所述行为标注后的视频数据;

基于预设动物姿态估计模型,对所述行为标注后的视频数据进行骨架信息提取,得到所述待识别动物的骨架数据;其中,所述预设动物姿态估计模型是对人体姿态估计模型训练后得到的。

根据本发明提供的一种骨架行为识别方法,所述预设骨架行为识别模型的训练过程包括:

基于预设动物姿态估计模型,对样本动物视频进行逐帧预设关键点信息标注,得到样本骨架行为视频数据;

基于所述样本骨架行为视频数据,对初始骨架行为识别模型进行训练,得到预设骨架行为识别模型;其中,所述初始骨架行为识别模型是基于初始ST-GCN子模型和初始全局时空编码模块构建的。

根据本发明提供的一种骨架行为识别方法,所述预设动物姿态估计模型的训练过程包括:

对表征待识别动物日常行为的原始视频数据进行预处理;

对所述预处理后的视频数据进行逐帧预设关键点标注,并使用预设关键点标注后的视频数据对人体姿态估计模型进行训练,得到预设动物姿态估计模型。

本发明还提供一种骨架行为识别装置,包括:

确定单元,用于确定待识别动物的骨架数据;

识别单元,用于基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,并基于融合所得的特征进行骨架行为识别。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述骨架行为识别方法。

本发明提供的骨架行为识别方法、装置及电子设备,其中骨架行为识别方法,首先确定待识别动物的骨架数据,然后基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,并基于融合所得的特征进行骨架行为识别。由于第一骨架行为特征和第二骨架行为特征都是经由全局特征提取所得,因此都能够保留骨架数据涵盖的待识别动物的骨架在时间和空间维度上的真实行为,进一步通过第一骨架行为特征的相关性和第二骨架行为特征对骨架数据进行融合的方式,能够涵盖骨架行为涉及的各个肢节动作,从而有效提高了骨架行为识别的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的骨架行为识别方法的流程示意图;

图2是本发明提供的骨架行为识别方法的总体流程示意图;

图3是本发明提供的骨架行为识别装置的结构示意图;

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

骨架行为识别作为计算机视觉领域中的一个重要研究分支,不仅包括人体骨架行为识别,还包括动物骨架行为识别,由于识别动物行为(比如识别猴类动物骨架行为)对于新型药物评估具有重要意义和应用前景,因此,如何准确识别动物骨架行为成为热门研究方向。

下面以猴类动物骨架行为识别为例进行说明。

由于人体骨架行为识别与猴类动物骨架行为识别类似,并且人体骨架行为识别通常是使用姿态估计模型提取视频中人物的骨架信息,再通过骨架行为识别模型(比如ST-GCN模型)进行帧内的空间卷积和帧间的时间卷积,来提取时空维度的特征,最后对提取的特征进行分类。

基于上述过程,本发明在ST-GCN模型的基础上进一步探究猴类动物骨架行为识别的可行性和优劣性,并提出一种新的适用于猴类动物骨架行为识别的全局时空编码方法,以此实现高效且准确识别动物骨架行为的目的。

下面结合图1-图3描述本发明的骨架行为识别方法、装置及电子设备,其中骨架行为识别方法的执行主体可以为终端设备,该终端设备可以为个人计算机(PersonalComputer,PC)、便携式设备、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等其它电子设备。本发明对终端设备的具体形式不做限定。

需要说明的是,下述方法实施例的执行主体可以是终端设备的部分或者全部。下述方法实施例以执行主体为终端设备为例进行说明。

图1为本发明提供的骨架行为识别方法的流程示意图,如图1所示,该骨架行为识别方法,包括以下步骤:

步骤110、确定待识别动物的骨架数据。

其中,待识别动物可以为特定场景下的动物,比如笼中猴子,笼子可以为铁质笼子;待识别动物的骨架数据可以表征笼中动物在卧倒(Creeping)、蹲坐(Squatting)、行走(Walking)、向上跳跃(Jumping up)、向下跳跃(Jumping down)、向上攀爬(Climbing up)、向下攀爬(Climb down)、悬挂(hanging)、站立(Standing)、攀附(Cling)等其它行为的数据。

具体的,当待识别动物为猴子且猴子被置于笼中时,可以通过将摄像头置于笼上的方式拍摄笼中猴子,其拍摄时长可以为几天或一周,也可以为连续数天或连续数月拍摄,此处不作具体限定。然后,基于通过拍摄所得视频的处理,确定待识别动物的骨架数据,该骨架数据是一个C*T’*V的三维数组,C为预设骨架行为识别模型中的卷积层通道数;T’为拍摄所得视频所含的视频帧图像的数量,V为每个视频帧图像中所含的预设关键点数量,当预设关键点的数量为17时,17个预设关键点可以为鼻、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝、右脚踝。

步骤120、基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,并基于融合所得的特征进行骨架行为识别。

具体的,使用预设骨架行为识别模型对待识别动物的骨架数据进行识别,也即将骨架数据输入至预设骨架行为识别模型中,通过该预设骨架行为识别模型先对骨架数据进行全局特征提取、后使用全局特征提取的第一骨架行为特征的相关性和第二骨架行为特征对骨架数据进行融合,以使得基于融合所得的特征进行骨架行为识别。其中,全局特征提取表征针对拍摄笼中动物所得视频中的各个视频帧图像均基于预设关键点进行全局特征提取,以此得到第一骨架行为特征和第二骨架行为特征,第一骨架行为特征和第二骨架行为特征的维度相同且均为三维,比如(C*T’*V),C为预设骨架行为识别模型中的卷积层通道数,T’为拍摄所得视频所含的视频帧图像的数量,V为每个视频帧图像中所含的预设关键点数量。

本发明提供的骨架行为识别方法,首先确定待识别动物的骨架数据,然后基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,并基于融合所得的特征进行骨架行为识别。由于第一骨架行为特征和第二骨架行为特征都是经由全局特征提取所得,因此都能够保留骨架数据涵盖的待识别动物的骨架在时间和空间维度上的真实行为,进一步通过第一骨架行为特征的相关性和第二骨架行为特征对骨架数据进行融合的方式,能够涵盖骨架行为涉及的各个肢节动作,从而有效提高了骨架行为识别的准确率。

可选的,步骤110的实现过程可以包括:

首先,获取表征待识别动物日常行为的原始视频数据;然后,对所述原始视频数据进行预处理及行为标注,得到所述行为标注后的视频数据;最后,基于预设动物姿态估计模型,对所述行为标注后的视频数据进行逐帧关键点信息提取,得到所述待识别动物的骨架数据;其中,所述预设动物姿态估计模型是对人体姿态估计模型训练后得到的。

具体的,当待识别动物为猴子时,可以将多只猴子放置于铁质的笼子中,且多只猴子的品种、性别、年龄不同,然后通过笼子上设置的摄像头拍摄不同性别、品种、年龄的笼中猴子的日常行为,并且在拍摄过程中可以定期更换笼子猴子且维持笼子猴子的总数不变,笼中猴子的年龄段可以包括青年、中年及老年,性别包括雄和雌,品种可以包括恒河猴和食蟹猴,拍摄总时长可以为2个月,当拍摄时长为两个月时,可以每间隔一周左右的时间更换一次笼中猴子,比如周期为4天时,可以每隔4天进行更换且更换时可以将笼中的一只青年恒河猴更换为中年食蟹猴或者青年食蟹猴。以此方式进行拍摄且达到拍摄总时长时得到表征待识别动物日常行为的原始视频数据,并将该原始视频数据发送至终端设备。其中,待识别动物日常行为可以包括卧倒(Creeping)、蹲坐(Squatting)、行走(Walking)、向上跳跃(Jumping up)、向下跳跃(Jumping down)、向上攀爬(Climbing up)、向下攀爬(Climbdown)、悬挂(hanging)、站立(Standing)、攀附(Cling)等。

进一步的,终端设备针对接收的表征待识别动物日常行为的原始视频数据,首先对该原始视频数据进行预处理,也即通过指示用户手动删除的方式,删除该原始视频数据中光线较差等低质量的视频片段(比如阴天和晚上拍摄的视频片段);当原始视频数据为.TS格式时,考虑到.TS格式的视频数据虽然空间占用小但信息损失较多,因此为了骨架行为识别的准确性,还需要对预处理后的原始视频数据进行转码,也即将.TS格式转为.MP4格式;然后通过指示用户手动标注的方式,再对转码后的原始视频数据进行行为标注,也即将转码后的原始视频数据中的待识别动物日常行为标注出来,从而得到行为标注后的视频数据。

最后,基于预设动物姿态估计模型,对行为标注后的视频数据进行骨架信息提取,骨架信息包括每个预设关键点在行为标注后的视频数据中对应视频帧图像上的坐标和对应的置信度,以此得到待识别动物的骨架数据,预设关键点可以为鼻、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝、右脚踝。

本发明提供的骨架行为识别方法,先对表征待识别动物日常行为的原始视频数据进行预处理及行为标注,再基于预设动物姿态估计模型对行为标注后的视频数据进行骨架信息提取,以此确保所得待识别动物的骨架数据的内容丰富性和内容完整性,从而为后续准确识别骨架行为提供可靠保障。

可选的,步骤120中所述基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,其实现过程可以包括:

首先,基于预设骨架行为识别模型中的预设ST-GCN子模型,对所述骨架数据进行通道变换;然后,按照预设通道维度,对所述通道变换后的骨架数据分别进行全局特征提取。

具体的,预设骨架行为识别模型是对初始骨架行为识别模型进行训练后得到的模型,初始骨架行为识别模型中包括初始ST-GCN子模型和初始全局时空编码模块(GlobalSpatial Temporal Encoder Module,GSTEM),并且初始ST-GCN子模型被训练好时成为预设ST-GCN子模型,初始GSTEM被训练好时成为预设GSTEM。

基于此,当骨架数据输入至预设骨架行为识别模型中时,可以指示预设GSTEM使用预设ST-GCN子模型对骨架数据进行通道变换,也即将维度为(C*T’*V)的骨架数据输入至预设骨架行为识别模型中时,可以经由不同的预设ST-GCN子模型中的卷积层进行预设通道变换,比如将骨架数据的通道数变为原来的3倍,得到通道变换后的骨架数据;然后,再按照预设通道维度对通道变换后的骨架数据进行全局特征提取,也即将通道变换后的骨架数据分为3等份,以此方式提取的3个骨架行为特征的维度与骨架数据的维度均相同。

本发明提供的骨架行为识别方法,使用预设骨架行为识别模型对骨架数据先进行通道变换、后对通道变换后的骨架数据分别进行全局特征提取,以此结合预设ST-GCN子模型和全局时空编码模块提取全局特征的方式,使得所提取的特征均保留全局特性,从而确保了后续识别骨架行为的准确性。

可选的,当所述第一骨架行为特征的数量大于所述第二骨架行为特征的数量时,步骤120中所述基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,其实现过程可以包括:

首先,基于所述全局特征提取所得的各个第一骨架行为特征的相关性,确定相关矩阵;然后,基于所述相关矩阵和所述第二骨架行为特征,对所述骨架数据进行融合。

具体的,维度为(C*T’*V)的骨架数据进入预设骨架行为识别模型中进行通道变化和全局特征提取后,可以提取到表征全局特性的不止一个第一骨架行为特征和第二骨架行为特征,每个第一骨架行为特征和第二骨架行为特征均表征全局特征且其维度均为(C*T’*V),然后再通过分析各个第一骨架行为特征的关联程度,确定表征各个第一骨架行为特征之间关联程度的相关矩阵;进一步再基于该相关矩阵和第二骨架行为特征,对骨架数据进行融合,比如使用相关矩阵对第二骨架行为特征加权的方式,对骨架数据进行融合。

需要说明的是,维度为(C*T’*V)的骨架数据进入预设骨架行为识别模型中时,是由预设GSTEM使用对应的预设ST-GCN子模型进行通道变化和全局特征提取,并且进行全局特征提取时,也可以提取表征全局特性的不止一个第二骨架行为特征和第一骨架行为特征,此时可以使用表征各个第二骨架行为特征之间关联程度的相关矩阵和第一骨架行为特征对骨架数据进行融合。

本发明提供的骨架行为识别方法,针对骨架数据所提取的各个第一骨架行为特征,通过表征各个第一骨架行为特征之间相关性的相关矩阵对骨架数据进行融合的方式,提高了骨架行为识别的可靠性和准确性。

可选的,所述基于所述全局特征提取所得的第一骨架行为特征的相关性,确定相关矩阵,包括:

首先,对每个基于所述全局特征提取所得的第一骨架行为特征分别进行降维处理,对应得到第一目标骨架行为特征;然后,计算所述第一目标骨架行为特征的相关矩阵。

具体的,维度为(C*T’*V)的骨架数据进入预设骨架行为识别模型中先进行通道变化和全局特征提取后,提取到表征全局特性的两个第一骨架行为特征和一个第二骨架行为特征,两个第一骨架行为特征的维度与一个第二骨架行为特征的维度均为(C*T’*V);再进一步对两个第一骨架行为特征分别进行降维处理,也即将两个第一骨架行为特征的维度分别变形为(T’V,C),以此得到两个第一目标骨架行为特征且其维度均为(T’V,C);然后,计算两个第一目标骨架行为特征的相关矩阵M

其中,两个第一目标骨架行为特征分别为x1和x2,上标T为转置操作,x

需要说明的是,终端设备对两个第一骨架行为特征分别进行降维处理以及计算两个第一目标骨架行为特征的相关矩阵,还可以由终端设备所使用的预设骨架行为识别模型中的预设GSTEM分别完成。

本发明提供的骨架行为识别方法,针对骨架数据所提取的各个第一骨架行为特征,通过计算每个第一骨架行为特征降维处理后所得的第一目标骨架行为特征的相关矩阵,提高了全局特征提取的稳定性和可靠性,从而为后续融合处理的准确性奠定基础。

可选的,所述基于所述相关矩阵和所述第二骨架行为特征,对所述骨架数据进行融合,包括:

首先,对所述第二骨架行为特征进行降维处理,得到第二目标骨架行为特征;然后,基于所述相关矩阵,对所述第二目标骨架行为特征进行重加权;再对所述重加权后的特征进行升维处理;最后,基于所述升维处理后的特征,对所述骨架数据进行融合。

具体的,针对提取到表征全局特性的两个第一骨架行为特征和一个第二骨架行为特征,在对两个第一骨架行为特征的维度均进行降维处理的同时,也可以对第二骨架行为特征进行降维处理,也即通过将维度为(C*T’*V)的第二骨架行为特征的维度也变形为(T’V,C)的方式,得到第二目标骨架行为特征,然后使用相关矩阵对第二目标骨架行为特征进行重加权,其重加权的公式为:

x′

由于重加权后的特征x′

x′=x+wx″

需要说明的是,终端设备对第二骨架行为特征进行降维处理、对第二目标骨架行为特征进行重加权、对重加权后的特征进行升维处理,以及基于所述升维处理后的特征,对所述骨架数据进行融合,均可以由终端设备所使用的预设骨架行为识别模型中的预设GSTEM完成。

本发明提供的骨架行为识别方法,针对骨架数据所提取的各个第一骨架行为特征和第二骨架行为特征,通过使用各个第一骨架行为特征的相关矩阵对降维后的第二骨架行为特征先重加权,再将重加权后的特征变形为与骨架数据相同维度后与骨架数据进行融合,以此确保融合的准确性和可靠性,从而也提高了骨架行为识别的准确性。

可选的,所述预设骨架行为识别模型的训练过程包括:

首先,基于预设动物姿态估计模型,对样本动物视频进行逐帧预设关键点信息标注,得到样本骨架行为视频数据;然后,基于所述样本骨架行为视频数据,对初始骨架行为识别模型进行训练,得到预设骨架行为识别模型;其中,所述初始骨架行为识别模型是基于初始ST-GCN子模型和初始全局时空编码模块构建的。

具体的,本发明中的初始骨架行为识别模型为初始ST-GCN子模型和初始GSTEM连接后形成的模型,且初始ST-GCN子模型和初始GSTEM可以为一对一连接关系,也可以为多对一连接关系或者一对多连接关系,此处对初始ST-GCN子模型和初始GSTEM的数量和连接关系不作具体限定。

针对初始骨架行为识别模型的训练,首先获取样本动物视频,样本动物视频可以为前述预处理后的原始视频数据,也即对表征待识别动物日常行为的原始视频数据经过预处理后的视频数据;也可以为针对笼中不同性别、品种、年龄的猴子的日常行为拍摄2个月且拍摄期间定期更换笼中猴子时每次保持笼中猴子总数不变后所得的视频数据,并将预处理后的视频数据确定为样本动物视频,此处的拍摄过程可与前述实施例的拍摄过程同步执行,且此处的拍摄过程和预处理过程均可以参照前述实施例,此处不再赘述。

再对样本动物视频进行逐帧预设关键点提取,也即通过指示用户手动标注的方式,对样本动物视频中每帧视频数据的17个预设关键点分别进行标注,以此得到样本骨架行为视频数据,样本骨架行为视频数据是由多个样本视频帧的骨架行为序列信息组成,每个样本视频帧的骨架行为序列信息均可以表示为一个维度是Y*N*U的张量,其中U=3表示每个预设关键点的特征维数,Y为样本骨架行为视频数据含有的样本视频帧的总帧数,N为样本动物视频中每帧视频数据所需提取的预设关键点总个数。

进一步使用样本骨架行为视频数据对初始骨架行为识别模型进行训练,设置训练初始骨架行为识别模型的epoch为M,比如M可以取值为100;每个epoch训练之后计算并保存对应训练后模型的准确度,当使用样本骨架行为视频数据训练初始骨架行为识别模型达到M之后,在M个训练后模型中选取准确度最高的模型作为预设骨架行为识别模型,也即初始骨架行为识别模型训练好后即可成为预设骨架行为识别模型,此时每个初始ST-GCN子模型也均被训练好且均成为预设ST-GCN子模型,以及每个初始GSTEM也均被训练好且均成为预设GSTEM,预设GSTEM用于通过全局时空编码方法进行猴类动物的全局骨架行为特征提取,且预设GSTEM可以作为一个即插即用的模块使用,具有轻量化的优点,也不影响预设ST-GCN子模型的使用,将预设GSTEM和预设ST-GCN子模型组合在一起成为预设骨架行为识别模型。

本发明实施例提供的骨架行为识别方法,通过由样本动物视频逐帧标注关键点后所得的样本骨架数据对由初始ST-GCN子模型和初始GSTEM构建的初始骨架行为识别模型进行训练的方式,得到预设骨架行为识别模型,以此结合深度学习方法,实现对特定场景下的待识别动物的姿态进行准确预测的目的,从而提高了识别动物骨架行为的准确率。

可选的,所述预设动物姿态估计模型的训练过程包括:

首先,对表征待识别动物日常行为的原始视频数据进行预处理;然后,对所述预处理后的视频数据进行逐帧预设关键点标注,并使用预设关键点标注后的视频数据对人体姿态估计模型进行训练,得到预设动物姿态估计模型。

具体的,针对人体姿态估计模型的训练,首先对预处理后的原始视频数据进行逐帧预设关键点提取,也即通过指示用户手动标注的方式,对预处理后的原始视频数据中每帧视频数据的17个预设关键点分别进行标注,并使用预设关键点标注后的视频数据对人体姿态估计模型进行训练,设置训练人体姿态估计模型的epoch为M’,比如M’也可以取值为100;每个epoch训练之后计算并保存对应训练后模型的准确度,当使用预设关键点标注后的视频数据训练人体姿态估计模型达到M’之后,在M’个训练后模型中选取准确度最高的模型作为预设动物姿态估计模型。

需要说明的是,本发明实施例所提及的人体姿态估计模型可以为现有的人体姿态估计模型,此处不作具体限定。

本发明提供的骨架行为识别方法,通过使用预设关键点标注后的视频数据对人体姿态估计模型进行训练的方式,得到用于动物姿态估计的预设动物姿态估计模型,以此结合人体姿态估计模型和深度学习方法,生成用于预测特定场景下待识别动物的姿态的预设动物姿态估计模型,从而提高了识别动物姿态的可靠性和灵活性。

基于前述实施例,图2是本发明提供的骨架行为识别方法的总体流程图,如图2所示,该骨架行为识别方法包括:

步骤210、获取表征待识别动物日常行为的原始视频数据,并对该原始视频数据进行预处理及行为标注,得到行为标注后的视频数据。

步骤220、基于预设动物姿态估计模型,对行为标注后的视频数据进行骨架信息提取,得到待识别动物的骨架数据。

步骤230、将骨架数据输入至预设骨架行为识别模型中时,预设GSTEM使用预设ST-GCN子模型的卷积层将骨架数据的通道数变为原来的3倍,得到通道变换后的骨架数据。

步骤240、按照预设通道维度将通道变换后的骨架数据进行3等份,分别作为两个第一骨架行为特征和一个第二骨架行为特征,其维度均为(C*T’*V),然后再将其分别降维至(T’V,C),得到两个第一目标骨架行为特征和一个第二目标骨架行为特征。

步骤250、计算两个第一目标骨架行为特征的相关矩阵。

步骤260、使用相关矩阵对第二目标骨架行为特征进行重加权,再将重加权后的特征维度升维至(C*T’*V),得到升维处理后的特征。

步骤270、使用升维处理后的特征对骨架数据进行融合,得到融合所得特征,也即预设ST-GCN子模型和预设GSTEM的融合结果。

步骤280、基于融合所得的特征进行骨架行为识别。

需要说明的是,将本发明方法与使用现有ST-GCN模型进行动物骨架行为识别,并进行性能比较,使用本发明方法进行动物骨架识别的准确度为0.735,而使用现有ST-GCN模型进行动物骨架行为识别的准确度为0.698,本发明方法的准确率比现有ST-GCN方法的准确率高3.7%。基于此可知,本发明方法验证了骨架行为识别方法用于猴类动物骨架行为识别的可行性,且提出的动物骨架行为识别方法相比于现有ST-GCN方法具有更高的骨架行为识别度。

本发明实施例提供的骨架行为识别方法,首先确定待识别动物的骨架数据,然后基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,并基于融合所得的特征进行骨架行为识别。由于第一骨架行为特征和第二骨架行为特征由于都是经由全局特征提取所得,因此都能够保留骨架数据涵盖的待识别动物的骨架在时间和空间维度上的真实行为,进一步通过第一骨架行为特征的相关性和第二骨架行为特征对骨架数据进行融合的方式,能够涵盖骨架行为涉及的各个肢节动作,从而有效提高了骨架行为识别的准确率。

下面对本发明提供的骨架行为识别装置进行描述,下文描述的骨架行为识别装置与上文描述的骨架行为识别方法可相互对应参照。

参照图3,为本申请实施例提供的骨架行为识别装置,在图3中,该骨架行为识别装置300,包括:

确定单元310,用于确定待识别动物的骨架数据。

识别单元320,用于基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,并基于融合所得的特征进行骨架行为识别。

可选的,确定单元310,具体可以用于获取表征待识别动物日常行为的原始视频数据;对所述原始视频数据进行预处理及行为标注,得到所述行为标注后的视频数据;基于预设动物姿态估计模型,对所述行为标注后的视频数据进行骨架信息提取,得到所述待识别动物的骨架数据;其中,所述预设动物姿态估计模型是对人体姿态估计模型训练后得到的。

可选的,识别单元320,具体可以用于基于预设骨架行为识别模型中的预设ST-GCN子模型,对所述骨架数据进行通道变换;按照预设通道维度,对所述通道变换后的骨架数据分别进行全局特征提取。

可选的,识别单元320,具体还可以用于基于所述全局特征提取所得的各个第一骨架行为特征之间的相关性,确定相关矩阵;基于所述相关矩阵和所述第二骨架行为特征,对所述骨架数据进行融合。

可选的,识别单元320,具体还可以用于对每个基于所述全局特征提取所得的第一骨架行为特征分别进行降维处理,对应得到第一目标骨架行为特征;计算所述第一目标骨架行为特征的相关矩阵。

可选的,识别单元320,具体还可以用于对所述第二骨架行为特征进行降维处理,得到第二目标骨架行为特征;基于所述相关矩阵,对所述第二目标骨架行为特征进行重加权;对所述重加权后的特征进行升维处理;基于所述升维处理后的特征,对所述骨架数据进行融合。

可选的,所述装置还可以包括训练单元,用于基于预设动物姿态估计模型,对样本动物视频进行逐帧预设关键点信息标注,得到样本骨架行为视频数据;基于所述样本骨架行为视频数据,对初始骨架行为识别模型进行训练,得到预设骨架行为识别模型;其中,所述初始骨架行为识别模型是基于初始ST-GCN子模型和初始全局时空编码模块构建的。

可选的,训练单元还可以用于对表征待识别动物日常行为的原始视频数据进行预处理;对所述预处理后的视频数据进行逐帧预设关键点标注,并使用预设关键点标注后的视频数据对人体姿态估计模型进行训练,得到预设动物姿态估计模型。

图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备400可以包括:处理器(processor)410、通信接口(CommunicationsInterface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行骨架行为识别方法,该方法包括:

确定待识别动物的骨架数据;

基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,并基于融合所得的特征进行骨架行为识别。

此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的骨架行为识别方法,该方法包括:

确定待识别动物的骨架数据;

基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,并基于融合所得的特征进行骨架行为识别。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的骨架行为识别方法,该方法包括:

确定待识别动物的骨架数据;

基于预设骨架行为识别模型,对所述骨架数据进行全局特征提取,基于所述全局特征提取所得的第一骨架行为特征的相关性以及第二骨架行为特征,对所述骨架数据进行融合,并基于融合所得的特征进行骨架行为识别。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 骨架行为识别方法、装置及电子设备
  • 一种基于视角归一化的骨架行为识别方法、装置及设备
技术分类

06120114740192