掌桥专利:专业的专利平台
掌桥专利
首页

一种基于跨尺度图对比学习的人体骨架动作识别方法

文献发布时间:2023-06-19 18:25:54


一种基于跨尺度图对比学习的人体骨架动作识别方法

技术领域

本发明涉及自监督学习技术领域,具体涉及一种基于跨尺度图对比学习的人体骨架动作识别方法。

背景技术

动作识别因其在视频监控、人体交互、视频理解等等许多应用场景中起着至关重要的作用。

现有的人体骨架动作识别模型一般是基于对有标签的RGB视频数据进行处理和分析,以获得视频中的人体动作信息。

但在提取RGB视频数据时,其易受到遮挡、环境变化与阴影干扰,导致深度图中颜色和纹理特征容易缺失,且处理起来相对耗时。并且利用有标签数据组成的人体动作识别模型属于全监督学习框架,需要依赖大量人工标注数据,而标注数据是繁琐且昂贵的,因此基于监督学习的模型识别性能会受到限制。

发明内容

本发明的目的在于提供一种基于跨尺度图对比学习的人体骨架动作识别方法,旨在解决没有标签数据时,人体骨架动作识别准确度低的问题。

为实现上述目的,本发明提供了一种基于跨尺度图对比学习的人体骨架动作识别方法,包括下列步骤:

采集获取无标签骨架序列;

统一规划所述无标签骨架序列的连续帧数;

利用图数据增强思想获得所述无标签骨架序列的不同实例;

通过编码器网络对不同实例进行编码获得编码特征,并建立图对比自监督动作识别网络;

结合跨尺度一致性知识挖掘方法进行多尺度信息间的交互;

基于图对比自监督动作识别网络和跨尺度一致性知识挖掘方法,得到最终模型;

利用带标签训练数据对所述最终模型的参数进行微调,并基于线性评估协议得到所述最终模型的识别性能。

其中,所述无标签骨架序列通过使用摄像头从不同的视角采集人体骨架数据集后获得。

其中,在统一规划所述无标签骨架序列的连续帧数的过程中,为避免数据冗余和降低计算复杂度,在人体骨架数据集中,统一规划骨架序列的连续帧数。

其中,利用图数据增强思想获得所述无标签骨架序列的不同实例的过程,具体为在同一骨架序列上,利用包含图数据增强在内的数据增强方法,获得无标签骨架序列的不同实例,并将所述不同实例作为正样本集。

其中,所述编码器网络为图卷积神经网络,用于提取所述不同实例的编码特征;所述图对比自监督动作识别网络是由两条路径组成,分别为原路径和图对比路经,每条路径又可分别数据增强模块、编码器模块和投影层模块,其中投影层模块是由全连接层与线性层组成。

其中,在结合跨尺度一致性知识挖掘方法进行多尺度信息间的交互的过程中,利用多尺度图建模三维骨骼特征表示,聚集骨骼关节点的关键相关特征,实现多尺度信息间的交互的具体方式为:将原始骨架序列转化为多尺度骨架图序列,结合跨尺度一致性知识挖掘模块,利用一个尺度图中特征信息的相似性,促进另一个尺度图中相似特征进行有效聚类。

其中,基于图对比自监督动作识别网络和跨尺度一致性知识挖掘方法,得到最终模型的具体方式为,将多尺度骨架图序列输入到所构建的网络模型中,通过个体多尺度映射间的协同关联模式,实现单尺度内关联及多尺度间语义协同交互。

其中,进行微调的过程,具体为在预训练的编码器上附加一个线性分类器。

其中,所述线性评估协议是在预训练的编码器之后追加一个分类器,所述分类器由一个全连接层和一个非线性层组成,训练固定编码器的网络。

利用微调方法,通过使用带标签的样本数据,对整个特征编码器和线性层进行端到端训练,得到一个性能良好的动作识别模型;利用线性评估技术,通过固定预训练编码器的参数,并在其上训练一个线性分类器,来评估学习后的动作表示。

本发明提供了一种基于跨尺度图对比学习的人体骨架动作识别方法,基于图对比自监督动作识别网络和跨尺度一致性知识挖掘方法,得到最终模型,再利用带标签训练数据对所述最终模型的参数进行微调,并基于线性评估协议得到所述最终模型的识别性能;本发明通过充分利用图对比学习方法,在扩充无标签骨架数据时,随机裁剪组成骨架结构的边,增强了高级语义信息的表达,使模型获得更好的泛化能力,其次利用骨骼关节点相互聚合的方法,构建出多个尺度的骨架图,通过跨尺度感知一致性,进一步提高了最近邻挖掘策略,使学习过程更加合理从而提升识别性能,解决了现有的人体骨架动作识别方法未使用无标签数据对模型进行训练,导致模型的识别性能受到限制的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明的一种基于跨尺度图对比学习的人体骨架动作识别方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

请参阅图1,本发明提供了一种基于跨尺度图对比学习的人体骨架动作识别方法,包括下列步骤:

S1:采集获取无标签骨架序列;

S2:统一规划所述无标签骨架序列的连续帧数;

S3:利用图数据增强思想获得所述无标签骨架序列的不同实例;

S4:通过编码器网络对不同实例进行编码获得编码特征,并建立图对比自监督动作识别网络;

S5:结合跨尺度一致性知识挖掘方法进行多尺度信息间的交互;

S6:基于图对比自监督动作识别网络和跨尺度一致性知识挖掘方法,得到最终模型;

S7:利用带标签训练数据对所述最终模型的参数进行微调,并基于线性评估协议得到所述最终模型的识别性能。

以下结合具体实施步骤进行说明:

S1:采集获取无标签骨架序列;

在步骤S1中,使用摄像头系统,得到无标签3D骨架序列,基于摄像头从不同的视角捕获人体骨架数据集,得到无标签3D骨架序列。

具体的,给定一个包含l帧连续的3D骨架序列X=(X

S2:统一规划所述无标签骨架序列的连续帧数;

具体的,获取3D骨架序列X(即骨骼点的坐标数据矩阵),该矩阵维度为[N,D,l,J,W],为避免数据冗余和降低计算复杂度,在人体骨架数据集中,统一将骨架序列的连续帧数l取为50,batch size大小N=128,位置向量维度D=3,骨骼关节点数J=25,人的总数W=2。

S3:利用图数据增强思想获得所述无标签骨架序列的不同实例;

在步骤S3中,具体还包括以下两个步骤:

S31利用数据增强模块τ来获取不同实例Q;

具体的,在获得骨架数据的基础上,分别在原路径与图对比路经上引入Shear与Temporal Crop的数据增强方法,以得到不同视图Q和

Shear:错切变换是通过构建相应的仿射矩阵,使人体关节的三维坐标形状呈任意角度倾斜。仿射矩阵的公式为:

其中,

Temporal Crop:是在时间维度上的数据增强,它将一些帧对称地填充到序列中,然后随机地将其剪切到原始长度。填充长度定义为l/r,r为填充比(取值为正整数)。

S32利用数据增强模块τ+mask_edg来获取不同实例K。

具体的,对视图

S4:通过编码器网络对不同实例进行编码获得编码特征,并建立图对比自监督动作识别网络;

步骤S4的具体方式如下:

S41利用编码器模块获得编码特征;

具体的,将不同实例Q与K分别嵌入到编码器f

S42将所述编码特征输入到投影层模块中,获得较低维空间特征向量;

将得到的编码特征h与

S43基于上述模块进行网络拼接,构建出图对比自监督动作识别框架。

具体的,在图对比学习过程中,当一个骨架序列以不同实例输入到两条不同的路径中时,其输出的特征是相似的,在模型训练过程中,需要最小化以下损失:

其中,存储库

S5:结合跨尺度一致性知识挖掘方法进行多尺度信息间的交互;

在步骤S5中,还包括利用多尺度图建模三维骨骼特征表示,聚集骨骼关节点的关键相关特征。

整个实现多尺度信息间的交互过程具体为,给定一个包含l帧的骨架序列X,将其称为关节点尺度(即身体关节作为节点),记作Θ

S6:基于图对比自监督动作识别网络和跨尺度一致性知识挖掘方法,得到最终模型;

具体的,作为前一种方法的扩展,在图对比学习网络训练结束后,再进行跨尺度图对比学习,以获得更强的学习表征能力,避免网络从头开始训练时的错误分类。具体来看,给定一个骨架序列X,需要得到两种不同的尺度图

在模型训练过程中,利用对比损失函数进行参数更新,公式如下:

其中,t是超参数,

同样地,在Θ

其参数意义与

多尺度损失函数L

S7:利用带标签训练数据对所述最终模型的参数进行微调,并基于线性评估协议得到所述最终模型的识别性能。

具体的,微调是在可学习的编码器中加入一个线性分类器,然后训练整个模型来完成动作识别任务;线性评估协议是将冻结的编码器附加到一个线性分类器(一个全连接(FC)层和一个非线性(softmax)层)上,之后对分类器进行监督训练,从而验证最终模型的识别性能。

进一步的,本发明拟从人体骨架数据集和自监督学习方法出发,构建基于自监督学习的人体骨架动作识别网络框架。然而注意到目前大多数基于骨架数据的自监督模型,利用对比学习方法进行建模,没有考虑骨架数据是一种离散数据结构,需要进行图结构学习,且利用数据增强获取正样本的想法过于单一,较少将跨尺度信息联合方法应用到自监督模型中,难以克服单一尺度特征信息不足的缺陷,不利于模型聚类效果。因此,本发明提出基于图对比学习与跨尺度一致性知识挖掘的自监督动作识别方法,通过个体多尺度映射间的协同关联模式,实现单尺度内关联及多尺度间语义协同交互。

以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

相关技术
  • 一种基于对抗式元学习的跨场景人体动作识别方法
  • 一种基于骨架特征和深度学习的人体动作识别方法
技术分类

06120115565715