掌桥专利:专业的专利平台
掌桥专利
首页

人体姿态识别方法、装置、设备和存储介质

文献发布时间:2024-04-18 19:54:45


人体姿态识别方法、装置、设备和存储介质

技术领域

本申请涉及机器交互领域,具体涉及一种人体姿态识别方法、装置、设备和存储介质。

背景技术

目前,随着智能终端的快速发展,智能终端的控制和交互场景也越来越多样化。通过人体姿态变换控制场景是智能终端交互的一个重要交互场景,通过体感交互能够更加自然地与智能终端进行交互,丰富交互体验。现有的姿态交互识别包括静态人体姿态识别和人体姿态识别两种交互方式,其中,静态人体姿态识别无法适应流畅交互的应用场景;而现有的人体姿态识别计算量大,且在用户运动较快和远距离交互场景下,运动姿态较为模糊,难以检测,用户体验较差。

发明内容

本申请实施例提供一种人体姿态识别方法、装置、设备和存储介质,旨在解决现有技术中人体姿态识别计算量大的技术问题。

一方面,本申请实施例提供一种人体姿态识别方法,所述人体姿态识别方法包括以下步骤:

获取待处理视频,获取所述待处理视频中的各视频帧的运动信息;

根据所述各视频帧的运动信息确定所述待处理视频中的若干运动关键帧;其中,所述运动关键帧为表征运动姿态特征的视频帧;

对所述若干运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列;

根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果。

在本申请一些实施例中,所述人体姿态识别方法应用于人体姿态识别模型,其中,所述人体姿态识别模型包括降维层和特征卷积层;

所述对所述若干运动关键帧进行卷积降维处理,得到压缩时序特征后的降维运动关键帧序列,包括:

将所述若干运动关键帧输入到所述降维层进行卷积降维处理,生成压缩时序特征后的降维运动关键帧序列;

根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果,包括:

将所述降维运动关键帧序列输入到所述特征卷积层进行特征识别,识别所述降维运动关键帧序列携带的运动姿态特征,生成所述降维运动关键帧序列对应的所述人体姿态识别结果。

在本申请一些实施例中,所述对所述若干运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列,包括:

将所述若干运动关键帧输入到所述降维层,获取所述若干运动关键帧的时序特征;

对所述若干运动关键帧的所述时序特征进行卷积压缩,得到所述若干运动关键帧对应的降维运动关键帧序列。

在本申请一些实施例中,所述根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果,包括:

将所述降维运动关键帧序列输入到所述特征卷积层,读取所述降维运动关键帧序列的时间特征和批尺寸特征,对所述时间特征和所述批尺寸特征进行融合,得到所述降维运动关键帧序列对应的姿态输入特征;

将所述姿态输入特征输入到所述特征卷积层,识别所述姿态输入特征对应的运动姿态特征,得到所述人体姿态识别结果。

在本申请一些实施例中,所述将所述降维运动关键帧序列输入到所述特征卷积层进行特征识别,识别所述降维运动关键帧序列携带的运动姿态特征,生成所述降维运动关键帧序列对应的所述人体姿态识别结果,包括:

将所述姿态输入特征输入到所述特征卷积层的一维卷积单元,提取所述姿态输入特征中携带的姿态时序特征;

对所述姿态时序特征进行时序建模,获取所述姿态时序特征对应的运动姿态特征,识别所述运动姿态特征对应的人体姿态识别结果。

在本申请一些实施例中,所述根据所述各视频帧的运动信息确定所述待处理视频中的若干运动关键帧,包括:

计算所述待处理视频的各相邻帧的帧差,对所述各相邻帧的帧差求和,得到相邻帧差累加结果;

根据所述相邻帧帧差累加结果计算待处理视频的运动累积分布;

根据所述运动累积分布采集所述待处理视频中的各视频帧的运动信息;

获取所述运动信息超过预设运动显著阈值的各视频帧作为所述若干运动关键帧。

在本申请一些实施例中,所述根据所述各视频帧的运动信息确定所述待处理视频中的若干运动关键帧,包括:

根据所述各视频帧的运动信息确定所述待处理视频中的各视频帧的运动分布斜率,比较所述运动分布斜率和所述运动显著阈值,确定所述视频帧是否为运动关键帧;

若所述运动分布斜率大于所述运动显著阈值,确定所述视频帧为运动关键帧,提取所述运动关键帧。

在本申请一些实施例中,所述运动姿态特征为手势运动特征;

所述根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果,包括:

对所述降维运动关键帧序列进行特征识别,获得所述降维运动关键帧序列携带的手势运动特征,其中,所述手势运动特征为表征人体手臂部位及手掌部位所具现的人体运动姿态特征;

根据所述手势运动特征进行手势特征分类,得到手势识别结果。

另一方面,本申请提供一种人体姿态识别装置,所述人体姿态识别装置包括:

运动采样模块,被配置为获取待处理视频,获取所述待处理视频中的各视频帧的运动信息,根据所述各视频帧的运动信息确定所述待处理视频中的若干运动关键帧;其中,所述运动关键帧为表征运动姿态特征的视频帧;

时序降维模块,被配置为对所述若干运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列;

姿态识别模块,被配置为根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果。

另一方面,本申请还提供一种人体姿态识别设备,所述人体姿态识别设备包括:

一个或多个处理器;

存储器;以及

一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现所述的人体姿态识别方法。

另一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的人体姿态识别方法中的步骤。

本申请中通过获取待处理视频,获取待处理视频中的各视频帧的运动信息,并根据各视频帧的运动信息确定待处理视频中的若干运动关键帧,其中,运动关键帧是表征运动姿态特征的视频帧;能够有效地反映该待处理视频中的用户运动情况;在获取该运动关键帧后,对该运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列,从而实现在确保输入信息不变的情况下,有效降低后续人体姿态识别过程的计算量,根据降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,从而得到人体姿态识别结果;实现在降低人体姿态识别算法的计算量的同时有效地提高人体姿态识别精确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例人体姿态识别方法的场景示意图;

图2为本申请实施例中提供的人体姿态识别方法的一个实施例的流程示意图;

图3为本申请实施例中提供的人体姿态识别方法的运动信息累积采样的流程示意图;

图4为本申请实施例中所提供的人体姿态识别方法中人体姿态识别的一个实施例的流程示意图;

图5为本申请实施例中提供的人体姿态识别方法中的确定运动的一个实施例的流程示意图;

图6为本申请实施例所提供的人体姿态识别装置的一个实施例的结构示意图;

图7为本申请实施例所提供的人体姿态识别设备的一个实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。

目前,随着智能终端的快速发展,智能终端的控制和交互场景也越来越多样化。通过人体姿态变换控制场景是智能终端交互的一个重要交互场景,通过体感交互能够更加自然地与智能终端进行交互,丰富交互体验。现有的姿态交互识别包括静态人体姿态识别和人体姿态识别两种交互方式,其中,静态人体姿态识别无法适应流畅交互的应用场景;而现有的人体姿态识别计算量大,且在用户运动较快和远距离交互场景下,运动姿态较为模糊,难以检测,用户体验较差。基于此,提出本申请实施例中一种人体姿态识别方法、装置、设备和计算机可读存储介质,以解决现有技术中人体姿态识别计算量较大的技术问题,以下分别进行详细说明。

本发明实施例中的人体姿态识别方法应用于人体姿态识别装置,人体姿态识别装置设置于人体姿态识别设备,人体姿态识别设备中设置有一个或多个处理器、存储器,以及一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并被配置为由处理器执行以实施人体姿态识别方法;其中,人体姿态识别设备可以是智能终端,例如手机、平板电脑、智能电视、网络设备和智能电脑等;可选的,人体姿态识别设备还可以是一台服务器,或者多台服务器组成的服务集群。

如图1所示,图1为本申请实施例人体姿态识别方法的场景示意图,本发明实施例中人体姿态识别场景包括人体姿态识别设备100(人体姿态识别设备100中集成有人体姿态识别装置),人体姿态识别设备100中运行有人体姿态识别方法对应的计算机可读存储介质,以执行人体姿态识别方法的步骤。

可以理解的是,图1所示人体姿态识别方法场景中的人体姿态识别设备,或者人体姿态识别设备中包含的装置并不构成对本发明实施例的限制,即人体姿态识别方法的场景中包含的设备数量、设备种类,或者各个设备中包含的装置数、装置种类不影响本发明实施例中技术方案的整体实现,均可以算作本发明实施例要求保护技术方案的等效替换或者衍生。

本发明实施例中人体姿态识别设备100主要用于:获取待处理视频,获取所述待处理视频中的各视频帧的运动信息;根据所述各视频帧的运动信息确定所述待处理视频中的若干运动关键帧;其中,所述运动关键帧为表征运动姿态特征的视频帧;对所述若干运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列;根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果。

本发明实施例中的人体姿态识别设备100可以是独立的人体姿态识别设备,例如手机、平板电脑、智能电视、网络设备、服务器和智能电脑等智能终端,也可以是由多个人体姿态识别设备组成的人体姿态识别网络或人体姿态识别集群。

本申请实施例提供一种人体姿态识别方法、装置、设备和计算机可读存储介质,以下分别进行详细说明。

本领域技术人员可以理解的是,图1中所示出的应用环境,仅仅是与本申请方案相关的其中一种应用场景,并不构成对本申请方案应用场景的限定,其它的应用环境还可以包括比图1所示出的更多或更少的人体姿态识别设备,或者人体姿态识别网络连接关系,例如图1中仅示出一个人体姿态识别设备,可以理解的是该人体姿态识别方法的场景还可以包括一个或多个人体姿态识别设备,具体在此不做限定;该人体姿态识别设备100种还可以包括存储器,用于存储待处理视频和其它数据。

需要说明的是,图1所示的人体姿态识别方法的场景示意图仅仅是一个示例,本发明实施例描述的人体姿态识别方法的场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对本发明实施例提供的技术方案的限定。

基于上述人体姿态识别方法的场景,提出本发明所公开的人体姿态识别方法的各个实施例。

如图2所示,图2为本申请实施例中人体姿态识别方法的一个实施例的流程示意图,该图像处理方法包括如下步骤201~步骤203:

201、获取待处理视频,获取所述待处理视频中的各视频帧的运动信息,根据所述各视频帧的运动信息确定所述待处理视频中的若干运动关键帧;

本实施例中的人体姿态识别方法应用于人体姿态识别设备,人体姿态识别设备的种类和数量不做具体限定,即,人体姿态识别设备可以是一个或多个智能终端或者服务器,在一个具体实施例中,人体姿态识别设备为智能电视。

本实施例中的人体姿态识别设备预设了多种交互方式以满足用户在不同交互场景下的交互需求。可选的,用户能够通过无线遥控器/控制器通过红外/蓝牙/无线网络连接或其它近场交互方式远程向人体姿态识别设备发送交互指令;可选的,用户还能够通过键盘、鼠标和手柄等控制器通过数据线或/无线连接方式向人体姿态识别设备发送交互指令。

具体的,用户还能够通过执行特定的静态或动态人体姿态,向人体姿态识别设备发送姿态交互指令,人体姿态识别设备调用摄像模块,获取用户执行特定动态姿态的待处理视频,对待处理视频进行运动信息累积采样,获取待处理视频中的各视频帧的运动信息,从而根据各视频帧的运动信息识别待处理视频中运动姿态特征显著的运动关键帧,人体姿态识别设备采集识别到的用户运动信息显著的运动关键帧,从而得到待处理视频中的表征运动姿态特征的运动关键帧。其中,运动关键帧为待处理视频中携带运动姿态特征的关键图像帧。运动信息为待处理视频中表征运动姿态特征的变化信息。人体姿态识别设备通过对待处理视频进行运动信息累积采样,使得人体姿态识别设备能够更好地关注待处理视频中携带用户姿态变换的运动信息的运动关键帧,从而提高采样精度,在人体姿态识别时能够降低人体姿态识别的计算量。

人体姿态识别设备在根据运动信息累积采样方法采集待处理视频后的运动关键帧后,根据该运动关键帧对用户所做出的人体姿态进行解析,确定用户所发出的动态姿态交互指令。

202、对所述若干运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列;

本实施例中,人体姿态识别设备为了降低人体姿态识别的运算量,在获取待处理视频中的若干运动关键帧后,对运动关键帧进行卷积降维处理,得到压缩时序特征后的降维运动关键帧序列。

具体的,人体姿态识别设备预设了人体姿态识别模型,该人体姿态识别模型包括降维层和特征卷积层,降维层的输出端与特征卷积层的输入端相连接。

人体姿态识别设备在接收用户发出的姿态交互请求之前,生成预设模型,该预设模型降维层和特征卷积层,其中,降维层的输出端与特征卷积层的输入端相连接。

可选的,在一个具体实施例中,该预设模型的降维层为channel-wise的三维卷积。该预设模型的特征卷积层是基于移动端高效模型mobilenet V2网络进行架构的,并且由于初始的mobilenet V2网络不会对时间维度进行时序建模,因此特征卷积层在mobilenet V2的步长为1的块中,还添加了一维卷积对输入数据进行时序建模,提取输入数据的时序特征。

具体的,人体姿态识别设备在预设模型创建完成后,对待处理视频进行运动信息累积采样,识别待处理视频中运动姿态特征显著的关键图像帧,采集识别到的运动姿态特征显著的关键图像帧,从而得到待处理视频中的训练运动关键帧。其中,训练运动关键帧为待处理视频中携带用户姿态变换的运动信息的关键图像帧。通过对待处理视频进行运动信息累积采样,使得人体姿态识别设备能够更好地关注待处理视频中携带用户运动信息的关键图像帧,从而提高采样精度,在人体姿态识别训练时能够提高人体姿态识别训练的准确性。

具体的,人体姿态识别设备在获取训练运动关键帧后,对该训练运动关键帧进行降维处理,人体姿态识别设备将训练运动关键帧输入到降维层,降维层获取该训练运动关键帧的图像帧特征,训练运动关键帧的图像帧特征参数决定了输入大小和输入信息。其中,时间特征即该训练运动关键帧所包含的图像帧的帧数。可选的,在一个具体实施例中,输入到降维层的训练运动关键帧为16帧关键图像帧。

降维层识别训练运动关键帧的图像帧特征后,确定训练运动关键帧的时间特征,即输入到降维层的训练运动关键帧的帧数。在获取训练运动关键帧的时间特征和其它图像帧特征后,对该训练运动关键帧进行卷积压缩,得到降维训练数据。

降维层将降维训练数据输入到预设模型的特征卷积层中,调用加入一维卷积的mobilenet V2网络对训练数据进行迭代训练,得到训练分类结果。在获取训练分类结果后,调用交叉熵损失函数根据训练分类结果和训练姿态标签计算训练姿态损失,在获取训练姿态损失后,通过SGD(Stochastic Gradient Descent,随机梯度下降)优化器优化预设模型,直到模型训练收敛,得到人体姿态识别模型。

可选的,在一个具体实施例中,该人体姿态识别模型的降维层为channel-wise的三维卷积,其中,该降维层的时间维度的卷积核大小设置为3,其它维度卷积核大小设置为1,时间维度的滑动步长设置为2,其它维度的滑动步长设置为1,时间维度的pad参数设置为1,其它维度的pad参数设置为0,其中,其它维度可以为批尺寸、通道数、输入帧图像高度、输入帧图像宽度等。

具体的,人体姿态识别设备将运动关键帧输入到降维层,降维层获取该运动关键帧的图像帧特征,其中,运动关键帧的图像帧特征包括批尺寸特征、通道数特征、时间特征、输入帧图像高度、输入帧图像宽度等特征。运动关键帧的图像帧特征参数决定了输入大小和输入信息。其中,时序特征即该运动关键帧所包含的图像帧的帧数。可选的,在一个具体实施例中,输入到降维层的运动关键帧为16帧关键图像帧。

降维层识别运动关键帧的图像帧特征后,确定运动关键帧的时序特征,即输入到降维层的运动关键帧的帧数。在获取运动关键帧的时序特征和其它图像帧特征后,对该运动关键帧进行卷积压缩,得到压缩时序特征后的降维运动关键帧序列,其中,该降维运动关键帧序列的时序特征为运动关键帧的时序特征的一半,其它图像帧特征与运动关键帧的其它图像帧特征相同,可选的,该降维运动关键帧序列的时序特征还可以根据实际应用场景需求,自定义压缩为运动关键帧的特定比例。

在一个具体实施例中,人体姿态识别设备获取到的运动关键帧的输入信息为16帧图像,输入大小为[B,16,3,H,W],人体姿态识别设备将该运动关键帧输入到降维层中,降维层获取该运动关键帧的图像帧特征,并对时间特征进行卷积压缩,在该运动关键帧的输入信息为16帧输入信息保持不变的情况下,即运动关键帧的其它图像帧特征不变的情况下,将运动关键帧的大小压缩为原来的一半,即将输入大小为16帧的运动关键帧压缩为输入大小为8帧的降维运动关键帧序列,该降维运动关键帧序列的输入大小为[B,8,3,H,W]。

203、根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果。

人体姿态识别设备在对运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列后,根据降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到待处理视频对应的人体姿态识别结果。

具体的,人体姿态识别设备将降维运动关键帧序列输入到人体姿态识别模型的特征卷积层,通过特征卷积层对降维运动关键帧序列进行人体姿态分类,该人体姿态识别模型的特征卷积层是基于移动端高效模型mobilenet V2网络进行架构的,并且由于初始的mobilenet V2网络不会对时间维度进行时序建模,因此特征卷积层在mobilenet V2的步长为1的块中,还添加了一维卷积对降维运动关键帧序列进行时序建模,提取降维运动关键帧序列的时序特征。

具体的,特征卷积层根据一维卷积块所获取到的时序特征和其它卷积块所提取到的其它特征,对降维运动关键帧序列所携带的运动姿态特征进行判断,确定该降维运动关键帧序列所携带的运动姿态特征,对该运动姿态特征进行分类,从而得到人体姿态识别结果。

可选的,在一个具体实施例中,运动姿态特征为手势运动特征,人体姿态识别设备通过对降维运动关键帧序列进行特征识别,获得降维运动关键帧序列的运动姿态特征为手势运动特征,将手势运动特征输入到特征识别模型进行识别,得到该手势运动特征的人体姿态分类结果,实现用户通过手势特征对设备进行交互。

人体姿态识别设备在获取人体姿态识别结果后,确定用户通过人体姿态变化交互请求所指向的操作指令,根据该操作指令执行相应的动作,实现根据用户所发出的不同人体姿态进行交互。

本实施例中,人体姿态识别设备通过采集用户做出姿态变化的待处理视频,获取待处理视频中携带的运动姿态特征,对待处理视频进行运动信息累积采样,得到运动关键帧,从而提高采样精度,在获取该运动关键帧后,对该运动关键帧进行降维处理,得到降维运动关键帧序列,在确保输入信息不变的情况下,有效降低人体姿态识别计算量,根据降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,从而获取人体姿态识别结果;实现在确保输入信息不变的前提下,有效降低人体姿态识别算法的计算量的同时有效地提高人体姿态识别精确度。

如图3所示,图3为本申请实施例中提供的人体姿态识别方法的运动信息累积采样的流程示意图。

基于上述实施例,本申请人体姿态识别方法中的运动信息累积采样的具体流程包括步骤301~步骤303:

301:计算所述待处理视频的各相邻帧的帧差,对所述相邻帧的帧差求和,得到相邻帧差累加结果;

302:根据所述相邻帧帧差累加结果计算待处理视频的运动累积分布;

303:根据所述运动累积分布采集所述待处理视频中的各视频帧的运动信息,获取所述运动信息超过预设运动显著阈值的各视频帧作为所述若干运动关键帧。

本实施例中,人体姿态识别设备调用摄像模块,获取用户执行特定动态姿态变化的待处理视频,对待处理视频进行运动信息累积采样。

具体的,人体姿态识别设备获取到待处理视频后,将待处理视频中的帧图像转换为灰度图,计算各相邻帧的帧差,在获取到全体相邻帧的帧差后,对相邻帧的帧差求和,得到相邻帧差累加结果S

在获取相邻帧差累加结果S

在获取归一化后的相邻帧差累加结果后,基于归一化后的相邻帧差累加结果计算运动累积分布,获得运动累积分布映射:

根据运动累积分布映射采集待处理视频中携带运动姿态特征的关键帧,组成运动关键帧。人体姿态识别设备在获取到运动关键帧后,对该运动关键帧输入到人体姿态识别模型中进行人体姿态识别,获取人体姿态识别结果,根据人体姿态识别结果执行对应的交互响应。

本实施例中,人体姿态识别设备通过对待处理视频进行运动信息累积采样,从而获取待处理视频中携带运动姿态特征的关键帧帧所组成的运动关键帧,对该运动关键帧输入到人体姿态识别模型中进行人体姿态识别,获取人体姿态识别结果,根据人体姿态识别结果执行对应的交互响应,提高人体姿态采样精度,滤除冗余信息,降低人体姿态识别的计算量。

如图4所示,图4为本申请实施例中所提供的人体姿态识别方法中人体姿态识别的一个实施例的流程示意图。

基于上述实施例,本申请人体姿态识别方法进一步包括步骤401ˉ步骤402:

401:将所述降维运动关键帧序列输入到所述特征卷积层,读取所述降维运动关键帧序列的时间特征和批尺寸特征,对所述时间特征和所述批尺寸特征进行融合,得到所述降维运动关键帧序列对应的姿态输入特征;

402:将所述姿态输入特征输入到所述特征卷积层,确定所述姿态输入特征对应的运动姿态特征,得到所述人体姿态识别结果。

本实施例中,人体姿态识别设备在将降维运动关键帧序列输入到特征卷积层进行人体姿态识别。具体的,在一具体实施例中,降维运动关键帧序列的输入为[B,T,C,H,W],该降维运动关键帧序列包含5个维度:批尺寸维度、时间维度、通道数量、帧图像高度和帧图像宽度,特征卷积层在对降维运动关键帧序列进行动作识别时,通过主干网络提取降维运动关键帧序列的特征时,需要对降维运动关键帧序列的输入进行转换。

具体的,特征卷积层读取降维运动关键帧序列的时间特征T,将降维运动关键帧序列的时间特征T与降维运动关键帧序列的批尺寸特征相乘进行关联,获取关联结果,根据关联结果对降维运动关键帧序列进行转换,从而得到姿态输入特征。可选的,在一具体实施例中,降维运动关键帧序列的输入为[B,T,C,H,W],特征卷积层对该降维运动关键帧序列进行转换后,所得到的姿态输入特征为[B*T,C,H,W]。

在获取到姿态输入特征后,调用特征卷积层的主干网络对姿态输入特征进行运动姿态特征识别,根据运动姿态特征确定姿态输入特征对应的人体姿态分类,从而得到人体姿态识别结果。

人体姿态识别设备在获取人体姿态识别结果后,确定用户通过姿态交互请求所指向的操作指令,根据该操作指令执行相应的动作,实现根据用户所发出的运动姿态进行交互。

本实施例中,人体姿态识别设备通过获取降维运动关键帧序列的时间特征,根据该降维运动关键帧序列的时间特征和批尺寸特征相关联,从而根据关联结果对降维运动关键帧序列进行转换,获取特征卷积层的主干网络所能识别的姿态输入特征,调用特征卷积层的主干网络对姿态输入特征进行运动姿态特征识别,根据运动姿态特征确定姿态输入特征对应的人体姿态分类,从而得到人体姿态识别结果,实现有效地对姿态输入特征进行识别,提高人体姿态识别精度,降低人体姿态识别计算量。

如图5所示,图5为本申请实施例中提供的人体姿态识别方法中的确定运动的一个实施例的流程示意图。

基于上述实施例,本申请人体姿态识别方法进一步包括步骤501ˉ步骤502:

501、根据所述各视频帧的运动信息确定所述待处理视频中的各视频帧的运动分布斜率,比较所述运动分布斜率和所述运动显著阈值,确定所述视频帧是否为运动关键帧;

502、若所述运动分布斜率大于所述运动显著阈值,确定所述视频帧为运动关键帧,提取所述运动关键帧。

本实施例中,人体姿态识别设备在根据待处理视频的各相邻帧的帧差,计算得到待处理视频的运动累积分布后,根据各视频帧的运动信息确定待处理视频中的各视频帧的运动分布斜率,通过比较运动分布斜率和预设的运动显著阈值,确定视频帧是否为运动关键帧。其中,运动显著值为表征视频帧携带的运动信息显著情况的运动分布斜率阈值。

具体的,视频帧所携带的运动姿态特征越显著,运动累积分布映射对应的分布曲线斜率就越大,被采样的概率也就越大,通过运动信息累积采样,使得人体姿态识别设备能够更加关注携带运动姿态特征的关键帧,从而滤除后续人体姿态识别的冗余信息。

可选的,人体姿态识别设备通过比较视频帧的运动分布斜率和运动显著阈值,确定该视频帧的运动分布斜率小于运动显著阈值,确定该视频帧的运动信息不够显著,即该视频帧不是运动关键帧。

可选的,人体姿态识别设备通过比较视频帧的运动分布斜率和运动显著阈值,确定该视频帧的运动分布斜率小于运动显著阈值,确定该视频帧携带显著的运动信息,该视频帧为表征运动姿态变化情况的运动关键帧,提取该运动关键帧。

人体姿态识别设备在得到运动关键帧后,将运动关键帧输入到人体姿态识别模型,得到人体姿态识别模型输出的人体姿态识别结果,根据该人体姿态识别结果输出对应的姿态交互响应。

本实施例中,人体姿态识别设备通过各视频帧的运动信息和运动累积分布计算出各视频帧的运动分布斜率,通过比较运动分布斜率和运动显著阈值来判断视频帧是否为运动关键帧,若所述运动分布斜率大于所述运动显著阈值,确定所述视频帧为运动关键帧,提取所述运动关键帧,有效滤除待识别视频中的冗余数据,降低后续人体姿态识别的计算量。

为了更好实施本申请实施例中人体姿态识别方法,在人体姿态识别方法基础之上,本申请实施例中还提供一种人体姿态识别装置,如图6所示,图6为本申请实施例所提供的人体姿态识别装置的一个实施例的结构示意图,所述人体姿态识别装置600包括:

运动采样模块601,被配置为获取待处理视频,获取所述待处理视频中的各视频帧的运动信息,根据所述各视频帧的运动信息确定所述待处理视频中的若干运动关键帧;其中,所述运动关键帧为表征运动姿态特征的视频帧;

时序降维模块602,被配置为对所述若干运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列;

姿态识别模块603,被配置为根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果。

在本申请一些实施例中,人体姿态识别装置对所述若干运动关键帧进行卷积降维处理,得到压缩时序特征后的降维运动关键帧序列,包括:

将所述若干运动关键帧输入到所述降维层进行卷积降维处理,生成压缩时序特征后的降维运动关键帧序列;

根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果,包括:

将所述降维运动关键帧序列输入到所述特征卷积层进行特征识别,识别所述降维运动关键帧序列携带的运动姿态特征,生成所述降维运动关键帧序列对应的所述人体姿态识别结果。

在本申请一些实施例中,人体姿态识别装置对所述若干运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列,包括:

将所述若干运动关键帧输入到所述降维层,获取所述若干运动关键帧的时序特征;

对所述若干运动关键帧的所述时序特征进行卷积压缩,得到所述若干运动关键帧对应的降维运动关键帧序列。

在本申请一些实施例中,人体姿态识别装置根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果,包括:

将所述降维运动关键帧序列输入到所述特征卷积层,读取所述降维运动关键帧序列的时间特征和批尺寸特征,对所述时间特征和所述批尺寸特征进行融合,得到所述降维运动关键帧序列对应的姿态输入特征;

将所述姿态输入特征输入到所述特征卷积层,识别所述姿态输入特征对应的运动姿态特征,得到所述人体姿态识别结果。

在本申请一些实施例中,人体姿态识别装置将所述降维运动关键帧序列输入到所述特征卷积层进行特征识别,识别所述降维运动关键帧序列携带的运动姿态特征,生成所述降维运动关键帧序列对应的所述人体姿态识别结果,包括:

将所述姿态输入特征输入到所述特征卷积层的一维卷积单元,提取所述姿态输入特征中携带的姿态时序特征;

对所述姿态时序特征进行时序建模,获取所述姿态时序特征对应的运动姿态特征,识别所述运动姿态特征对应的人体姿态识别结果。

在本申请一些实施例中,人体姿态识别装置根据所述各视频帧的运动信息确定所述待处理视频中的若干运动关键帧,包括:

计算所述待处理视频的各相邻帧的帧差,对所述各相邻帧的帧差求和,得到相邻帧差累加结果;

根据所述相邻帧帧差累加结果计算待处理视频的运动累积分布;

根据所述运动累积分布采集所述待处理视频中的各视频帧的运动信息;

获取所述运动信息超过预设运动显著阈值的各视频帧作为所述若干运动关键帧。

在本申请一些实施例中,人体姿态识别装置根据所述各视频帧的运动信息确定所述待处理视频中的若干运动关键帧,包括:

根据所述各视频帧的运动信息确定所述待处理视频中的各视频帧的运动分布斜率,比较所述运动分布斜率和所述运动显著阈值,确定所述视频帧是否为运动关键帧;

若所述运动分布斜率大于所述运动显著阈值,确定所述视频帧为运动关键帧,提取所述运动关键帧。

在本申请一些实施例中,人体姿态识别装置根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果,包括:

对所述降维运动关键帧序列进行特征识别,获得所述降维运动关键帧序列携带的手势运动特征,其中,所述手势运动特征为表征人体手臂部位及手掌部位所具现的人体运动姿态特征;

根据所述手势运动特征进行手势特征分类,得到手势识别结果。

本实施例中,人体姿态识别装置通过获取待处理视频,获取待处理视频中的各视频帧的运动信息,并根据各视频帧的运动信息确定待处理视频中的若干运动关键帧,其中,运动关键帧是表征运动姿态特征的视频帧;能够有效地反映该待处理视频中的运动姿态变化关系;在获取该运动关键帧后,对该运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列,从而实现在确保输入信息不变的情况下,有效降低后续人体姿态识别过程的计算量,根据降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,从而得到人体姿态识别结果;实现在降低人体姿态识别算法的计算量的同时有效地提高人体姿态识别精确度。

本发明实施例还提供一种人体姿态识别设备,如图7所示,图7为本申请实施例所提供的人体姿态识别设备的一个实施例的结构示意图。

人体姿态识别设备集成了本发明实施例所提供的任意一种人体姿态识别装置,该人体姿态识别设备包括:

一个或多个处理器;

存储器;以及

一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述人体姿态识别方法实施例中任一实施例中所述的人体姿态识别方法中的步骤。

具体来讲:人体姿态识别设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解,图7中示出的人体姿态识别设备结构并不构成对人体姿态识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器701是该人体姿态识别设备的控制中心,利用各种接口和线路连接整个人体姿态识别设备的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行人体姿态识别设备的各种功能和处理数据,从而对人体姿态识别设备进行整体监控。可选的,处理器701可包括一个或多个处理核心;优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。

存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据人体姿态识别设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。

人体姿态识别设备还包括给各个部件供电的电源703,优选的,电源703可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该人体姿态识别设备还可包括输入单元704,该输入单元704可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,人体姿态识别设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,人体姿态识别设备中的处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现各种功能,如下:

获取待处理视频,获取所述待处理视频中的各视频帧的运动信息;

根据所述各视频帧的运动信息确定所述待处理视频中的若干运动关键帧;其中,所述运动关键帧为表征运动姿态特征的视频帧;

对所述若干运动关键帧进行卷积降维,得到压缩时序特征后的降维运动关键帧序列;

根据所述降维运动关键帧序列携带的运动姿态特征进行人体姿态分类,得到人体姿态识别结果。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。

具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

以上对本申请实施例所提供的一种人体姿态识别方法进行了详细介绍,本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术分类

06120116380842