掌桥专利:专业的专利平台
掌桥专利
首页

基于关系建模的人体姿态估计方法

文献发布时间:2023-06-19 13:45:04



技术领域

本发明属于人体姿态估计技术领域,具体涉及基于关系建模的人体姿态估计方法。

背景技术

关系实际上就是关系模式在某一时刻的状态或内容。也就是说,关系模式是型,关系是它的值。关系模式是静态的、稳定的,而关系是动态的、随时间不断变化的,因为关系操作在不断地更新着数据库中的数据。但在实际当中,常常把关系模式和关系统称为关系,读者可以从上下文中加以区别。

姿态估计问题就是确定某一三维目标物体的方位指向问题。姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。在不同领域用于姿态估计的传感器是不一样的。

基于视频的人体姿态估计是计算机视觉领域一项重要又具有挑战性的任务。虽然目前基于深度学习的人体姿态估计取得了很大进步,但大多数方法存在一个共同问题,即在生成关节点热图的过程中,已有方法都是单个关节点逐点定位,而忽略了关节点之间的联系,人体是一个有机的整体,在运动过程中各个关节点是相互关联的,已有方法逐点定位的方式会破坏人体的结构信息。

发明内容

本发明要解决的技术问题是克服现有的缺陷,提供基于关系建模的人体姿态估计方法,以解决上述背景技术中提出的在生成关节点热图的过程中,已有方法都是单个关节点逐点定位,而忽略了关节点之间的联系,人体是一个有机的整体,在运动过程中各个关节点是相互关联的,已有方法逐点定位的方式会破坏人体的结构信息的问题。

为实现上述目的,本发明提供如下技术方案:基于关系建模的人体姿态估计方法,包括以下步骤:

步骤一:给定一段包含N帧的视频,即

RPSTN采用连续的T帧作为输入,给定由P生成的初始姿态,关节关系提取器(JRE)通过对关节之间的关系建模联合地生成所有关节点热图,然后将包含位姿结构信息的关节热图与位姿F生成的表观特征相结合,传递给关节关系引导的位姿语义传播器(JRPSP),从而获取姿态的高级语义特征,这些高级语义特征从当前帧传递到下一帧,以指导模型估计下一帧的姿态,考虑到视频的时间语义一致性,连续两帧之间的语义信息是相似的(即外观、场景信息基本不变,只有动作姿态发生微小变化),因此,使用全局匹配机制在当前帧中搜索与JRPSP提取的语义特征相似的区域;

步骤二:对于第一帧,使用预训练的姿态初始化器生成一系列热图表示的初始姿态,然后JRE模块以P生成的初始热图作为输入,学习任意两个初始关节热图之间的关系,初始热图由JRE模块进行微调,并通过批处理规范化层,将其转换为精确的热图,受JRE模块提取的关系信息的鼓励,RPSTN可以联合生成所有关节的热图,而不是单独检测每个关节,整个过程形式化如下:

M′

式中,M′

步骤三:历史姿态语义学习:由于视频的时间语义一致性,第t帧整个姿态的语义特征可以指导模型定位第(t+1)帧中的关节点,因此,应该考虑历史帧中有效的姿态语义特征,以帮助在后续框架中定位关节,姿态的语义特征不仅包括位姿的空间信息,还包括姿态的外观特征,沿通道维度将特征图f

其中,

步骤四:姿态语义传递和全局匹配:考虑到视频的时序语义一致性,上一帧的姿态知识可以在下一帧中重用,以帮助定位关节,为了对姿态的时间动态信息进行建模,采用全局匹配机制在当前帧中搜索与前一帧语义相似的区域,对于全局匹配,以前一帧姿态的语义特征为模板,以当前帧的特征为目标,然后将模板作为动态卷积核与目标进行卷积,模板会逐帧更新以保持语义的一致性,为了定位(t+1)帧的人体关节点,RPSTN以第t帧JRPSP的输出作为模板,在新特征图f

步骤五:当前帧的关系建模:JRE模块负责对框架中各关节之间的关系进行建模,JRE以关节的初始热图为输入,通过学习关节之间的关系,联合地生成所有关节热图,然后利用批处理归一化层获取节点的精确位置,

步骤六:损失函数:采用一般的均方误差损失来训练提出的模型,损失函数定义为:

式中,M′

优选的,所述步骤一中,为了更好的建模关节点之间的关系并提取姿态特征,RPSTN采用姿态初始化器P来提取首帧中的初始姿态,并采用预训练的特征提取器F来提取T帧的姿态表观特征。

优选的,所述步骤二中,JRE模块是为了对姿态的结构信息进行建模并对关节进行定位,提出的一个轻量级的关节关系提取模块,JRE的输入M表示K个初始关节热图,大小为H'×W',H'和W'分别为热图的高度和宽度,应用一个标记为Conv

G=Reshape(Trans(Conv

经过Conv

优选的,所述步骤二中,经过上述方法可以得到关于关节关系的不同特征组合,在某种程度上,G的特征表示了整个人体姿态的结构信息,因此,G中包含的特征可以看作是人体姿态的全局特征。

优选的,所述JRE模块中,两个向量之间的相关性可以用点积表示,为了建模任意两关节点间的关系,每一个2D的特征图被展成向量的形式,M被展成大小为H'×W'×K的

其中W

优选的,所述JRE模块中,为了突出整个姿态中相关性高的重要关节,将关系权值W

姿态特征G中的重要区域在关节间关系的鼓励下被激活,也就是说,G中包含的结构信息是由关系权值W

Z=Conv

优选的,所述步骤二中,后续帧的建模主要包括三个方面,分别为历史姿态语义学习、姿态语义传播和全局匹配,当前帧的关系建模,此处采用第(t+1)帧来清晰地描述所提出的RPSTN的处理过程。

优选的,所述步骤三中,在经过Conv

优选的,所述步骤四中,在实践中,JRPSP负责从第t帧提取整个姿态由关节点间关系引导的语义特征,并将这些特征转移到第t+1帧,JRPSP将姿态语义特征

优选的,所述步骤四中,使用1×1×K卷积(其中K为关节数)聚合相邻两帧的位姿特征来粗略地定位关节,这样,模型就可以大致定位当前框架中节点的位置,

其中,

与现有技术相比,本发明提供了基于关系建模的人体姿态估计方法,具备以下有益效果:

1、本发明相比于已有方法,本文提出的RPSTN对遮挡问题具有一定的鲁棒性,一方面JRE模块可以通过学习到的姿态结构信息,即关节点之间的关系,在空间上推理被遮挡关节点的位置,另一方面,JRPSP模块可以将未遮挡帧中的姿态信息传递到被遮挡帧中以帮助定位姿态,且避免了在生成关节点热图的过程中,已有方法都是单个关节点逐点定位,而忽略了关节点之间的联系,人体是一个有机的整体,在运动过程中各个关节点是相互关联的,已有方法逐点定位的方式会破坏人体的结构信息的问题;

2、本发明通过一个关节点关系提取器(JRE)和一个关节点关系引导的姿态语义传播器(JRPSP),所提出的RPSTN利用空间上的关系建模和时间上的知识重用来联合地定位关节,提高了基于视频的人体姿势估计模型的性能,此外,在遮挡的情况下,这两个模块可以利用可见关节的信息来推断遮挡的关节;

3、本发明通过设置的JRE模块,提出的JRE模块可以通过建模任意两关节点间的关系,联合地生成所有关节点热图,从而能够建模人体姿态的结构特征,并且JRE模块可以根据姿态的结构信息推理出被遮挡关节的位置,从而提高模型对遮挡问题的鲁棒性;

4、本发明通过采用JRE模块,JRE模块采用初始化热图作为输入,并通过计算任意两初始关节点热图的相似性来建模任意两关节点的关系,通过这样的方式,姿态的结构性被保留下来并用于联合地定位所有关节点,与传统人体姿态估计方法不同,可以通过建模任意两关节点的空间关系联合地生成所有关节点热图;

5、本发明通过提出的RPSTN重复利用了历史姿态的语义特征来建模视频的时序信息,通过这种方式,视频的时序语义能一致性被有效地学习到。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供一种技术方案:基于关系建模的人体姿态估计方法,包括以下步骤:

步骤一:给定一段包含N帧的视频,即

RPSTN采用连续的T帧作为输入,给定由P生成的初始姿态,关节关系提取器(JRE)通过对关节之间的关系建模联合地生成所有关节点热图,然后将包含位姿结构信息的关节热图与位姿F生成的表观特征相结合,传递给关节关系引导的位姿语义传播器(JRPSP),从而获取姿态的高级语义特征,这些高级语义特征从当前帧传递到下一帧,以指导模型估计下一帧的姿态,考虑到视频的时间语义一致性,连续两帧之间的语义信息是相似的(即外观、场景信息基本不变,只有动作姿态发生微小变化),因此,使用全局匹配机制在当前帧中搜索与JRPSP提取的语义特征相似的区域;

步骤二:对于第一帧,使用预训练的姿态初始化器生成一系列热图表示的初始姿态,然后JRE模块以P生成的初始热图作为输入,学习任意两个初始关节热图之间的关系,初始热图由JRE模块进行微调,并通过批处理规范化层,将其转换为精确的热图,受JRE模块提取的关系信息的鼓励,RPSTN可以联合生成所有关节的热图,而不是单独检测每个关节,整个过程形式化如下:

M′

式中,M′

步骤三:历史姿态语义学习:由于视频的时间语义一致性,第t帧整个姿态的语义特征可以指导模型定位第(t+1)帧中的关节点,因此,应该考虑历史帧中有效的姿态语义特征,以帮助在后续框架中定位关节,姿态的语义特征不仅包括位姿的空间信息,还包括位姿的外观特征,沿通道维度将特征图f

其中,

步骤四:姿态语义传递和全局匹配:考虑到视频的时序语义一致性,上一帧的位姿知识可以在下一帧中重用,以帮助定位关节,为了对姿态的时间动态信息进行建模,采用全局匹配机制在当前帧中搜索与前一帧语义相似的区域,对于全局匹配,以前一帧姿态的语义特征为模板,以当前帧的特征为目标,然后将模板作为动态卷积核与目标进行卷积,模板会逐帧更新以保持语义的一致性,为了定位(t+1)帧的人体关节点,RPSTN以第t帧JRPSP的输出作为模板,在新特征图f

步骤五:当前帧的关系建模:JRE模块负责对框架中各关节之间的关系进行建模,JRE以关节的初始热图为输入,通过学习关节之间的关系,联合地生成所有关节热图,然后利用批处理归一化层获取节点的精确位置,

步骤六:损失函数:采用一般的均方误差损失来训练提出的模型,损失函数定义为:

式中,M′

本发明中,优选的,步骤一中,为了更好的建模关节点之间的关系并提取姿态特征,RPSTN采用姿态初始化器P来提取首帧中的初始姿态,并采用预训练的特征提取器F来提取T帧的姿态表观特征。

本发明中,优选的,步骤二中,JRE模块是为了对姿态的结构信息进行建模并对关节进行定位,提出的一个轻量级的关节关系提取模块,JRE的输入M表示K个初始关节热图,大小为H'×W',H'和W'分别为热图的高度和宽度,应用一个标记为Conv

G=Reshape(Trans(Conv

经过Conv

本发明中,优选的,步骤二中,经过上述方法可以得到关于关节关系的不同特征组合,在某种程度上,G的特征表示了整个人体姿态的结构信息,因此,G中包含的特征可以看作是人体姿态的全局特征。

本发明中,优选的,JRE模块中,两个向量之间的相关性可以用点积表示,为了建模任意两关节点间的关系,每一个2D的特征图被展成向量的形式,M被展成大小为H'×W'×K的

其中W

本发明中,优选的,JRE模块中,为了突出整个姿态中相关性高的重要关节,将关系权值W

姿态特征G中的重要区域在关节间关系的鼓励下被激活,也就是说,G中包含的结构信息是由关系权值W

Z=Conv

本发明中,优选的,步骤二中,后续帧的建模主要包括三个方面,分别为历史姿态语义学习、姿态语义传播和全局匹配,当前帧的关系建模,此处采用第(t+1)帧来清晰地描述所提出的RPSTN的处理过程。

本发明中,优选的,步骤三中,在经过Conv

本发明中,优选的,步骤四中,在实践中,JRPSP负责从第t帧提取整个姿态由关节点间关系引导的语义特征,并将这些特征转移到第t+1帧,JRPSP将姿态语义特征

本发明中,优选的,步骤四中,使用1×1×K卷积(其中K为关节数)聚合相邻两帧的位姿特征来粗略地定位关节,这样,模型就可以大致定位当前框架中节点的位置,

其中,

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术分类

06120113791834