掌桥专利:专业的专利平台
掌桥专利
首页

一种基于对抗式学习的三维人体姿态估计方法

文献发布时间:2024-04-18 19:59:31


一种基于对抗式学习的三维人体姿态估计方法

技术领域

本发明涉及单目图像人体姿态估计研究领域,更具体的说,涉及一种对抗式学习的单目图像的人体姿态估计方法。

背景技术

人体姿态估计(Human Pose Estimation,HPE)是计算机视觉领域中一项重要的基础性研究,也是目前热点研究课题之一。人体姿态估计任务是指对图片或视频中目标人物的姿态信息进行识别和提取,并转化为具体参数或模型,进而帮助计算机理解人类的姿态和行为。相关研究成果被广泛地应用于运动捕捉、智能安防、人机交互、自动驾驶、行为分析等诸多领域之中。

按照目标任务对姿态维度信息的需求,人体姿态估计划分为二维人体姿态估计和三维人体姿态估计。二维人体姿态估计是指对图像中人体关节点的平面坐标位置进行检测和提取,并通过连接关节点来建立骨架模型,从而与行为识别、运动计数、动作迁移等应用相结合。与二维人体姿态不同,三维人体姿态估计任务则需要对人体关节点的三维空间坐标进行预测,推断出关节的深度信息,相较于二维层面,三维姿态信息对于人体姿态的表述会更为精准和丰富,应用场景也更加广泛。因此,人们对三维人体姿态估计的研究提出了更高的需求和要求。

三维人体姿态估计能够从图像或视频中推理出人体关节点的深度信息,相关成果可进一步应用于行为识别、人机交互等领域,是诸多高级计算机视觉任务的基础工作,具有重要的研究价值。然而,该领域面临着许多挑战,尤其在以单目图像作为输入时,关节遮挡、深度信息缺失、数据集匮乏等问题,都会给姿态的准确预测带来阻碍。本发明基于主流的对抗式学习方法方法展开研究,主要针对现有单目图像三维人体姿态估计网络存在的不足进行优化,使网络能够更充分地挖掘和利用人体姿态信息,实现更准确的姿态估计。

发明内容

针对部分对抗式学习方法在二维姿态到三维姿态的回归过程中,缺乏对姿态的数据分布进行关注的问题,本文基于两阶段方法3DPoseBaseline,设计了一种适用于有监督三维人体姿态估计的对抗式学习框架,通过引入对抗式训练来学习人体姿态的数据分布关系。使用语义图卷积层SemGConv构建了框架中的三维姿态生成器,同时设计了带有降维功能的判别器,引入降维损失,对生成姿态进行约束。

本发明解决其技术问题所采用的技术方案是:基于对抗式学习的单目图像三维人体姿态估计研究,所述方法包括以下步骤:

S10,使用语义图卷积运算层SemGConv设计三维姿态生成器,将输入的二维人体姿态提升为三维人体姿态。

S20,设计一个带有降维功能的判别器网络。

S30,设计网络的对抗损失函数,引入降维损失和对抗损失两个新的监督信息。

进一步的,所述建立三维人体姿态估计模型具体步骤如下:

S101,建立生成器模型,三维姿态生成器采用与基础网络一致的跳跃连接方式构成残差模块,并将基础网络中的线性层用语义图卷积运算层SemGConv替代。在每个残差模块中包含两个相同的基本模块,基本模块则由一个128通道的SemGConv层、一个批量归一化层(BatchNorm)、一个激活函数(ReLU)层组成。为了加深网络,残差模块在整个网络中一共重复4次。网络的开始,输入为包含n个关节点的二维姿态坐标(n×2),先通过一个128通道的基本图卷积模块将输入映射到潜在特征空间,接着经过四个残差模块对关节信息进行充分汇聚,最后通过3通道的SemGConv层,将特征投影回需要输出的维度(n×3),以此实现最终对三维姿态的预测。网络采用跳跃连接,加深网络的同时避免深度网络退化问题,网络的输入与输出保持一致,均为姿态坐标。

S102,人体不同关节有着各自的特征,关节与关节之间也存在着一定联系,通过如上图所示方式将骨架转换为图结构数据,并利用图卷积运算来对姿态信息进行学习,相比于普通卷积和线性层运算而言,不仅关注了两个姿态维度坐标之间的对应,同时还对人体骨架结构蕴含的信息更具针对性地进行了挖掘。三维姿态生成器中的图卷积运算层SemGConv的定义:Z

S201,建立降维判别器模型,降维判别器的输入为生成和真实的三维姿态坐标,输出为二维坐标和用于衡量生成姿态与真实姿态相似程度的判别输出validity,validity将用于计算对抗损失。降维判别器的结构沿用了基础网络的设计,基本模块由一个包含1024个神经元的线性层、一个ReLU激活函数层和一个Dropout层构成,采用跳跃连接的方式加深网络,通过两个基本模块构成虚线框中的残差模块,而残差模块在网络结构中一共重复两次。网络最后是一个(2n+1)维的线性层,其作用是输出降维后的二维姿态(n×2)和判别输出,二维姿态包含在(2n)维大小的数据中,而另一维则是判别输出,用于计算对抗损失。

S301,生成对抗网络损失函数设计,在训练过程中,三维姿态生成器与降维判别器采用交替训练策略,因此,根据对抗式学习框架下损失函数的设定,将对应的损失分配到框架中的三维姿态生成器和降维判别器,则在以WGAN-GP作为基础生成对抗网络时,三维姿态生成器的损失函数组成如下式所示:

三维姿态生成器的总体损失由传统三维关节误差损失L

其中,G(Y

S302同理,将对应的损失函数分配给降维判别器后得到如下的降维判别器损失表达式:

降维判别器的总体损失由二维关节误差L

其中,D(Y

对于整体框架中的三维姿态生成器而言,其目标是将输出的“虚假”生成三维姿态尽量贴合真实三维人体姿态的分布,体现在三维姿态生成器的损失函数中即为最小化

通过对抗式网络框架的搭建,在二维姿态到三维姿态这个回归的过程中加入对抗损失和降维损失,为网络添加了新的约束。

本发明的有益效果是:本方案通过对抗式学习框架对单目图像人体姿态进行估计,有效的提升了网络模型的性能,在Human3.6M数据集上的预测误差降低了约12.2%,并且拥有更少的参数量。

附图说明

图1为本发明的一种单目图像人体姿态估计的对抗式学习框架总体结构图。

图2为3DPoseBaseline网络结构图。

图3为三维姿态生成器结构图。

图4为降维判别器结构。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。另外,专利中涉及到的所有联接/连接关系,并非单指构件直接相接,而是指可根据具体实施情况,通过添加或减少联接辅件,来组成更优的联接结构。本发明创造中的各个技术特征,在不互相矛盾冲突的前提下可以交互组合。

S10,参照图3所示,使用语义图卷积运算层SemGConv设计三维姿态生成器,将输入的二维人体姿态提升为三维人体姿态。

S101,建立生成器模型,三维姿态生成器采用与基础网络一致的跳跃连接方式构成残差模块,并将基础网络中的线性层用语义图卷积运算层SemGConv替代。在每个残差模块中包含两个相同的基本模块,基本模块则由一个128通道的SemGConv层、一个批量归一化层(BatchNorm)、一个激活函数(ReLU)层组成。为了加深网络,残差模块在整个网络中一共重复4次。网络的开始,输入为包含n个关节点的二维姿态坐标(n×2),先通过一个128通道的基本图卷积模块将输入映射到潜在特征空间,接着经过四个残差模块对关节信息进行充分汇聚,最后通过3通道的SemGConv层,将特征投影回需要输出的维度(n×3),以此实现最终对三维姿态的预测。网络采用跳跃连接,加深网络的同时避免深度网络退化问题,网络的输入与输出保持一致,均为姿态坐标。

S102,人体不同关节有着各自的特征,关节与关节之间也存在着一定联系,通过将骨架转换为图结构数据,并利用图卷积运算来对姿态信息进行学习,相比于普通卷积和线性层运算而言,不仅关注了两个姿态维度坐标之间的对应,同时还对人体骨架结构蕴含的信息更具针对性地进行了挖掘。三维姿态生成器中的图卷积运算层SemGConv的定义:Z

S20,如图4所示,设计一个带有降维功能的判别器网络,与三维姿态生成器网络共同构成对抗式学习框架。

S201,建立降维判别器模型,降维判别器的输入为生成和真实的三维姿态坐标,输出为二维坐标和用于衡量生成姿态与真实姿态相似程度的判别输出validity,validity将用于计算对抗损失。降维判别器的结构沿用了基础网络的设计,基本模块由一个包含1024个神经元的线性层、一个ReLU激活函数层和一个Dropout层构成,采用跳跃连接的方式加深网络,通过两个基本模块构成虚线框中的残差模块,而残差模块在网络结构中一共重复两次。如图4所示,网络最后是一个(2n+1)维的线性层,其作用是输出降维后的二维姿态(n×2)和判别输出,二维姿态包含在(2n)维大小的数据中,而另一维则是判别输出,用于计算对抗损失。

S30,设计网络的对抗损失函数,为训练过程引入降维损失和对抗损失两个新的监督信息。

S301,生成对抗网络损失函数设计,在训练过程中,三维姿态生成器与降维判别器采用交替训练策略,因此,根据对抗式学习框架下损失函数的设定,将对应的损失分配到框架中的三维姿态生成器和降维判别器,三维姿态生成器的损失函数组成如下式所示:

三维姿态生成器的总体损失由传统三维关节误差损失L

其中,G(Y

S302同理,将对应的损失函数分配给降维判别器后得到如下的降维判别器损失表达式:

降维判别器的总体损失由二维关节误差L

其中,D(Y

对于整体框架中的三维姿态生成器而言,其目标是将输出的“虚假”生成三维姿态尽量贴合真实三维人体姿态的分布,体现在三维姿态生成器的损失函数中即为最小化

通过对抗式网络框架的搭建,在二维姿态到三维姿态这个回归的过程中加入对抗损失和降维损失,为网络添加了新的约束。

本发明的有益效果是:本方案通过对抗式学习框架对单目图像人体姿态进行估计,有效的提升了网络模型的性能,在Human3.6M数据集上的预测误差降低了约12.2%,并且拥有更少的参数量。

以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

相关技术
  • 钴镍双金属氢氧化物纳米片/氮化碳包覆氮掺杂中空石墨烯球复合材料及其制备方法和应用
  • 一种氢氧化铟包覆立方铜双金属材料及其制备和应用
  • 铜铁层状双金属氢氧化物、铜铁层状双金属氢氧化物/碳基复合材料及其制备方法和应用
技术分类

06120116524414