掌桥专利:专业的专利平台
掌桥专利
首页

基于统一掩模的3D姿态检测器优化方法、装置及存储介质

文献发布时间:2024-04-18 20:02:40


基于统一掩模的3D姿态检测器优化方法、装置及存储介质

技术领域

本发明涉及3D姿态识别领域,尤其是涉及一种基于统一掩模的3D姿态检测器优化方法、装置及存储介质。

背景技术

精确的人体三维姿态估计在包括人机交互在内的众多领域中发挥着举足轻重的作用。如人机交互、机器人学、运动表现分析、人体重建以及增强/虚拟现实等领域。与二维姿态估计相比,它需要更多的标注数据,并施加了更强的几何约束。因此,获取三维数据提出了比二维数据更多的挑战。

一些现有技术设计了一种弱监督的三维姿态估计方法,利用无配对的二维姿态信息和三维刚体变化提供的几何约束提供监督信号。首先,该方法需要利用检测器得到预测的二维关键点。方法将根据人体骨架连接关系,选取指定的关键点连接成为线段,并合并作为二维骨架图。二维关键点将利用转换网络得到三维关键点。该方法的监督信号来源于三维关键点在投影至二维后和无配对的二维姿态相近,另一方面需要三维关键点在通过转换网络-刚性变换-投影-转换网络-逆刚性变换的流程后,与原始三维关键点重合。

也有一些现有技术设计了一种无监督的三维姿态估计方法,利用背景相同的两张图像提供监督信号。具体而言,一张图像通过深度网络提供纹理信息,另一张图像利用检测器得到二维姿态。此后,二维姿态将在人体姿态运动学先验的约束下被升维,并重新投影回二维,计算仿射变换后的椭圆作为人体骨架图和包含人体关键点的高斯热力图。最后,纹理信息将和人体姿态信息一同用于重建图像,重建损失作为监督信号。此外,从大量动作捕捉数据集中训练得到的SMPL(蒙皮多人线性模型)先验同样作为约束被纳入考虑。

在第一种现有技术中,使用了弱监督信息,即无配对的二维姿态作为人体骨架的先验,而二维姿态仍然需要人工标注。在第二种现有技术中使用了仿射变换的椭圆作为人体骨架,而实际骨架形态并非为椭圆,将导致姿态估计精度的损失。此外,该方法实践较为繁琐。此外,以上两种现有技术中都存在无法判断人体左右,仍需要有监督后处理的步骤的问题。

但获取标注的三维数据仍然是一个成本高昂、耗时耗力的过程。

发明内容

本发明的目的就是为了提供一种基于统一掩模的3D姿态检测器优化方法、装置及存储介质,基于得到的骨架特征图和体型特征图,与统一掩膜求差,再配合各像素点的权重,可以在实现无需人工标注数据的基础上,保障经由优化后的3D姿态检测器具有比较准确的3D姿态估计。

本发明的目的可以通过以下技术方案来实现:

一种基于统一掩模的3D姿态检测器优化方法,包括:

步骤S1:获取3D姿态检测器基于三维特征图生成的人体关键点坐标;

步骤S2:基于得到的人体关键点坐标,与预配置的人体骨架进行配准,得到所有骨骼的轴线段,其中,所述骨骼的轴线段的两端分别对应于两个人体关键点;

步骤S3:计算三维特征图中的所有点到各骨骼的距离,并将基于得到的距离生成所有骨骼的骨骼特征图,其中,点到骨骼的距离具体为点到骨骼的轴线段所在直线的距离;

步骤S4:将所有骨骼的骨骼特征图合成为骨架特征图;

步骤S5:基于骨架特征图,生成体型特征图;

步骤S6:获取预存储的统一掩膜的掩膜重心,获取骨架特征图前景区域中各像素点至掩膜重心的距离作为该像素点的骨架权重,以及获取体型特征图前景区域中各像素点至掩膜重心的距离作为该像素点的体型权重,

获取骨架特征图背景区域中各像素点至前景区域的最近距离作为该像素点的骨架权重,以及获取体型特征图背景区域中各像素点至前景区域的最近距离作为该像素点的体型权重;

步骤S7:基于骨架特征图及其所有像素点的骨架权重,以及体型特征图及其所有像素点的体型权重,结合统一掩膜中各像素点的像素值,计算得到像素点偏差作为损失函数值;

步骤S8:基于得到的损失函数值优化3D姿态检测器。

所述步骤S3中对于单个骨骼的骨骼特征图,其生成过程包括:

计算三维特征图中的所有点到该骨骼的欧式距离;

基于各点到骨骼的欧式距离生成对应像素点的像素值;

基于各点的像素值得到该骨骼的骨骼特征图。

所述骨架特征图和骨骼特征图均为二维图像,所述步骤S3中对于单个骨骼的骨骼特征图,其生成过程包括:

将三维特征图投影至二维平面得到二维特征图,并获得各骨骼的轴线段在二维平面内的投影作为投影线段;

计算二维特征图中的所有点到骨骼的欧式距离,其中,点到骨骼的距离具体为点到骨骼的投影线段所在直线的距离;

基于各点到骨骼的欧式距离生成对应像素点的像素值;

基于各像素点的像素值得到该骨骼的骨骼特征图。

所述步骤S5中通过U-Net网络处理得到体型特征图,其中,所述骨架特征图作为U-Net网络的输入。

所述人体骨架中,相互连接的两根骨骼的轴线段共用一个人体关键点。

所述步骤S4具体包括:

配准所有骨骼的骨骼特征图;

将所有骨骼特征图中同一像素点的像素值求和作为初步骨架特征图中对应像素点的像素值;

将初步骨架特征图中所有像素点的像素值进行归一化得到最终的骨架特征图。

所述体型特征图中的所有像素点的像素值的取值范围为0-1。

所述像素点偏差的数学表达式为:

其中:L为像素点偏差,w_Skel为骨架偏差系数,取常数,w_Physo为体型偏差系数,取常数,L_Skel

一种基于统一掩模的3D姿态检测器优化装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述的方法。

一种存储介质,其上存储有程序,所述程序被执行时实现如上述的方法。

与现有技术相比,本发明具有以下有益效果:

1、基于得到的骨架特征图和体型特征图,与统一掩膜求差,再配合各像素点的权重,可以在实现无需人工标注数据的基础上,保障经由优化后的3D姿态检测器具有比较准确的3D姿态估计。

2、通过投影的方式,得到二维的骨架特征图,从而可以利用比较成熟的U-Net网络处理得到体型特征图。

3、骨架特征图和体型特征图的像素值都进行了归一化,可以便于设置偏差系数,提高计算机处理的性能。

4、设计了特有的像素点偏差,从而提高了3D姿态估计的准确性。

附图说明

图1为本发明方法的主要步骤流程示意图;

图2为基于本本发明实施例中的方案优化后的3D姿态检测器的3D姿态估计结果示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

一种基于统一掩模的3D姿态检测器优化方法,如图1所示,包括:

步骤S1:获取3D姿态检测器基于三维特征图生成的人体关键点坐标;

3D姿态检测器的输入为三维特征图,输出为人体关键点坐标,如表1所示,在本实施例中,人体关键点坐标共设置有18个,

表1

当然在其他实施例中,也可以采用其他不同的关键点方案。

步骤S2:基于得到的人体关键点坐标,与预配置的人体骨架进行配准,得到所有骨骼的轴线段,其中,骨骼的轴线段的两端分别对应于两个人体关键点,一般的,人体骨架中,相互连接的两根骨骼的轴线段共用一个人体关键点。

不同的人体骨架对应于不同的关键点方案,在一些实施例中,所有相邻的骨骼都会被设置为连接关系,而在本实施例中,仅部分有效连接的骨骼被设置为具有连接关系,基于本实施例中配置的连接关系,各骨骼的轴线段的端点表示如表2所示

表2

在表2中,以骨骼1和骨骼2为例,骨骼1和骨骼2具有连接关系,两者的轴线段共用右臀这一人体关键点,也就是人体关键点2,骨骼2和骨骼3同样具有连接关系,两者的轴线段共用右膝这一人体关键点,也就是人体关键点3,其他的同理,采用本实施例中的人体骨架图的设计方案,能够以简明的方式表达人体骨架特征,从而在骨架特征图中高效地表征人体结构信息。

当然在其他实施例中,也可以采用其他现有的设计,例如以下文献所提供的方案:He,Xingzhe,Bastian Wandt,and Helge Rhodin."Autolink:Self-supervised learningof human skeletons and object outlines by linking keypoints."Advances inNeural Information Processing Systems 35(2022):36123-36141.

步骤S3:计算三维特征图中的所有点到各骨骼的距离,并将基于得到的距离生成所有骨骼的骨骼特征图,其中,点到骨骼的距离具体为点到骨骼的轴线段所在直线的距离;

在一部分实施例中,可以采用三维的计算方式,即步骤S3中对于单个骨骼的骨骼特征图,其生成过程包括:

计算三维特征图中的所有点到该骨骼的欧式距离;

基于各点到骨骼的欧式距离生成对应像素点的像素值;

基于各点的像素值得到该骨骼的骨骼特征图。

但是,在本实施例中,骨架特征图和骨骼特征图均为二维图像,步骤S3中对于单个骨骼的骨骼特征图,其生成过程包括:

将三维特征图投影至二维平面得到二维特征图,并获得各骨骼的轴线段在二维平面内的投影作为投影线段;

计算二维特征图中的所有点到骨骼的欧式距离,其中,点到骨骼的距离具体为点到骨骼的投影线段所在直线的距离;

基于各点到骨骼的欧式距离生成对应像素点的像素值,在本实施例中,像素值具体为exp(-d^2/sigma^2),d为点到骨骼的距离,sigma为控制骨架宽度的超参数,在本实施例中选取3e-3;

基于各像素点的像素值得到该骨骼的骨骼特征图。

如此,可以得到二维的骨架特征图,从而可以利用比较成熟的U-Net网络处理得到体型特征图。

步骤S4:将所有骨骼的骨骼特征图合成为骨架特征图,在本实施例中,具体包括:

配准所有骨骼的骨骼特征图,所有的骨骼特征图都具有相同的尺寸,因此其同一位置的像素点具有对应关系;

将所有骨骼特征图中同一像素点的像素值求和作为初步骨架特征图中对应像素点的像素值;

将初步骨架特征图中所有像素点的像素值进行归一化得到最终的骨架特征图。

步骤S5:基于骨架特征图,生成体型特征图,在本实施例中,通过U-Net网络处理得到体型特征图,其中,骨架特征图作为U-Net网络的输入。

在本实施例中,基于骨架特征图是经过归一化处理的,因此同理,体型特征图中的所有像素点的像素值的取值范围为0-1,也进行了归一化处理,也就是需要对U-Net网络处理得到体型特征图进行归一化处理。

此外,在其他实施例中也可以采用其他方案,例如针对三维的骨架特征图,可以对U-Net网络进行改进调整,或者开发其他的机器学习网络来适应于三维图像的转换,但是这种方案明显需要比较大的算力和训练数据,不利于推广。

步骤S6:获取预存储的统一掩膜的掩膜重心,获取骨架特征图前景区域中各像素点至掩膜重心的距离作为该像素点的骨架权重,以及获取体型特征图前景区域中各像素点至掩膜重心的距离作为该像素点的体型权重,获取骨架特征图背景区域中各像素点至前景区域的最近距离作为该像素点的骨架权重,以及获取体型特征图背景区域中各像素点至前景区域的最近距离作为该像素点的体型权重;其中的统一掩膜为人体掩膜,掩膜的尺寸与骨架特征图和体型特征图的尺寸一致,每个像素点的值为0或1,该掩膜可以通过一些现有手段获得,因此不再赘述;

具体的,由于运动变化的增加,距离人体运动树(kinematic tree)根部更远的关键点将更难被检测器预测。同时,为了平滑的优化,错误地落在背景的检测点也需要赋予不同的惩罚权重。为此在本申请中,设计了基于测地距离的权重,以增强骨架特征图和体型特征图的表征。因此,对前景区域,我们将掩膜重心作为测地距离的零点,计算该区域内的测地距离作为权重;对背景区域,所有掩膜部分均被设置为测地距离的零点,同样计算该区域内的测地距离作为权重。

步骤S7:基于骨架特征图及其所有像素点的骨架权重,以及体型特征图及其所有像素点的体型权重,结合统一掩膜中各像素点的像素值,计算得到像素点偏差作为损失函数值,具体的,在本实施例中,像素点偏差的数学表达式为:

其中:L为像素点偏差,w_Skel为骨架偏差系数,取常数,w_Physo为体型偏差系数,取常数,L_Skel

如此,以粗略到精细的方式,利用骨架特征图和体型特征图高效地对人体形态进行建模,从而为检测器获取准确的监督信号,提供合理的优化路径。此外,为特征图空间赋予不同权重,能够有效平滑优化平面,进一步提升检测器的优化过程,并为其提供检测困难样本的可能。

当然在其他实施例中,也可以采用其他的损失函数的设置,但是可能收敛速度和优化效果都不如本实施例。

步骤S8:基于得到的损失函数值优化3D姿态检测器,由于此过程属于现有技术,例如,在本实施例中,上述方法可以被应用于深度学习开源工具PyTorch以实现3D姿态检测器的优化。神经网络训练过程采用级联优化实现。在第一阶段,我们仅利用骨架特征图为3D姿态检测器提供监督,且优化除手臂的人体躯干部分。当优化过程趋近收敛时,我们引入体型特征图提供监督,在第二个阶段进行联合优化。最后阶段,我们将优化所有人体关键点,继续训练直至检测结果达到最优。在测试过程中,我们仅需要利用训练好的3D姿态检测器进行推理,后续特征模块将不再使用。

如表3和表4所示,采用本实施例的方案在广泛使用的Human3.6M和MPI-INF-3DHP数据集上,取得了无监督方法中最优的性能。

表3

表3中,MPJPE表示平均点坐标误差,单位为毫米,值越低表明结果越好。

其中的现有技术1采用的是以下文献中的方案:Jose Sosa and DavidHogg.Self-supervised 3d human pose estimation from a single image.InProceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,pages 4787–4796,2023.

现有技术2采用的是以下文献中的方案:Jogendra Nath Kundu,Siddharth Seth,MV Rahul,Mugalodi Rakesh,Venkatesh Babu Radhakrishnan,and AnirbanChakraborty.Kinematic-structure-preserved representation for unsupervised 3dhuman pose estimation.In Proceedings of the AAAI Conference on ArtificialIntelligence,pages 11312–11319,2020.

表4

表4中,MPJPE表示平均点坐标误差,单位为厘米,值越低表明结果越好,PCK表示关键点正确百分比,AUC表示曲线下面积指标

可视化结果如图2所示,可以看出检测的二维和三维关键点位置准确,一致性高,通过横向和纵向比较子图,可以发现我们能够解决大多数基于掩模的无监督方法存在的左右反转问题。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

相关技术
  • 一种人脸检测器的测试方法、装置、设备以及存储介质
  • 一种三维姿态估计方法、装置、设备和计算机存储介质
  • 移动终端的握持姿态检测方法、装置、设备及存储介质
  • 姿态确定方法、装置和计算机可读存储介质
  • 姿态确定方法、装置和计算机可读存储介质
  • 基于3D人体的姿态识别方法、装置、设备及存储介质
  • 基于3D地图的球机位置与姿态参数校准方法、存储介质
技术分类

06120116586259