导航：首页> 道路、铁路或桥梁的建筑>一种人体模板动态表达方法、装置、设备及介质

一种人体模板动态表达方法、装置、设备及介质

文献发布时间：2024-04-18 19:58:26

技术领域

本发明属于模式识别、图像处理、计算机图形学、三维模型重建、数字人技术领域，具体涉及一种人体模板动态表达方法、装置、设备及介质。

背景技术

人体模板动态表达是数字人发展和多模态技术的重要基础之一，其旨在构建针对动态三维人体数据的表达方式，为高效实现数字人驱动、渲染、多模态控制等奠定特征化表达基础。

人体模板是三维人体驱动研究中的关键。现有基于高斯核的隐式神经模板的局部形状函数表达法应用于人体模板的重建；也有基于神经辐射场的动态数据的建模，但是这些算法无法进行动态人体模板特征化的表达，没有对于人体动作的数据行理解，因此也不便于后续的多模态驱动研究。除此之外，现有研究多数只能通过驱动骨架从而间接驱动人体，而不是驱动人体本身，目前缺乏切实可行的解决方案。

发明内容

为了克服现有技术存在的问题，本发明提供一种人体模板动态表达方法、装置、设备及介质，用于克服目前存在的缺陷。

一种人体模板动态表达方法，包括以下步骤：

S1.将连续的人体模板动作序列处理得到符号距离场；

S2.将符号距离场的每个坐标、每个坐标的符号距离数值及时间进行处理得到五维的数据矩阵，将所述数据矩阵视作K组数据，K大于等于1；

S3.计算并初始化数据矩阵中的K组数据的均值、协方差矩阵及权重；

S4.采用K组初始化后的均值、协方差矩阵以及权重来重建动态符号距离场；

S5.将符号距离场的每个坐标及时间进行分向投影，得到多个二维平面，并通过这些二维平面进行网络学习得到关于K组数据的最佳均值、协方差矩阵以及权重参数；

S6.重复上述步骤S4-S5得到最终K个组的最优均值、协方差矩阵以及权重参数，对所述参数进行处理，得到最终的重建动态符号距离场；

S7.对最终的重建动态符号距离场进行再次重建，从而得到动态的人体模板的三维网格。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述数据矩阵的行数符号距离场的三维空间分辨率n

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述步骤S1具体包括：所述人体模板序列为三维人体动作网格模型，包括人体头部和四肢，利用深度符号距离场算法提取每一帧人体模板的三维符号距离场信息。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述深度符号距离场算法具体为：对于每一帧人体模板序列，把其置于256×256×256的人体模板的网格空间场景内，并计算网格空间每一个点与每一人体模板表面之间的符号距离数值，将每一个符号距离数值集合起来，与每一帧人体模板序列中的每一点在人体模板的网格空间中的三维坐标及该序列对应的时间共同组成符号距离场信息。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S4基于构建的门函数、条件均值函数和重建的符号距离场函数，并采用K组初始化后的均值、协方差矩阵以及权重来得到重建的动态符号距离场。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述门函数的表达式如下：门函数

，

其中，

其中

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述条件均值函数的求取公式为：

其中，

本发明还提供了一种人体模板动态表达装置，所述装置用于实现所述的方法，所述装置包括：

提取模块，用于将连续的人体模板动作序列处理得到符号距离场；

构建模块，用于将符号距离场的每个坐标、每个坐标的符号距离数值及时间进行处理得到五维的数据矩阵，将所述数据矩阵视作K组数据，K大于等于1；

计算初始化模块，用于计算并初始化K组数据的均值、协方差矩阵及权重；

第一重建模块，用于采用K组初始化后的均值、协方差矩阵以及权重来重建动态符号距离场；

投影模块，用于将符号距离场的每个坐标及时间进行分向投影，得到多个二维平面，并通过这些二维平面进行网络学习得到关于K组数据的最佳均值、协方差矩阵以及权重参数;

第二重建模块，用于重复处理得到最终K个组的最优均值、协方差矩阵以及权重处理参数，对所述处理参数进行处理，得到最终的重建动态符号距离场；

第三重建模块，用于对最终的重建动态符号距离场进行再次重建，从而得到动态的人体模板的三维网格。

本发明还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现所述的方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述所述的方法。

本发明的有益效果

与现有技术相比，本发明有如下有益效果：

（1）本发明采用五维二次核相关统计量进行人体模板的动态联合建模，有效利用五维二次核模型的理论特性，使得多维度的人体动态数据在时间和空间上建立关联。

（2）本发明采用五维二次核模型的均值向量、协方差矩阵及权重等参数作为表达基础，能够有效学习三维人体模板动作序列的动态局部特征，使人体动作的理解有着时空归纳泛化性。

（3）本发明采用动态多平面的分解进行参数优化，可以解决高维数据的迭代计算困难，使数据分解性优化。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

为了更好的理解本发明的技术方案，本发明内容包括但不限于下文中的具体实施方式，相似的技术和方法都应该视为本发明保护的范畴之内。为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

应当明确，本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明提供的一种人体模板动态表达方法，包括以下步骤：

步骤S1、输入连续的人体模板动作序列，该序列为三维人体动作网格模型，包含人体头部和四肢，利用深度符号距离场算法提取每一帧人体模板的三维符号距离场信息，深度符号距离场算法具体为：由于人体模板的网格是封闭的，所以人体模板序列需逐帧处理。对于每一帧人体模板序列，把其置于256×256×256的人体模板的网格空间场景内，并计算每一个网格空间点与每一人体模板表面之间的符号距离数值，将每一个符号距离数值集合起来，与每一帧人体模板序列中的每一点在人体模板的网格空间中的三维坐标及该序列对应的时间共同组成原始符号距离场，其用于后续的二次核建模。

步骤S2、将符号距离场信息中每一个点的三维坐标处的x方向、y方向、z方向、每一帧人体模板序列对应的时间坐标,一起记为(x,y,z,t)，其中，时间帧t也用于表示每一帧人体模板动作序列的序号，每一帧都有一个符号距离场，且每一个坐标（x,y,z,t）处的符号距离数值为w，并将每一个（x,y,z,t）和对应的w排列成数据矩阵。即数据矩阵中的每一个（x,y,z,t,w)为五维二次核模型建模的五维变量，由于人体模板序列的获得是动态进行的，因此，本步骤也是动态的。

步骤S3、随机初始化：将数据矩阵划分为K组数据，计算每一组数据的均值

步骤S4、采用K组初始化后的均值、协方差矩阵以及权重来重建动态符号距离场，本发明采用五维二次核模型重建三维动态人体模板，其重建方法是基于该五维数据（x,y,z,t,w)形成的数据矩阵，采用本发明构建的门函数和条件均值函数，并将门函数和条件均值函数二者求得的值再次相乘可获得重建的符号距离场，其中门函数和条件均值函数的计算过程需要K个组初始化后的均值、协方差矩阵以及权重；然后对重建的动态符号距离场与S1中的原始符号距离场求取均方误差，该均方误差即为网络的损失函数L。

步骤S5、将原始符号距离场的每一个(x,y,z,t)分向投影，得到二维平面，即对动态五维数据进行多平面分解，最终投影到多个二维平面以便降维优化，随后进行二维卷积以及通过多层感知机，并通过这些二维平面进行网络学习得到关于K组数据的最佳均值、协方差矩阵以及权重参数。

步骤S6、重复上述步骤S4-S5，迭代更新获得所有二维平面，获得最终优化的参数

步骤S7、对S6中获得的重建的动态符号距离场中的每帧符号距离场都使用行进立方体方法进行再次重建，从而得到动态的人体模板的三维网格，该行进立方体方法为常用的计算方法，此处不再具体说明。

本发明的方法直接驱动人体本身，开始时人体模板动作序列为网格形式，经过本发明的相应步骤处理，得到相应的符号距离场，将重建的符号距离场再次进行重建，重新得到动态的网格形式的人体模板，将初始的网格形式转化成符号距离场，得到有规则的位置坐标，之后用二次核模型建模和表达，最终表达结果还原成网格，从而便于观测和对比，便于后续的多模态驱动研究。

进一步地，上述步骤S2中的数据矩阵的行数为符号距离场的三维空间分辨率n

进一步地，上述S4中的基于五维二次核模型重建三维动态人体模板是一种基于多个五维二次核模型的人体模板动态表达方法，将三维人体模板的符号距离场和时间维度进行联合表达，参数包括均值向量、协方差矩阵、权重。该表达的重建结果基于门函数和条件均值的乘积计算得来，而门函数和条件均值又直接由均值、协方差矩阵以及权重计算得到，所以模型的参数决定了人体动态变化的局部特征。

进一步地，所述步骤S4重建动态符号距离场具体包括以下步骤：

步骤S41、构建五维二次核门函数

（1），

其中

（2）

步骤S42、构建条件均值函数，求取公式为：

（3）

其中，

步骤S43、构建重建符号距离场，求取公式为：

（4），

其中

进一步地，所述步骤S5动态多平面优化具体包括以下步骤：

步骤S51、平面分解：将四维坐标(x, y, z, t)分向投影，最终简化为(y, z)，(x,y)，(y, t)，(x, z)，(z, t)，(x, t)六个二维平面以便于加速计算，为了求得最优化的均值、协方差矩阵以及权重，且避免多余多的数据影响计算，做此平面分解，分别优化；具体地，上述步骤S51包括以下子步骤：

步骤S51-1、首先分解为动态三平面：第一个三平面包含(y, z)，(y, t)，(x, t)；第二个三平面包含(y, t)，(x, y)，(x, t)；第三个三平面包含(z, t)，(x, t)，(x, z)。

步骤S51-2、再简化为六个二平面分解：(y, z)，(x, y)，(y, t)，(x, z)，(z, t)，(x, t)。

步骤S52、二维卷积：采用二维卷积神经网路的卷积层通过滑动尺寸3×3的卷积核在S51中输入的二维平面上分别进行卷积操作，得到输出的卷积结果。

步骤S53、多层感知机学习：将二维卷积S52中的结果通过多层感知机，并通过这些二维平面进行网络学习得到关于K组数据的最佳均值、协方差矩阵以及权重参数。

进一步地，上述人体模板动态表达方法，其中的均方误差是所有帧的原始符号距离场和重建符号距离场在相同位置上数值的差平方均值，本发明可以针对动态人体模板利用五维二次核模型进行建模，步骤S2可以体现它是动态的。

本发明是人体驱动研究的基础，其利用均值向量、协方差矩阵以及权重直接表达人体，可不需要使用骨架间接驱动，可通过驱动参数实现，是一种具有泛化性的表达，S4体现了其是基于这些参数进行表达和重建的。

作为公开的实施例，本发明还提供了一种人体模板动态表达装置，所述装置用于实现所述的方法，所述装置包括：

提取模块，用于将连续的人体模板动作序列处理得到符号距离场；

构建模块，用于将符号距离场的每个坐标、每个坐标的符号距离数值及时间进行处理得到五维的数据矩阵；

计算初始化模块，用于计算并初始化数据矩阵中的K组数据的均值、协方差矩阵及权重；

第一重建模块，用于采用K组初始化后的均值、协方差矩阵以及权重来重建动态符号距离场；

投影模块，用于将符号距离场的每个坐标及时间进行分向投影，得到多个二维平面，并通过这些二维平面进行网络学习得到K组数据的最佳均值、协方差矩阵以及权重参数；

第二重建模块，用于重复处理得到最终K个组的最优均值、协方差矩阵以及权重处理参数，对所述处理参数进行处理，得到最终的重建动态符号距离场；

第三重建模块，用于对最终的重建动态符号距离场进行再次重建，从而得到动态的人体模板的三维网格。

作为公开的实施例，本发明还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现本发明所述的方法。

作为公开的实施例，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现本发明所述的方法。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求书的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：杭州新畅元科技有限公司;

上一篇：一种香菇自动化采摘方法及装置
下一篇：一种保护水中桥墩被撞的装置及其制作方法