导航：首页> 造纸；纤维素的生产>一种基于双神经辐射场的穿衣人体运动捕捉和生成方法

一种基于双神经辐射场的穿衣人体运动捕捉和生成方法

文献发布时间：2023-06-19 19:27:02

技术领域

本发明属于三维重建领域，涉及一种基于双神经辐射场的穿衣人体运动捕捉和生成方法。

背景技术

穿衣服人体的动作捕捉(Clothed human performance capture and synthesis)在计算机视觉和图形学领域是一个重要的问题，不仅需要捕捉内部人体的动作，也要恢复外部衣服运动，这一工作可以用于很多有前景的应用，如虚拟试穿、视频编辑以及远程呈现等。基于人体的多视角或单目视频，三维人体运动捕捉和生成的目标是重建几何和外观时空一致的动态人体三维模型序列，并从新的视角渲染逼真的人体运动视频。人体存在随机的运动并且伴随着衣服的非刚性运动，而且光照变化、自阴影等因素会导致时序外观的变化。因此，三维人体运动捕捉和生成是一个具有很大挑战性的问题。

先前的系统使用深度传感器或者将个性化的人体适应到观察帧图像来重建穿衣服的人体，只能恢复一体式的几何，其人体和衣服是一个整体，这些系统不能单独追踪衣服和编辑三维人体的衣服，而这是很多VR/AR应用如虚拟试穿的先决条件。相反的，因为这些方法需要从深度扫描中提取衣服和追踪，如果三维信息缺失，此应用将受限。现有的从彩色图像衣服估计方法需要人对着相机并且保持静态姿势；当人体处于运动中并且衣服在变形时，这些方法将不能真实地恢复三维衣服。最近的方法尝试从视频中模拟追踪人体和衣服的运动，但是此类方法需要为每一个表演者重建衣服模板，或者运行效率极低，因为需要在线模拟衣服或者需要算力耗费巨大的优化，这些使这些方法不能发展成广泛使用的日常应用。

神经辐射场(Neural radiance fields，简称NeRF)是一种对三维静态场景连续、隐式的表达方式，其灵活地表示了三维场景的几何和外观，实现了逼真的新视角二维图像合成。近两年NeRF被成功推广到动态场景的图像合成，通过定义一个变形场，变形场通常表示为刚体变形场或位移向量场，将观察帧空间的三维点变换到标准空间，联合优化标准空间NeRF和变形场，实现动态场景NeRF。在不使用运动先验的情况下，同时优化标准空间下的NeRF和变形场是一个欠约束问题，这些方法不适用于运动人体。最近，NerfCap和HumanNeRF分别采用SMPL模型和基于骨架驱动的变形表达动态人体，有效约束了人体变形场的学习，生成了高质量的新视角动态人体视频，但是他们使用一个单独的NeRF表示人体，而没有对衣服建模，因此衣服的运动不能被提取，这限制了其在虚拟显示、增强现实等下游任务上的应用。

发明内容

本发明的目的在于提出一种基于双神经辐射场的穿衣人体运动捕捉和生成方法，该方法通过对运动中的人体和衣服分别重建，不仅能实现三维人体的运动捕捉和外观恢复，还能实现新视角图像合成以及衣服编辑。

本发明为了实现上述目的，采用如下技术方案：

一种基于双神经辐射场的穿衣人体运动捕捉和生成方法，包括如下步骤：

步骤1. 建立三维人体的标准模板空间，包括使用预先建立的三维人体模板网格和衣服模板网格训练的占据网络和带符号距离场，用于表示人体和衣服的几何模型；以及分别用于表示人体和衣服外观的双神经辐射场；

步骤2. 对输入视频的每一帧图像建立变形场，使用骨架驱动的变形以及非刚性变形对人体和衣服变形，同时使用预训练的物理感知模拟网络预测生成逼真的衣服模板网格监督衣服的变形，将标准模板空间中的三维人体模板网格和衣服模板网格变形到观察帧空间；

步骤3. 在观察帧空间取采样点，将采样点的坐标通过逆变形场变换到标准模板空间下对应点的坐标，然后根据转换后的采样点坐标所在位置是衣服还是人体，将该转换后的采样点坐标输入到标准模板空间中的对应神经辐射场查询颜色，渲染获得人体合成图像；

步骤4. 通过多种约束联合优化标准模板空间中的几何模型和双神经辐射场以及变形场，实现三维人体的运动捕捉以及动态人体的外观和恢复；

步骤5. 利用训练好的标准模板空间中的几何模型和双神经辐射场以及变形场，选定新的相机视角进行图像合成，通过更改衣服的几何与颜色模板实现人体变装。

本发明具有如下优点：

如上所述，本发明述及了一种双神经辐射场的穿衣人体运动捕捉和生成方法，该方法通过对运动中的人体和衣服分别重建，不仅能实现三维人体的运动捕捉和外观恢复，还能实现新视角图像合成以及衣服编辑。本发明方法重建的几何精度高、能合成任意视角的逼真图像，且人体与衣服相分离，能够实现对人体的衣服编辑操作，应用场景广泛。

附图说明

图1为本发明实施例中基于双神经辐射场的穿衣人体运动捕捉和生成方法的流程框图。

图2为本发明实施例中基于双神经辐射场的穿衣人体运动捕捉和生成方法的流程示意图。

图3为本发明使用单目相机视频恢复的人体几何模型和新视角生成示意图。

图4为本发明提出的方法的结果和其他方法的比较示意图。

图5为本发明衣服与人体分别渲染的结果与其他方法的比较示意图。

图6为本发明人体换衣结果的示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，一种基于双神经辐射场的穿衣人体运动捕捉和生成方法，包括如下步骤：

步骤1. 建立三维人体的标准模板空间，包括：

使用预先建立的三维人体模板网格和衣服模板网格训练的占据网络和带符号距离场，用于表示人体和衣服的几何模型；以及分别用于表示人体和衣服外观的双神经辐射场。

其中，双神经辐射场（NeRF）在后续步骤中逐渐优化。

标准模板空间包括几何模型和颜色模型，且人体和衣服的表示相独立；人体和衣服的几何模型使用占据网络和带符号距离场表示。

标准模板空间的几何模型在时序变化的人体图像合成时保持不变。

人体和衣服的颜色模型使用双神经辐射场表示；在定义标准模板空间的颜色模型时，为人体和衣服分别定义一组隐式外观编码，对应了输入视频的每一帧图像。

在模板空间神经辐射场的颜色模型中融入隐式外观编码，表达并恢复时序变化的外观。

标准模板空间的几何模型在准备阶段使用人体和衣服网格预先训练好，使用占据网络和带符号距离场表示，标准模板空间的占据网络模型由函数Fo定义：o(x)= Fo(γ

其中，o(x)∈{0, 1}表示占据网络模型输出的在x坐标处的空间是否被占据；x为采样点坐标，γ

为了处理变化的衣服和人体形状，本发明还使用带符号距离场(Signed DistanceField,SDF)表示人体和衣服的几何，使用多层感知机神经网络S表示。

带符号距离场将三维空间坐标映射到带符号的距离s，即S：p∈R

S表示带符号距离场模型，p表示三维点坐标；s为带符号的距离，表示三维点与最近物体表面的距离，符号代表所处位置是物体的内外，在内即为负，在外即为正。

使用如下公式对带符号距离场做约束L

。

其中，

占据场网络

。

其中，

标准模板空间的颜色模型使用神经辐射场表示，对输入视频的每一帧图像定义一个隐式外观编码，则颜色模型由函数F

其中，c

使用两个占据网络，两个颜色网络分别表示人体和衣服的几何和颜色。

具体为：利用一个占据网络

其中，

、/>

步骤2. 对输入视频的每一帧图像建立变形场，使用骨架驱动的变形以及非刚性变形对人体和衣服变形，为保证衣服变形的准确性，使用预训练的物理感知模拟网络预测生成逼真的衣服模板网格监督衣服的变形，将标准模板空间中的三维人体模板网格和衣服模板网格变形到观察帧空间。该步骤2具体为：

步骤2.1. 非刚性变形。

首先通过嵌入变形对非刚性变形建模，该嵌入变形基于变形图计算一个弯曲场；一个嵌入变形图G包含K个节点，并且在三维人体模板网格中能够被自动建立。

节点变换由欧拉角A∈R

对于三维人体模板网格的每个顶点v，经过非刚性变形后的新坐标y由下述公式得到：

y=∑

其中，N(v)表示影响到顶点v的邻域顶点集合，k∈N(v)；g

非刚性形变中的欧拉角A和平移向量T都使用一个多层感知机模型训练获得，同时多层感知机还反向传播优化一个隐式变形编码w。

对于第i帧非刚性变形的欧拉角A

步骤2.2. 估计骨架驱动的变形。

首先对输入视频的每一帧图像估计一个SMPL模型，并从估计的SMPL模型中计算蒙皮权重w(y)

人体的参数SMPL模型使用85维向量表示Θ=(θ,β)。其中，β∈R

基于非刚性变形获得的三维人体模板网格，进一步应用线性蒙皮变形来进行变形，对于三维人体模板网格的每个顶点y，其变形后的观察帧空间的顶点

=[∑

步骤2.3. 使用预训练的物理感知模拟网络监督衣服的变形。

使用物理感知模拟网络学习衣服跟随人体动作所产生的变形，物理感知模拟网络由一个多层感知机模型D

对于每种衣服类别，使用25种衣服风格以及8种材质，将Marvelous Designer软件模拟出的衣服形状作为多层感知机模型D

其中，G

步骤3. 在观察帧空间取采样点，将采样点的坐标通过逆变形场变换到标准模板空间下对应点的坐标，然后根据转换后的采样点坐标所在位置是衣服还是人体，将转换后的采样点坐标输入到标准模板空间中的对应神经辐射场（ReNF）查询颜色，渲染获得人体合成图像。

该步骤3具体为：

为了获得在输入视频第i帧图像的动态神经辐射场，即人体在不同时刻的颜色和几何，首先使用x

其中，T

根据相机位置和拍摄视角，由相机向观察帧空间发射多条射线，每条射线r对应最终人体合成图像上的一个像素，然后在每条射线上采样。

一条射线上的采样点表示为：r(t) = o + td。

其中，o∈R

将观察帧空间中的采样点坐标经过逆变形场变换到标准模板空间对应的坐标，然后将坐标输入标准模板空间中分别保存衣服和人体的模型查询几何与颜色。

对于来自像素p的射线r，找到这条射线r与衣服或人体网格相交的三角面。

如果相交的三角面来自三维人体模板网格，则将这条射线r上的所有采样点的掩码

同理，如果相交的三角面来自衣服模板网格，则将这条射线r上的所有采样点的掩码

分别使用以下公式来渲染完整的人体和衣服：

；

其中，n为光线r上的采样点个数，

、/>

观察帧空间中的采样点逆变形过程为：

对于观察帧空间的一个采样点x，首先搜索与该采样点x距离最近的SMPL模型的顶点v，然后使用逆线性蒙皮变换采样点x的坐标，具体公式如下：

=[∑

其中，

步骤4. 通过多种约束联合优化标准模板空间中的几何模型和双神经辐射场以及变形场，实现三维人体的运动捕捉以及动态人体的外观和恢复。

将观察帧空间下的采样点坐标通过逆变形转换到标准模板空间下的采样点坐标后，将变换后的采样点坐标输入标准模板空间神经辐射场查询该点的颜色和密度。

使用多种约束联合训练标准模板空间中的几何模型和神经辐射场以及变形场。具体为：

用于监督衣服和人体颜色的损失函数L

。

其中，R为投射的光线集合，N

使用物理感知模拟网络约束变形的损失，即用于监督衣服变形的损失函数L

。

其中，t为网格G的顶点，|G|表示网格G的顶点数。

ρ表示Geman-McClure鲁棒性损失函数，

用于加强变形表面的局部光滑性的尽可能刚性的损失函数L

。

其中，g

其中，A

。

其中，

此处，M,G表示函数Liou的自变量，只笼统表示人体和衣服网格，不具体指哪个网格。

在变形后的网格和模拟的网格上都使用mask损失L

。

其中，

。

其中，A为衣服模板网格上与三维人体模板网格相接触的顶点集合，|A|为顶点集合A中的顶点个数，

用于防止衣服模板网格和三维人体模板网格相交叉的损失L

。

其中，C表示网格M

。

其中，

综上，总体损失函数L为：L=λ

具体为：选定新的相机位置和相机视角，由相机向观察帧空间发射射线并在射线上取采样点，并通过逆变形场变换到标准模板空间的对应点的坐标。

将经过变换后的对应点的坐标，根据射线触碰到的标准模板空间中的网格是人体还是衣服，输入不同的NeRF查询密度和颜色，即可合成三维人体的新视角逼真图像。

分别对两个个体训练两个基于双神经辐射场隐式表示，将其中一个个体的衣服的几何与颜色模型替换为另一个个体的，即可实现人体的变装。

通过以上步骤，使得本发明方法能够同时灵活地对人体的几何和外观建模，因此，重建的几何精度更高，且能合成任意视角的逼真图像，具有更广泛的应用场景。

由于本发明方法能够能准确地恢复时序变化地人体几何和外观，因而能够从多视角或单目视频中准确地捕捉三维人体运动，并生成逼真的任意视角人体运动视频。

同时，由于本发明方法能够将人体和衣服分开建模，因此能够实现人体的变装。

图3中给出了本发明方法效果的3组例子，每组例子给出了4个视角，每个视角从左向右分别是真值图像、经过本发明方法恢复的三维人体几何图像以及三维人体合成图像。

图4给出了本发明方法的结果和其他方法的比较，总共两组对比数据。每组数据从左到右为：真值、DeepCap、NerfCap、ICON、BCNet、TailorNet和本发明方法。

在每一个例子中，均展示了通过以上几种方法重建的几何的两个视角图像。

由图4中各幅图对比发现：与本发明方法相比，传统方法在恢复人体的衣服，特别是宽松的裙子时准确度不高，其中DeepCap、NerfCap和ICON不能将人体和衣服分开。

而本发明方法重建的人体表面则能够很好地将人体和衣服分开，对于穿一般衣服（包括宽松衣服）的人体也能重建较大的运动和几何细节，因而，本发明方法具有很强的人体运动表达能力，并且由于本发明方法对于衣服和人体分开建模，能够实现人体的变装。

图5给出了衣服和人体分开渲染的结果和其他方法的对比，在图5中从左到右依次为真值，本发明方法渲染的单独衣服、单独人体和整个人体，Dynamic view synthesisfrom dynamic monocular video方法渲染的单独衣服、单独人体和整个人体。

由图5中两组图对比不难发现：

本发明方法在分离衣服和人体时表现更好，人体上残留的衣服细节更少。

图6为人体换装之后的几何渲染结果的两个例子，每个例子给出了三个不同视角不同姿势的图像。其中，两个人体的衣服相互交换了。

由图6能够看出，本发明方法能够实现人体的变装，且几何精度高。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王康侃;丛素旭;李绍园;
专利申请人：南京理工大学;

上一篇：一种封边条原纸及其制备方法
下一篇：基于复习网络的内窥镜影像报告生成方法及存储介质