掌桥专利:专业的专利平台
掌桥专利
首页

基于深度卷积网络的无配对动作迁移方法

文献发布时间:2023-06-19 09:23:00


基于深度卷积网络的无配对动作迁移方法

技术领域

本发明涉及计算机图形学、动画动作制作技术领域,具体涉及一种基于深度卷积网络的无配对动作迁移方法。

背景技术

在计算机图形学领域,动画中的动作通常是由骨骼驱动的;骨骼动作一般由静态部分,即静止状态下骨骼的姿势,以及动态部分,即各个关节在不同时间点的旋转组成。动作迁移指给定源骨骼和目标骨骼的静止姿势,通过修改输入源骨骼对应的旋转,使得源骨骼能展现与目标骨骼同样的动作。现有的技术在进行具有不同拓扑结构的骨骼间动作迁移时,需要人工介入,例如指定源骨骼和目标骨骼的匹配关系,即需要给出配对示例。

在处理骨骼拓扑结构相同的情况,Villegas等使用了循环神经网络来进行同拓扑结构骨骼的动作迁移(Villegas,R.,Yang,J.,Ceylan,D.,&Lee,H..Neural kinematicnetworks for unsupervised motion retargetting.InProceedings of the IEEEConference on Computer Vision and Pattern Recognition.pp.8639-8648(2018))。该方法通过构建循环神经网络,在Mixamo数据集上进行训练。在进行动作迁移时,将训练好的网络权重输入,并将源骨骼和动作以及目标骨骼作为输入放入网络,运用前向传播算法得到结果。但是,运用该方法在解决较长的动作片段时会出现误差积累,导致输出的结果随着时间增长出现越来越大的误差。此外,该方法仅能被应用于同一拓扑结构的骨骼,若源骨骼和目标骨骼为不同拓扑结构的骨骼,则无法采用该方法进行动作迁移。

发明内容

有鉴于此,本发明提供了一种基于深度卷积网络的无配对动作迁移方法,能够适用于不同拓扑结构骨骼间的动作迁移,可用于无配对示例的骨骼动作迁移。

本发明的基于深度卷积神经网络的无配对动作迁移方法,采用自动编码器进行动作迁移;所述自动编码器包括编码器和解码器;所述编码器和解码器为对称的深度卷积神经网络;所述编码器对带动作的源骨骼进行卷积和池化,压缩至最小骨骼;所述解码器对解码器输出的最小骨骼按照同胚的目标骨骼进行反卷积和反池化,完成动作的迁移。

较优的,对骨骼关节进行卷积时,对关节及其相邻的骨骼形成的张量进行一维卷积;对于骨骼的池化,从骨骼的叶节点开始,两两合并骨骼链上的骨骼;在合并时,保留所有与超过两个骨骼相邻的骨骼。

较优的,所述步骤1中,合并池化采用最大值池化或平均值池化。

有益效果:

本发明引入了同胚骨骼的概念,利用深度卷积神经网络将源骨骼和目标骨骼压缩成同一最小骨骼,进而实现了无需人工介入的不同骨骼拓扑结构间的动作迁移。使用了卷积神经网络,执行效率更高、对长时间的动作也能得到稳定的结果。

在计算中切实考虑了骨骼的特殊结构,提出了专用于骨骼的卷积算子和池化算子:由于使用了骨骼卷积,类似普通卷积在图片中取得的效果,基于良好的局部性,本发明的骨骼卷积得到了类似的进步;由于使用了骨骼池化算子,本方法能在考虑局部信息及拓扑结构的情况下将不同的骨骼规约到同一“最小骨骼”,因此能实现在不同的自动编解码器中共享隐空间,从而实现了已有技术不能做到的不同拓扑结构骨骼之间的动作迁移。显著提高了深度学习在动作处理方面的各种基准表现。

附图说明

图1为本发明方法流程图。

图2为骨骼级动作在神经网络中的表示示意图。

图3为骨骼卷积及池化示意图。

图4为同胚骨骼经过池化达到最小骨骼的示意图。

图5为神经网络结构示意图。

图6为神经网络测试时示意图。

图7为动作迁移结果示意图。

具体实施方式

下面结合附图并举实施例,对本发明进行详细描述。

本发明提供了一种基于深度卷积神经网络的无配对动作迁移方法。

本发明提出了“同胚骨骼”的概念。同胚是数学中的图论用语,指两个图如果能通过删除和增加度为2的节点变换能达到同一拓扑结构。本发明将这一概念借用到骨骼中,形象的说,同胚的骨骼就意味着两个骨骼拥有相同数量的末关节点,以人的骨骼为例:两条腿、两只手、一个头共5个末关节点。那么,同胚的不同拓扑骨骼,可以通过池化得到相同的“最小骨骼”,“最小骨骼”即可作为源骨骼和目标骨骼动作编解码器的共享隐空间,实现将源骨骼的动作迁移到目标骨骼中,从而实现了已有技术不能做到的不同拓扑结构骨骼之间的动作迁移。本发明方法的流程图如图1所示。

图2介绍了本发明对骨骼级动作在神经网络中的表示示意图。本发明将骨骼分为静态和动态两部分。其中静态部分描述了骨骼在这个过程中不随时间变化的部分,即骨骼在静息状态下的位置偏移。动态部分描述了随时间变化的部分,即骨骼在每一帧下的旋转。

本发明基于深度卷积神经网络搭建了自动编码器,所述自动编码器包括编码器和解码器两部分,编码器和解码器为对称的深度卷积神经网络。其中,编码器深度卷积神经网络将带动作的源骨骼通过一系列的卷积和池化,压缩成带动作的最小骨骼;解码器对带动作的最小骨骼按着目标骨骼进行一系列的反卷积和反池化,将源骨骼的动作迁移到目标骨骼上。

为了使用卷积算子搭建神经网络,常见的做法是使用卷积+激活函数+池化算子的基本块进行堆叠,从而达到深度神经网络的结构。

本发明的深度卷积神经网络主要由输入层、卷积层、激活函数、池化层和输出层组成;

其中,编码器的深度卷积神经网络:

输入层是带动作的源骨骼拓扑;

输出层为带动作的最小骨骼;

激活函数为LeakyReLU;

该神经网络编码器应用在Mixamo数据集骨骼的具体结构:

1.骨骼卷积(卷积核长度=15,步长=2,输入通道数=4,输出通道数=8)

2.LeakyReLU激活函数

3.骨骼池化(输入骨骼数=28,输出骨骼数=18)

4.骨骼卷积(卷积核长度=15,步长=2,输入通道数=8,输出通道数=16)

5.LeakyReLU激活函数

6.骨骼池化(输入骨骼数=18,输出骨骼数=7)

该神经网络解码器应用在Mixamo数据集骨骼的具体结构:

1.骨骼反池化(输入骨骼数=7,输出骨骼数=18)

2.时间轴线性上采样(倍率=2)

3.骨骼卷积(卷积核长度=15,步长=1,输入通道数=16,输出通道数=8)

4.LeakyReLU激活函数

5.骨骼反池化(输入骨骼数=18,输出骨骼数=28)

6.时间轴线性上采样(倍率=2)

7.骨骼卷积(卷积核长度=15,步长=1,输入通道数=8,输出通道数=4)

进一步的,本发明根据骨骼结构,对卷积层和池化层的算子进行改进。图3展示了卷积和池化在骨骼上的工作原理。对于一个关节的卷积,本发明提取出其相邻(注意,这里的例子是距离为1的相邻骨骼,这里的距离可以是变化的)的骨骼的相关信息,得到张量,然后在该张量上执行普通的一维卷积。在执行骨骼池化时,采取类似的方法,从骨骼对应的叶节点开始,两两合并骨骼链上的骨骼。在合并时,保留所有与超过两个骨骼相邻的骨骼。这里的合并可以使用最大值池化、平均值池化等众多常用的池化方法。

通过神经网络一系列的卷积池化,源骨骼的动作被压缩为最小骨骼上的动作;由于源骨骼和目标骨骼属同胚骨骼,即均可被压缩为同样的最小骨骼,如图4所示。因此,在经过对称的深度卷积神经网络可以将最小骨骼上的动作按着目标骨骼的特点反向卷积和池化,进而实现动作的迁移。

因此,解码器的对称的深度卷积神经网络:

输入层是编码器输出的带动作的最小骨骼,以及目标骨骼拓扑

输出层为动作迁移后的目标骨骼。

本发明的自动编码器深度卷积神经网络模型结构如图5所示。

图6给出了本发明进行动作迁移的架构。该架构使用了两对自动编码器,自编码器A的编码器将源骨骼A压缩到公共隐空间,得到隐变量(带动作的最小骨骼),再由自编码器B的解码器将该隐变量解码为骨骼B上的动作,完成动作迁移。

图7给出了一个例子。其中最左边的角色是源骨骼,右边两个角色是通过本发明的骨骼动画迁移的结果。

综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于深度卷积网络的无配对动作迁移方法
  • 基于深度加权全卷积网络的室内场景迁移分割方法
技术分类

06120112147878