掌桥专利:专业的专利平台
掌桥专利
首页

一种基于生成模型的新视角人手图像合成方法

文献发布时间:2024-04-18 19:59:31


一种基于生成模型的新视角人手图像合成方法

技术领域

本发明涉及计算机视觉领域,具体地,涉及一种基于生成模型的新视角人手图像合成方法。

背景技术

从单目图像中合成稠密的新视角图像对于降低数字人的重建成本至关重要,尤其是在基于NeRF的多视图重建任务中,对于合成逼真的新视角图像的需求尤为突出。现有的大多数视角合成方法都专注于对称或刚性对象的视角合成,这些方法应用在人体和人手等多关节对象上往往表现不佳。其中,由于人手具有难以区分的外观纹理,限制了从输入图像中所提取特征的表达能力。此外,人手比人体更加灵活,关节自由度也更高,这种高度复杂性不可避免地导致了人手的自遮挡,增加了合成图像中出现伪影或失真的风险。

一般来说,人手图像合成本质上是一项生成任务,而生成任务一般基于两种主流的方法实现:生成对抗网络和扩散模型。前者通过单次前向推理完成整个合成过程,虽然有着较快的采样特性,但这种单次推理的方式对于有着复杂关节的人手是不适用的。最近流行的扩散模型通过利用一系列的正向-反向过程合成图像,并遵循一种迭代去噪的方式。虽然扩散模型的可行性在人体图像合成任务中已经得到证实,但是当使用扩散模型合成图像,尤其是合成超分辨率的图像时,无论是计算成本还是时间成本都是昂贵的。因此,如何有效地结合生成对抗网络和扩散模型,从而在保证计算成本可接受的前提下合成逼真的人手新视角图像是该领域亟待解决的问题。

发明内容

发明所要解决的主要问题是通过一种新的方法从单视角输入图像中合成逼真的新视角人手图像,并能保证视角之间有着一致的人手结构和外观纹理。

为了解决上述技术问题,本发明提出一种基于生成模型的新视角人手图像合成方法,其技术方案包括如下步骤:

步骤1,准备成对的训练数据,所述成对的训练数据包括输入图像和目标图像;

步骤2,设计用于估计法线图的法线图估计网络,并利用步骤1中准备好的成对的训练数据,使用所设计的法线图估计网络,估计与目标图像对应的法线图,该法线图估计网络采用端到端的方式进行训练,并将作为法线图估计器,离线地应用于视角合成的全过程;

步骤3,预训练一个基于扩散模型的网络,用于合成低分辨率的新视角人手图像:将步骤2中估计得到的与目标图像对应的法线图作为条件,并根据给定的输入图像,使用扩散模型合成目标视角,为了保证视角合成的效率,该网络用于合成低分辨率图像;

步骤4,预训练一个基于生成对抗网络的超分辨率模块,使得该模块具备提升低分辨率图像的分辨率和质量的能力;

步骤5,联合训练扩散模型和生成对抗网络,并将生成对抗网络级联到扩散模型之后:通过联合训练上述两个不同的模块,使其能够应用于人手图像合成任务,具体来说,对于步骤3得到的低分辨率图像,将其送到步骤4所预训练的超分辨率模块中,从而提升所合成的低分辨率图像的分辨率和质量,并最终得到期望的目标图像。

进一步地,步骤1所述准备成对的训练数据,从开源的多视角人手数据集Interhand2.6M和Hand4K中整理并挑选出成对的数据,包括输入图像和目标图像。

进一步地,步骤2中所述的法线图估计网络,由一个编码器和解码器组成,用于估计与目标图像对应的法线图,对于编码器和解码器之间有着相同尺度的特征图,采用残差连接的方式进行拼接,编码器和解码器均由5个残差块组成,并在每层之后采用LeakyReLU作为激活函数,所设计的法线图估计网络,其输入输出都是低分辨率图像,即64×64,并通过下面的损失函数对训练过程进行监督:

其中,L

进一步地,步骤3中所采用的扩散模型,其生成过程包括加噪过程和去噪过程两部分,其中加噪过程是指将高斯噪声加到图像上,而去噪过程则是以迭代的方式逐渐地去噪,从而合成目标图像。

进一步地,步骤3的具体过程是,对于法线图估计网络所估计的与目标图像一致的法线图,将其作为生成过程的条件之一;并将高斯噪声加到目标图像上,得到噪声图;对于成对训练数据中的输入图像,通过一个特征编码器网络提取对应的特征信息,并作为生成过程中的另外一个条件;接下来,利用上述获得的两个条件,通过一个UNet结构的神经网络,迭代地从噪声图中不断去噪,从而合成低分辨率的新视角人手图像;该过程可通过下面的损失函数进行监督:

其中,

具体来说,对于从输入图像中提取到的特征信息,将其作用于UNet中分辨率为16和8的自注意力模块中,令UNet前一层的输出为F,输入图像经过特征编码器网络后所得到的特征信息为F

Q=Con(Nor(F)),K=Con(F

F

其中Q表示自注意力层中的查询值,K表示自注意力层中的键值,V表示自注意力层中的输入的特征值,F

进一步地,步骤4的具体方法是,设计了一个基于生成对抗网络的超分辨率模块,该模块由生成器和鉴别器组成,其中生成器由残差连接的卷积层组成,并分别将InstanceNorm2d和ReLU作为归一化函数和激活函数;鉴别器也由卷积层组成,但使用LeakyReLU作为激活函数,在鉴别器的最后一层,串联了一个Sigmoid层,来预测一个0~1之间的概率,用于鉴别所输入的图像是真实的、还是合成的;另外,所设计的超分辨率模块同样以预测的法线图为条件,一方面有利于纠正合成过程中不合理的图像,另一方面使得该模块能够通过预测的法线图与扩散模型级联在一起;所设计的生成对抗网络通过下面的损失函数进行监督:

其中,

除了上面的损失函数外,重建损失函数也被用来监督这一过程,也就是说生成器的合成结果还要与真值保持一致,即

与现有技术相比,本发明具有如下优点和有益效果:

1)将法线图作为合成过程中的条件,并将其应用于新视角人手图像合成任务。本发明所搭建的基于扩散模型的生成网络,能够在给定的条件下,合成逼真的新视角人手图像,不同视角间的人手在结构和外观纹理上能够保持一致性;

2)本发明设计了一个基于生成对抗网络的超分辨模块,以进一步提高扩散模型所合成图像的质量。该模块同样以法线图作为条件,从而级联地与扩散模型连接在一起,这不仅有助于提升合成图像的质量,也有利于节省计算开销和时间成本。

3)据我们所知,本发明所提出的一种基于生成模型的新视角人手图像合成方法是第一个面向人手图像合成的框架,并能够实现令人满意的合成效果。

附图说明

图1是本发明实施例中新视角人手图像合成方法的流程图。

图2是本发明实施例中所设计的法线图估计网络的结构图。

图3是本发明实施例中基于扩散模型的低分辨率图像合成网络的结构图。

图4是本发明实施例中基于生成对抗网络的超分辨率模块的结构图。

图5是本发明实施例中所搭建的最终的神经网络结构图。

图6是本发明实施例可以实现的新视角人手图像合成效果。

图7是本发明实施例可以实现的超分辨率人手图像合成效果。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明使用的方法及实现效果进行梳理,使使用者对本发明有更清晰的了解。值得注意的是,在不构成冲突的情况下,本发明实施例间的特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。

此外,附图中示出的流程图可以在计算机中以一系列连续的指令执行,并且在某些情况下可以对流程顺序进行适当修改。

实施例

图1为本发明实施例中提到的基于生成模型的新视角人手图像合成方法的流程图,下面参照图1详细说明各个步骤。

步骤1,准备成对的训练数据,所述成对的训练数据包括输入图像和目标图像。从开源的多视角人手数据集Interhand2.6M和Hand4K中整理并挑选出成对的数据,包括输入图像和目标图像。需要注意的是,对于Interhand2.6M数据集,其所拍摄的多视角图像部分为灰度图。为了保证视角之间的一致性,剔除这些灰度图,而只保留彩色图部分。对于Hand4K数据集,该数据集不仅包含单手图像,还含有少量的手物交互图像。为了验证本发明的生成能力和泛化能力,在准备成对训练数据时,保留了这些交互图像,并用于训练过程。

步骤2,设计用于估计法线图的法线图估计网络,并利用步骤1中准备好的成对训练数据进行训练,得到与目标视角一致的法线图。法线图估计网络的网络结构如图2所示,该法线图估计网络由一个编码器和解码器组成,并采用端到端的方式进行训练。构成法线图估计网络的编码器和解码器均由5个残差块组成,并在每层之后采用LeakyReLU作为激活函数,所设计的法线图估计网络,其输入输出都是低分辨率图像,即64×64。对于训练好的法线图估计网络,固定其网络权重,从而将其作为法线图估计器,离线地应用于视角合成的全过程。为了促进特征之间的融合,对于编码器和解码器之间有着相同尺度的特征图,采用残差连接的方式对特征图进行拼接,这对于训练更鲁棒的法线图估计网络是有积极作用的。对于法线图估计网络的训练,采用下面的损失函数进行监督:

其中,L

步骤3,预训练一个基于扩散模型的网络,用于合成低分辨率的新视角人手图像。对于步骤2中的法线图估计网络所估计的法线图,将其作为视角合成的条件之一,来促进合成图像中人手结构的一致性。为了保证视角之间人手外观纹理的一致性,输入图像也被作为额外的条件。对于成对的训练数据中的目标图像,将高斯噪声加到目标图像上,得到噪声图;对于成对训练数据中的输入图像,通过一个特征编码器网络提取对应的特征信息,并作为生成过程中的另外一个条件;接下来,拼接噪声图和估计的法线图,并送到一个UNet结构的神经网络中,迭代地从噪声图中不断去噪,从而合成低分辨率的新视角人手图像。在此过程中,所提取的特征信息被加到UNet结构指定的自注意力层上,从而保证合成图像和输入图像有着相同的纹理。在本发明中,所提取的特征信息作用于分辨率为16和8的自注意力模块中。扩散模型合成低分辨率人手图像的过程如图3所示,关于该模型的训练可通过下面的损失函数进行监督:

其中,

对于从输入图像中所提取的特征信息,令UNet前一层的输出为F,输入图像经过特征编码器网络后所得到的特征信息为F

Q=Con(Nor(F)),K=Con(F

F

其中Q表示自注意力层中的查询值,K表示自注意力层中的键值,V表示自注意力层中的输入的特征值,F

步骤4,预训练一个基于生成对抗网络的超分辨率模块,使得该模块具备提升低分辨率图像的分辨率和质量的能力。图4示出了生成对抗网络的结构组成,该模块由生成器和鉴别器组成,其中生成器由残差连接的卷积层组成,并分别将InstanceNorm2d和ReLU作为归一化函数和激活函数;鉴别器也由卷积层组成,但使用LeakyReLU作为激活函数。在鉴别器的最后一层,串联了一个Sigmoid层,来预测一个0~1之间的概率,用于鉴别所输入的图像是真实的、还是合成的;另外,所设计的超分辨率模块同样以预测的法线图作为条件,一方面有利于纠正合成过程中不合理的图像,另一方面使得该超分辨率模块能够通过预测的法线图与扩散模型级联在一起,一定程度上节省了计算开销和时间成本。所设计的生成对抗网络通过下面的损失函数进行监督:

其中,

除了上面的损失函数外,重建损失函数也被用来监督这一过程,也就是说生成器的合成结果还要与真值保持一致,即

步骤5,联合训练扩散模型和生成对抗网络,并将生成对抗网络级联到扩散模型之后。图5示出了最终搭建的网络结构图,可以看到,以步骤2预测的法线图作为条件,步骤3和步骤4所预训练的扩散模型和生成对抗网络被级联到一起,通过进一步联合训练这两个不同的模块,使步骤3得到的低分辨率图像,在经过超分辨率模块后,能够显著提升其分辨率和质量,并最终得到期望的目标图像。

本实施例所对应的实验结果如图6和图7所示。其中,图6展示了从输入的低分辨率图像(64×64)中合成新视角人手图像(256×256)的效果。图6第一行表示输入的单视角人手图像,第二行表示用于引导合成过程的法线图,第三行展示了本发明合成图像的效果,第四行表示目标视角的真值。图7展示了本发明在合成超分辨人手图像任务上的表现。图7的前两行展示了所合成的1024×1024的人手图像,第三行展示了所合成的512×512的人手图像,第四行展示了所合成的256×256的人手图像。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

相关技术
  • 光学滤波器、该光学滤波器的制造方法、采用了该光学滤波器的光学装置和该光学滤波器的收纳结构
  • 滤波器控制式导出方法、光测量系统、法布里-帕罗干涉滤波器的控制方法及滤波器控制程序
技术分类

06120116520534