掌桥专利:专业的专利平台
掌桥专利
首页

一种图像生成方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 11:06:50


一种图像生成方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域,尤其涉及一种图像生成方法、装置、电子设备和存储介质。

背景技术

头发生成技术属于三维头部重建技术,是虚拟人技术中的重要部分。头部和脸部特征是虚拟人最重要的特征。其中头发是人脸的外部特征,头发重建在虚拟人技术中必不可少,是计算机图像学界的一个研究热点。

举个例子,头发生成技术可以是指对于输入的原始图的任意头发颜色,都能基于要求生成统一目标颜色的技术。然而,现有技术中,虽然最终生成的头发颜色和目标颜色是可以很相近的,但是头发的细节部分是很难满足要求的。

基于上述的问题,本发明提出一种图像生成技术,在保证生成的对象(比如说头发)在颜色满足要求的情况下,其他细节也可以满足要求。

发明内容

本公开提供一种图像生成方法、装置、电子设备和存储介质,以至少解决相关技术中生成的图像中由于部分细节不能满足要求导致的图像真实感差,粗糙等问题。本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种图像生成方法,包括:

获取原始图像和参考图像;上述原始图像和上述参考图像包含有风格不同的目标对象;

获取上述参考图像的低频信息;

获取上述原始图像的高频信息;

将上述低频信息和上述高频信息输入图像生成模型,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到合成图像。

在一个可选的实施例中,上述获取上述参考图像的低频信息包括:

对上述参考图像进行高斯模糊处理,得到上述参考图像的低频信息。

在一个可选的实施例中,上述获取上述原始图像的高频信息包括:

对上述原始图像进行高斯模糊处理,得到上述原始图像的低频信息;

根据上述原始图像和上述原始图像的低频信息的差值,确定上述原始图像的高频信息。

在一个可选的实施例中,将上述低频信息和上述高频信息输入图像生成模型,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到合成图像包括:

将上述低频信息输入上述图像生成模型中的特征提取网络进行特征提取,得到第一特征信息;

将上述第一特征信息和上述高频信息输入图像生成模型中的生成器,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到合成图像。

在一个可选的实施例中,上述生成器包括编码器和解码器;

上述将上述第一特征信息和上述高频信息输入图像生成模型中的生成器,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到合成图像包括:

利用上述编码器对上述高频信息进行特征提取,得到第二特征信息;

利用上述解码器根据上述第一特征信息和上述第二特征信息进行图像合成,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到上述合成图像。

在一个可选的实施例中,

上述第一特征信息包括颜色特征信息:

上述第二特征信息包括纹理特征信息和/或光照特征信息。

在一个可选的实施例中,上述图像生成模型的训练方法包括:

获取样本原始图像和样本参考图像;上述样本原始图像和上述样本参考图像包含有风格不同的样本目标对象;

获取上述样本参考图像的低频信息,以及上述样本原始图像的高频信息;

将上述样本参考图像的低频信息和上述样本原始图像的高频信息输入神经网络,得到样本合成图像;

将上述样本原始图像和上述样本合成图像输入上述神经网络的判别器,得到验证结果信息;

利用上述验证结果信息训练上述神经网络,得到训练好的图像生成模型。

在一个可选的实施例中,上述利用上述验证结果信息训练上述神经网络,得到训练好的上述图像生成模型包括:

确定上述样本原始图像和上述样本合成图像的真假标签信息;

基于上述验证结果信息和上述真假标签信息确定损失值;

根据上述损失值训练上述神经网络,得到训练好的图像生成模型。

在一个可选的实施例中,上述基于上述验证结果信息和上述真假标签信息确定损失值包括:

基于第一损失函数确定上述验证结果信息和上述真假标签信息之间的第一损失值;

基于频域上的第二损失函数确定上述验证结果信息和上述真假标签信息之间的第二损失值;

将上述第一损失值和上述第二损失值的和确定为上述损失值。

根据本公开实施例的第二方面,提供一种图像生成装置,包括:

图像获取模块,被配置为执行获取原始图像和参考图像;上述原始图像和上述参考图像包含有风格不同的目标对象;

低频信息获取模块,被配置为执行获取上述参考图像的低频信息;

高频信息获取模块,被配置为执行获取上述原始图像的高频信息;

合成模块,被配置为执行将上述低频信息和上述高频信息输入图像生成模型,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到合成图像。

在一个可选的实施例中,上述低频信息获取模块,被配置为执行:

对上述参考图像进行高斯模糊处理,得到上述参考图像的低频信息。

在一个可选的实施例中,上述高频信息获取模块,被配置为执行:

对上述原始图像进行高斯模糊处理,得到上述原始图像的低频信息;

根据上述原始图像和上述原始图像的低频信息的差值,确定上述原始图像的高频信息。

在一个可选的实施例中,上述合成模块包括:

特征提取子模块,被配置为执行将上述低频信息输入上述图像生成模型中的特征提取网络进行特征提取,得到第一特征信息;

图像合成子模块,被配置为执行将上述第一特征信息和上述高频信息输入图像生成模型中的生成器,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到合成图像。

在一个可选的实施例中,上述生成器包括编码器和解码器;

上述图像合成子模块,被配置为执行:

利用上述编码器对上述高频信息进行特征提取,得到第二特征信息;

利用上述解码器根据上述第一特征信息和上述第二特征信息进行图像合成,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到上述合成图像。

在一个可选的实施例中,

上述第一特征信息包括颜色特征信息:

上述第二特征信息包括纹理特征信息和/或光照特征信息。

在一个可选的实施例中,上述图像生成装置还包括:

样本获取模块,被配置为执行获取样本原始图像和样本参考图像;上述样本原始图像和上述样本参考图像包含有风格不同的样本目标对象;

信息获取模块,被配置为执行获取上述样本参考图像的低频信息,以及上述样本原始图像的高频信息;

样本合成模块,被配置为执行将上述样本参考图像的低频信息和上述样本原始图像的高频信息输入神经网络,得到样本合成图像;

结果输出模块,被配置为执行将上述样本原始图像和上述样本合成图像输入上述神经网络的判别器,得到验证结果信息;

训练模块,被配置为执行利用上述验证结果信息训练上述神经网络,得到训练好的上述图像生成模型。

在一个可选的实施例中,上述训练模块包括:

标签确定模块,被配置为执行确定上述样本原始图像和上述样本合成图像的真假标签信息;

损失确定模块,被配置为执行基于上述验证结果信息和上述真假标签信息确定损失值;

模型获取模块,被配置为执行根据上述损失值训练上述神经网络,得到训练好的图像生成模型。

在一个可选的实施例中,上述损失确定模块包括:

第一损失确定模块,被配置为执行基于第一损失函数确定上述验证结果信息和上述真假标签信息之间的第一损失值;

第二损失确定模块,被配置为执行基于频域上的第二损失函数确定上述验证结果信息和上述真假标签信息之间的第二损失值;

总损失确定模块,被配置为执行将上述第一损失值和上述第二损失值的和确定为上述损失值。

根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现如上述第一方面中任一项的方法。

根据本公开实施例的第四方面,提供一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例的第一方面中任一方法。

根据本公开实施例的第五方面,提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例的第一方面中任一方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

获取原始图像和参考图像,原始图像和参考图像包含有风格不同的目标对象,获取参考图像的低频信息,获取原始图像的高频信息,将低频信息和高频信息输入图像生成模型,以使参考图像中目标对象的风格迁移至原始图像的目标对象上,得到合成图像。这种方式下,可以提前对参考图像和原始图像的有针对性地进行高低频信息的处理,将不同的特征信息进行解耦,分别从不同的图像上得到想要的信息,基于此,可以合成满足要求的真实感强的图像。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图;

图2是根据一示例性实施例示出的一种图像生成方法的流程图;

图3是根据一示例性实施例示出的一种图像生成模型结构图;

图4是根据一示例性实施例示出的一种图像生成模型结构图;

图5是根据一示例性实施例示出的一种合成图像的生成方法的流程图;

图6是根据一示例性实施例示出的一种第一特征提取网络的框图;

图7是根据一示例性实施例示出的一种图像生成模型的训练过程的流程图;

图8是根据一示例性实施例示出的一种神经网络结构图;

图9是根据一示例性实施例示出的一种图像生成模型的训练过程的流程图;

图10是根据一示例性实施例示出的一种图像生成装置的框图;

图11是根据一示例性实施例示出的一种用于图像生成的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中,原始图像可以基于参考图像在RGB空间中提取参考图像的对象颜色信息,然而,对象的纹理、光照和颜色信息在RGB空间是没有办法明确分离开的,因此无法完成头发染色的基础上,同时维护原始图像的光照信息和纹理信息。

请参阅图1,图1根据一示例性实施例示出的一种应用环境的示意图,如图1所示,包括服务器01和终端02。可选的,服务器01和终端02可以通过无线链路连接,也可以通过有线链路连接,本公开在此不做限定。

在一个可选的实施例中,服务器01可以用于根据获取的原始图像和参考图像生成满足要求的合成图像。具体的,服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选的,该服务器01上运行的操作系统可以包括但是不限于IOS、Linux、Windows、Unix、Android系统等。

在一个可选的实施例中,终端02可以协助服务器01得到合成图像的设备。终端可以是原始图像和参考图像的提供方,用于向服务器01发送原始图像和参考图像。可选的,当服务器01生成合成图像后,可以将合成图像发送回终端02,用于在终端02上显示。具体的,终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的电子设备。可选的,电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外,需要说明的是,图1所示的仅仅是本公开提供的图像处理方法的一种应用环境,在实际应用中,还可以包括其他应用环境,例如合成图像的生成,也可以在终端02上实现。

图2是根据一示例性实施例示出的一种图像生成方法的流程图,如图2所示,图像生成方法用于服务器、终端等电子设备中,包括以下步骤:

在步骤S201中,获取原始图像和参考图像;原始图像和上述参考图像包含有风格不同的目标对象。

在一个可选的实施例中,原始图像和参考图像可以是服务器从终端处获取的。在一个具体的实施例中,该终端可以是图像采集设备,比如可以通过设置在终端上的摄像头采集原始图像和参考图像。在另一个可选的实施例中,原始图像和参考图像还可以是服务器从互联网图库中搜索获取的。

本公开实施例中是为了将原始图像中对象的某些特征和参考图像中对象的另一些特征进行综合,生成一个逼真的包含有综合特征的对象。比如说,将原始图像中的头发的纹理和光照,以及参考图像中的头发的颜色进行综合生产新的头发。换句话说,原始图像和参考图像包含风格不同的目标对象,以上述例子为例,原始图像中的头发颜色和参考图像中的头发颜色的风格是不同的。

可选的,上述原始图像中的目标对象和参考图像中的目标对象可以是同一个事物,比如都是人脸,头发,上衣,头部等等。可选的,上述原始图像中的目标对象和参考图像中的目标对象可以不是同一个事物,比如,原始图像中的目标对象是头发,参考图像中的目标对象是衣服。

为了更好的说明本公开,下面将以原始图像和参考图像中的目标对象都为头发进行说明。在一个可选的实施例中,服务器获取原始图像和参考图像,其中,原始图像中头发的颜色和参考图像中头发的颜色是不相同的。举个例子,原始图像头发的颜色是金色,参考图像中头发颜色是黑色,两者的风格不一致。

在步骤S203中,获取参考图像的低频信息。

由于本公开实施例中服务器需要的是参考图像中的颜色信息,而颜色信息是位于或者说更多的是存在于图像的低频空间中的,因此,在一个可选的实施例中,服务器可以先获取参考图像的低频信息,进而从该低频信息中获取颜色信息。

在一个可选的实施例中,服务器可以通过过滤方式对参考图像进行过滤操作,来得到参考图像的低频信息。可选的,过滤方式包括利用gaussian blur函数进行的高斯模糊处理。具体的,服务器调用gaussian blur函数对参考图像使用滤镜功能,输出的就是参考图像的低频信息。

在步骤S205中,获取原始图像的高频信息。

由于本公开实施例中服务器需要的是原始图像中的光照信息和纹理信息,而光照信息和纹理信息这些细节是位于或者说更多的存在于图像的高频空间中。因此,在一个可选的实施例中,服务器可以先获取原始图像的高频信息,进而从该高频信息中获取光照信息和纹理信息。

在一个可选的实施例中,服务器可以通过过滤方式对原始图像进行过滤操作,来得到原始图像的低频信息,可选的,过滤方式包括利用gaussian blur函数进行的高斯模糊处理。具体的,服务器调用gaussian blur函数对原始图像使用滤镜功能,得到的就是原始图像的低频信息,服务器可以使用原始图像和原始图像的低频信息的差值确定原始图像的高频信息。

在步骤S207中,将低频信息和高频信息输入图像生成模型,以使参考图像中目标对象的风格迁移至原始图像的目标对象上,得到合成图像。

在一个可选的实施例中,图像生成模型包括特征提取网络,该特征提取网络用于对低频信息进行特征提取,得到第一特征信息。

图3是根据一示例性实施例示出的一种图像生成模型结构图,包括图像生成模型300、以及图像生成模型300包括的特征提取网络301和生成器302。基于上述的图像生成模型,服务器可以将参考图像中目标对象的风格迁移至原始图像的目标对象上,得到合成图像。

本公开实施例中,服务器可以将低频信息输入图像生成模型中的特征提取网络301进行特征提取,得到第一特征信息。将第一特征信息和高频信息输入图像生成模型中的生成器,以使参考图像中目标对象的风格迁移至原始图像的目标对象上,得到合成图像。

基于目标对象是头发继续阐述,在一个可选的实施例中,在利用图像生成模型在实际被利用来得到合成图像之前,就是被提前训练好的,因此,图像生成模型中的生成器也是训练好的。由此,我们可以得知在理论上,生成器生成的合成图像中的头发的颜色就应该是参考图像中头发的颜色,合成的对象中的头发的纹理和光照就应该是原始图像中头发的纹理和光照。然而,训练好的图像生成模型必然不是完美无缺的,因此,只要能满足如下条件即可:合成图像中头发的颜色与参考图像中头发颜色的匹配程度值大于预设第一程度值;合成图像中头发的纹理与原始图像中头发的纹理的匹配程度值大于预设第二程度值;合成图像中头发的光照与原始图像中头发的光照的匹配程度值大于预设第三程度值。可选的,上述的预设第一程度值、预设第二程度值和预设第三程度值都是可以认为设置的,也可以是基于训练好的图像生成模型确定的。

在一个可选的实施例中,图3所示的生成器302还可以包括编码器和解码器,图4是根据一示例性实施例示出的一种图像生成模型结构图,包括图像生成模型300、以及图像生成模型300包括的特征提取网络301和生成器302;其中,生成器302可以包括编码器3021和解码器3022。

图5是根据一示例性实施例示出的一种合成图像的生成方法的流程图,基于图4所示的结构图,将第一特征信息和高频信息输入图像生成模型中的生成器,得到合成图像可以包括:

在步骤S501中,利用编码器对高频信息进行特征提取,得到第二特征信息。

在一个可选的实施方式中,上述的特征提取网络和编码器可以是基于深度学习网络中的神经卷积网络构建的。本说明书实施例中,以特征提取网络为例,特征提取网络可以包括的卷积层、池化层和上采样层,其中,卷积层、池化层和上采样层的数量可以结合实际应用需求进行设置。在实际应用中,数据往往不是线性可分的,为了引入非线性因数,可以在神经网络中引入激活层。另外,为了防止该深度学习网络由于网络深度导致梯度消失和梯度爆炸的问题,可选的,可以使用数据的初始化(normalized initialization)和实例正常化(Instance normalization,IN)解决该梯度的问题。然而由于网络深度加深了,会带来另外的网络性能的退化问题,即网络深度加深了,错误率却上升了。因此,可以利用IN层来解决退化问题,归一化层同时也解决了梯度问题,使得网络的性能也提升了。相应的,本说明书实施例中,神经卷积网络的每个卷积层之后可以依次连接归一化层和激活层。

在一个具体的实施例中,卷积层、归一化层、激活层、池化层的大小以及上采样层的上采样倍数可以结合实际应用需求设置。如图6所示,图6是根据一示例性实施例示出的一种第一特征提取网络的框图。图6中,输入可以为参考图像的低频信息,从输入开始第一特征提取网络可以依次包括5*5的卷积层(归一化层、激活层)、2*2的池化层、5*5的卷积层(归一化层、激活层)、3*3的卷积层(归一化层、激活层)、2*2的池化层、3*3的卷积层、3*3的卷积层,经过上述特征提取网络,可以得到参考图像的第一特征信息。可选的,第一特征信息可以是颜色特征信息。

可选的,编码器也可以是基于深度学习网络中的神经卷积网络构建的。其包含的卷积层、池化层和上采样层的数量可以结合实际应用需求进行设置。具体的结构可以参考特征提取网络结构,这里不再赘述。可选的,第二特征信息可以是纹理特征信息和/或光照特征信息。

在步骤S503中,利用解码器根据第一特征信息和第二特征信息进行图像合成,以使参考图像中目标对象的风格迁移至原始图像的目标对象上,得到合成图像。

在一个可选的实施例中,步骤S503中的解码器可以是一个渲染器,服务器利用该渲染器根据第一特征信息和第二特征信息(颜色特征信息、纹理特征信息和/或光照特征信息)进行合成,以使参考图像中目标对象的风格迁移至原始图像的目标对象上,得到合成图像。

在一个可选的实施例中,上述的第一特征信息为颜色特征信息,第二特征信息为纹理特征信息和/或光照特征信息是基于目标对象为头发而言的,若目标对象为其他事物,还可以在其他事物的基础上确定第一特征信息和第二特征信息。

在一个可选的实施例中,上述方法还包括图像生成模型的训练过程,如图7所示,图7是根据一示例性实施例示出的一种图像生成模型的训练过程的流程图,包括:

在步骤S701中,获取样本原始图像和样本参考图像;样本原始图像和样本参考图像包含有风格不同的样本目标对象。

在一个可选的实施例中,样本参考图像和样本原始图像是用来训练模型用的,具体的获取过程可以参考上述参考图像和原始图像的获取过程。由于上述的风格不同是以头发颜色不同来举例的,因此,在训练过程中,样本原始图像和样本参考图像的头发颜色也是同的。比如,一个是红色,一个是蓝色。

在步骤S703中,获取样本参考图像的低频信息,以及样本原始图像的高频信息。

在一个可选的实施例中,服务器在实际获取样本参考图像的低频信息和样本原始图像的高频信息的过程中,低频信息里面不仅包含样本图像中对象,比如头发的颜色信息,还可以包括头发的低频光照信息。这是因为,虽然本公开使用gaussian blur函数对参考图像进行了高斯模糊处理,将高频信息进行剔除,得到的就是低频信息,然而,整体的光照信息中是可以包含高频光照信息和低频光照信息的,因此,得到的低频信息中除了包含位于低频空间中的颜色信息之外,也存在着低频光照信息。

同样的,样本原始图像的高频信息可以包括位于高频空间中的高频纹理信息和高频光照信息。由于上述纹理信息一般都是在高频空间内,因此,上述的高频纹理信息可以被称为纹理信息。

在步骤S705中,将样本参考图像的低频信息和样本原始图像的高频信息输入神经网络,得到样本合成图像。

图8是根据一示例性实施例示出的一种神经网络结构图,包括图像生成模型300和判别器303,其中,图像生成模型300包括特征提取网络301和生成器302。图像生成模型300用于生成样本合成图像,判别器303用于验证样本合成图像和样本原始图像这两张图像中哪一张更像假的,即分别出哪一张是合成图像。

基于上述步骤S703步骤的低频信息中包含的信息,服务器使用特征提取网络对低频信息进行特征提取,就可以提取颜色特征信息了。此外,由于图像生成模型在训练初期,还未满足训练完成要求,此时其中的特征提取网络对低频信息进行特征提取时,不仅可以提取颜色特征信息,还可以提取低频光照特征信息。

在一个可选的实施例中,参考上文中提及的生成器结构,生成器可以包含编码器和解码器,其中,编码器可以对样本原始图像的高频信息进行特征提取,得到纹理特征信息和/或光照特征信息。随后,服务器可以使用解码器基于纹理特征信息、光照特征信息(高频的)、颜色特征信息和低频光照特征信息进行图像合成,得到样本合成图像,其中,样本合成图像中的对象,也就是头发的纹理为样本原始图像中的头发的纹理,样本合成图像中的头发的颜色为样本参考图像中的头发的颜色。由于此时神经网路还没被训练好,因此,此时的样本合成图像中的头发的光照可以是样本原始图像中高频光照和样本参考图像中低频光照的叠加,是不满足需求的。当训练好之后,特征提取网络才可以直接提取颜色特征信息,而不去提取低频光照特征信息了。

在步骤S707中,将样本原始图像和样本合成图像输入神经网络的判别器,得到验证结果信息。

基于上述的实施例继续阐述,在一个可选的实施例中,由于神经网络是未训练好的,因此,样本合成图像中的头发的光照可以是样本原始图像中高频光照和样本参考图像中低频光照的叠加,是不满足需求的,此时将样本原始图像和样本合成图像输入神经网络的判别器,得到样本原始图像和样本合成图像相差还是很大的,或者说,样本合成图像上的合成痕迹还是很明显的,因此,服务器很容易辨别出哪一张图像是合成的。这种情况下,服务器输出的验证结果信息可以是两者相差很大,样本重加图像中合成迹象很明显等信息。此外,还可以是输出一系列用于表示上述信息的字段。

可选的,判别器也可以是基于深度学习网络中的神经卷积网络构建的。其包含的卷积层、池化层和上采样层的数量可以结合实际应用需求进行设置。具体的结构可以参考特征提取网络结构,这里不再赘述。

在步骤S709中,利用验证结果信息训练神经网络,得到训练好的图像生成模型。

在一个可选的实施例中,可以利用上述的验证结果信息训练神经网络,将最终训练好的神经网络中的特征提取网络和生成器组成图像生成模型。

在一个可选的实施例中,本公开实施例还包括具体利用验证结果信息对神经网络进行训练的过程,如图9所示,图9是根据一示例性实施例示出的一种图像生成模型的训练过程的流程图,包括:

在步骤S901中,确定样本原始图像和样本合成图像的真假标签信息。

本公开实施例中,服务器确定样本原始图像和样本合成图像的真假标签信息的具体方式可以是:将样本原始图像标识为真,将样本合成图像标识为假。

在步骤S903中,基于验证结果信息和真假标签信息确定损失值。

在一个可选的实施例中,服务器可以基于第一损失函数确定验证结果信息和真假标签信息之间的第一损失值,基于频域上的第二损失函数确定验证结果信息和真假标签信息之间的第二损失值,将第一损失值和第二损失值的和确定为损失值。

上述的第一损失函数可以是L2损失函数(均方误差)、L1损失函数(平均绝对误差)、Huber损失函数(平滑平均绝对误差)等回归损失函数,还可以是逻辑损失函数、Hinge(铰链)损失函数、指数损失函数等分类损失函数。

由于上述的高频信息和低频信息都是基于频域空间确定的,上述的第二损失函数可以是频域空间上的L2损失函数(均方误差)、L1损失函数(平均绝对误差)、Huber损失函数(平滑平均绝对误差)等回归损失函数。

在步骤S905中,根据损失值训练神经网络,得到训练好的图像生成模型。

本公开实施例中,当损失值大于预设阈值时,基于损失值进行反向传播,对神经网络进行网络参数更新以得到更新后的神经网络。

重复将低频信息输入神经网络的第一特征提取网络,得到样本参考图像对应的颜色特征信息和低频光照特征信息;将样本原始图像对应的纹理信息和高频光照信息,以及样本参考图像对应的颜色特征信息和低频光照特征信息输入神经网络的生成器,得到样本合成图像;将样本原始图像和样本合成图像输入神经网络的判别器,得到验证结果信息。

上文已经说过,在神经网络未训练好的时候,样本合成图像中的头发的光照可以是样本原始图像中高频光照和样本参考图像中低频光照的叠加,这是不满足需求的。此时将样本原始图像和样本合成图像输入神经网络的判别器,得到样本原始图像和样本合成图像相差还是很大的,或者说,样本合成图像上的合成痕迹还是很明显的,判别器很容易识别出哪一张是样本合成图像。然而,随着训练次数的增加,损失函数在反向传播计算第一特征提取网络和图像生成网络权要的梯度,根据梯度下降法更新网络权重的同时,样本参考图像的低频光照特征信息在图像合成的过程中会逐渐被忽略,也就是说,样本参考图像的低频光照特征信息所占的权要会越来越小,知道最后接近于无。此时,服务器就很难辨认出样本原始图像和样本合成图像中哪一张是真,哪一张是假。

此外,虽然样本参考图像的低频光照特征信息逐渐被忽略掉了,但是编码器也有生成光照信息的能力,这种能力主要是由于判别器在判别样本合成图像和样本原始图像的时候,迫使样本合成图像的光照信息尽可能和原始图像一致,也就是说,最终解码器可以在判别器的迫使下生成样本原始图像的低频光照特征信,最终根据颜色特征信息,光照特征信息、低频光照特征信息和纹理特征信息生成合成图像。直至损失值小于等于预设阈值时,得到训练好的神经网络。

由于判别器是用辨认样本原始图像和样本合成图像中哪一张是真,哪一张是假的,因此,当神经网络被训练好之后,整个神经网络的参数已经被调整好了。在后面直接应用原始图像和参考图像的时候,就可以利用第一特征提取网络和生成器组成的图像生成模型生成合成图像,而不需要使用判别器了。

综上,本公开实施例,通过提前基于频域空间获取原始图像和参考图像的频域信息,使得颜色和纹理光照信息可以在频域空间中顺利解耦,完成图像中对象的合成。

图10是根据一示例性实施例示出的一种图像生成装置框图。参照图10,该装置包括图像获取模块1001、低频信息获取模块1002、高频信息获取模块1003、和合成模块1004。

图像获取模块1001,被配置为执行获取原始图像和参考图像;上述原始图像和上述参考图像包含有风格不同的目标对象;

低频信息获取模块1002,被配置为执行获取上述参考图像的低频信息;

高频信息获取模块1003,被配置为执行获取上述原始图像的高频信息;

合成模块1004,被配置为执行将上述低频信息和上述高频信息输入图像生成模型,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到合成图像。

在一个可选的实施例中,上述低频信息获取模块,被配置为执行:

对上述参考图像进行高斯模糊处理,得到上述参考图像的低频信息。

在一个可选的实施例中,上述高频信息获取模块,被配置为执行:

对上述原始图像进行高斯模糊处理,得到上述原始图像的低频信息;

根据上述原始图像和上述原始图像的低频信息的差值,确定上述原始图像的高频信息。

在一个可选的实施例中,上述合成模块包括:

特征提取子模块,被配置为执行将上述低频信息输入上述图像生成模型中的特征提取网络进行特征提取,得到第一特征信息;

图像合成子模块,被配置为执行将上述第一特征信息和上述高频信息输入图像生成模型中的生成器,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到合成图像。

在一个可选的实施例中,上述生成器包括编码器和解码器;

上述图像合成子模块,被配置为执行:

利用上述编码器对上述高频信息进行特征提取,得到第二特征信息;

利用上述解码器根据上述第一特征信息和上述第二特征信息进行图像合成,以使上述参考图像中上述目标对象的风格迁移至上述原始图像的上述目标对象上,得到上述合成图像。

在一个可选的实施例中,

上述第一特征信息包括颜色特征信息:

上述第二特征信息包括纹理特征信息光照特征信息纹理特征信息和/或光照特征信息。

在一个可选的实施例中,上述图像生成装置还包括:

样本获取模块,被配置为执行获取样本原始图像和样本参考图像;上述样本原始图像和上述样本参考图像包含有风格不同的样本目标对象;

信息获取模块,被配置为执行获取上述样本参考图像的低频信息,以及上述样本原始图像的高频信息;

样本合成模块,被配置为执行将上述样本参考图像的低频信息和上述样本原始图像的高频信息输入神经网络,得到样本合成图像;

结果输出模块,被配置为执行将上述样本原始图像和上述样本合成图像输入上述神经网络的判别器,得到验证结果信息;

训练模块,被配置为执行利用上述验证结果信息训练上述神经网络,得到训练好的上述图像生成模型。

在一个可选的实施例中,上述训练模块包括:

标签确定模块,被配置为执行确定上述样本原始图像和上述样本合成图像的真假标签信息;

损失确定模块,被配置为执行基于上述验证结果信息和上述真假标签信息确定损失值;

模型获取模块,被配置为执行根据上述损失值训练上述神经网络,得到训练好的图像生成模型。

在一个可选的实施例中,上述损失确定模块包括:

第一损失确定模块,被配置为执行基于第一损失函数确定上述验证结果信息和上述真假标签信息之间的第一损失值;

第二损失确定模块,被配置为执行基于频域上的第二损失函数确定上述验证结果信息和上述真假标签信息之间的第二损失值;

总损失确定模块,被配置为执行将上述第一损失值和上述第二损失值的和确定为损失值。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种用于图像生成的电子设备1100的框图。该电子设备可以是服务器,还可以是具有服务器同样功能的其他设备,其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像生成方法。

本领域技术人员可以理解,图11中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在示例性实施例中,还提供了一种服务器,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的图像生成方法。

在示例性实施例中,还提供了一种存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的图像生成方法。

在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的图像生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 图像生成方法、图像生成装置、存储介质与电子设备
  • 图像生成方法、图像生成装置、存储介质与电子设备
技术分类

06120112808905