掌桥专利:专业的专利平台
掌桥专利
首页

图像生成模型训练、图像生成方法、装置及存储介质

文献发布时间:2023-06-19 11:26:00


图像生成模型训练、图像生成方法、装置及存储介质

技术领域

本公开涉及计算机视觉技术领域,尤其涉及图像生成模型训练、图像生成方法、装置及存储介质。

背景技术

相关技术中,可以通过神经网络对输入图像进行拟合,从而得到风格变化后的目标图像。比如,可以采用单一编码器提取输入图像的特征,然后将提取到的特征输入解码器,得到风格变化后的目标图像。但是,一个解码器通常只能够生成一种风格的图像。再比如,可以采用神经网络进行图片风格转换,但是一种转换方式需要一个对应的神经网络。因此,若需要得到多种风格的图像,需要多个解码器或者多个神经网络,显然需要消耗较多的硬件资源。

发明内容

本公开提供图像生成模型训练、图像生成方法、装置及存储介质,以至少解决相关技术中若希望得到多种风格的图像,则需要多个解码器或者多个神经网络的问题。本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种图像生成模型的训练方法,包括:

获取至少两个样本图像集,每个所述样本图像集具有不同的图像风格;

获取待训练的图像生成模型以及每种所述图像风格对应的判别器,所述图像生成模型包括图像生成网络和每种所述图像风格对应的风格向量;所述风格向量用于触发所述图像生成网络生成具备对应的图像风格的风格化图像;

将每个样本图像集中的样本图像以及各个所述风格向量输入所述图像生成网络,得到每个所述风格向量对应的风格化图像;

将各个所述风格化图像输入对应的判别器,得到所述判别器产生的第一判别器损失和第二判别器损失;所述第一判别器损失表征所述判别器的判别精度损失,所述第二判别器损失表征所述图像生成网络相对于所述判别器的图像生成精度损失;

根据所述样本图像、各个所述风格化图像以及各个所述判别器对应的所述第二判别器损失,得到所述图像生成网络产生的图像生成损失;

根据所述第一判别器损失训练对应的判别器,以及根据所述图像生成损失训练所述图像生成网络和各个所述风格向量;

将训练好的所述图像生成网络和训练好的各个所述风格向量确定为所述图像生成模型。

在一示例性的实施方式中,所述将各个所述风格化图像输入对应的判别器,得到所述判别器产生的第一判别器损失和第二判别器损失,所述第一判别器损失表征所述判别器的判别精度损失,所述第二判别器损失表征所述图像生成网络相对于所述判别器的图像生成精度损失;包括:

将每个所述风格化图像输入对应的判别器,得到所述判别器产生的判别结果;所述判别器对应于所述风格化图像对应的风格向量;

根据所述判别结果与所述风格化图像的真实值之间的差值,计算得到所述第一判别器损失。

在一示例性的实施方式中,所述将各个所述风格化图像输入对应的判别器,得到所述判别器产生的第一判别器损失和第二判别器损失,所述第一判别器损失表征所述判别器的判别精度损失,所述第二判别器损失表征所述图像生成网络相对于所述判别器的图像生成精度损失,还包括:

根据所述判别结果与所述风格化图像的期待值之间的差值,计算得到所述第二判别器损失。

在一示例性的实施方式中,所述根据所述样本图像、各个所述风格化图像以及各个所述判别器对应的所述第二判别器损失,得到所述图像生成网络产生的图像生成损失,包括:

根据任意两个风格化图像的高频分量,计算得到高频损失;所述任意两个风格化图像均基于同一个样本图像生成;

在所述各个风格化图像中确定目标风格化图像,所述目标风格化图像由所述图像生成网络根据所述样本图像的图像风格对应的风格向量和所述样本图像生成;

根据所述目标风格化图像和所述样本图像之间的像素差异,计算得到一致性损失;

根据所述高频损失、一致性损失和各个所述判别器对应的所述第二判别器损失,得到所述图像生成损失。

在一示例性的实施方式中,所述方法还包括:

当所述图像生成损失小于预设的损失阈值时,训练得到所述图像生成模型;

或,

当训练目标的训练次数大于预设的训练次数阈值时,得到所述图像生成模型,所述训练目标包括所述判别器、所述图像生成网络或所述风格向量中的一个或多个。

根据本公开实施例的第二方面,提供一种图像生成方法,包括:

获取原始图像和目标风格,所述目标风格表示待生成的目标图像对应的风格;

根据所述目标风格,在图像生成模型中确定对应的目标风格向量;

将所述原始图像和所述目标风格向量输入所述图像生成模型中的图像生成网络,得到具备所述目标风格的目标图像;

其中,所述图像生成模型根据上述第一方面中任意一项所述的图像生成模型的训练方法得到。

根据本公开实施例的第三方面,提供一种图像生成模型训练装置,包括:

样本图像集确定模块,被配置为执行获取至少两个样本图像集,每个所述样本图像集具有不同的图像风格;

训练对象获取模块,被配置为执行获取待训练的图像生成模型以及每种所述图像风格对应的判别器,所述图像生成模型包括图像生成网络和每种所述图像风格对应的风格向量;所述风格向量用于触发所述图像生成网络生成具备对应的图像风格的风格化图像;

图像生成模块,被配置为执行将每个样本图像集中的样本图像以及各个所述风格向量输入所述图像生成网络,得到每个所述风格向量对应的风格化图像;

第一损失计算模块,被配置为执行将各个所述风格化图像输入对应的判别器,得到所述判别器产生的第一判别器损失和第二判别器损失;所述第一判别器损失表征所述判别器的判别精度损失,所述第二判别器损失表征所述图像生成网络相对于所述判别器的图像生成精度损失;

第二损失计算模块,被配置为执行根据所述样本图像、各个所述风格化图像以及各个所述判别器对应的所述第二判别器损失,得到所述图像生成网络产生的图像生成损失;

训练模块,被配置为执行根据所述第一判别器损失训练对应的判别器,以及根据所述图像生成损失训练所述图像生成网络和各个所述风格向量;将训练好的所述图像生成网络和训练好的各个所述风格向量确定为所述图像生成模型。

在一示例性的实施方式中,所述第一损失计算模块,被配置为执行将每个所述风格化图像输入对应的判别器,得到所述判别器产生的判别结果;所述判别器对应于所述风格化图像对应的风格向量;根据所述判别结果与所述风格化图像的真实值之间的差值,计算得到所述第一判别器损失。

在一示例性的实施方式中,所述第一损失计算模块,被配置为执行根据所述判别结果与所述风格化图像的期待值之间的差值,计算得到所述第二判别器损失。

在一示例性的实施方式中,所述第二损失计算模块,包括:

高频损失计算单元,被配置为执行根据任意两个风格化图像的高频分量,计算得到高频损失;所述任意两个风格化图像均基于同一个样本图像生成;

目标风格化图像确定单元,被配置为执行在所述各个风格化图像中确定目标风格化图像,所述目标风格化图像由所述图像生成网络根据所述样本图像的图像风格对应的风格向量和所述样本图像生成;

一致性损失计算单元,被配置为执行根据所述目标风格化图像和所述样本图像之间的像素差异,计算得到一致性损失;

图像生成损失计算单元,被配置为执行根据所述高频损失、一致性损失和各个所述判别器对应的所述第二判别器损失,得到所述图像生成损失。

在一示例性的实施方式中,所述装置还包括训练控制模块,被配置为执行当所述图像生成损失小于预设的损失阈值时,训练得到所述图像生成模型;或,当训练目标的训练次数大于预设的训练次数阈值时,得到所述图像生成模型,所述训练目标包括所述判别器、所述图像生成网络或所述风格向量中的一个或多个。

根据本公开实施例的第四方面,提供一种图像生成装置,包括:

生成要素获取模块,被配置为执行获取原始图像和目标风格,所述目标风格表示待生成的目标图像对应的风格;

目标风格向量获取模块,被配置为执行根据所述目标风格,在图像生成模型中确定对应的目标风格向量;

目标图像获取模块,被配置为执行将所述原始图像和所述目标风格向量输入所述图像生成模型中的图像生成网络,得到具备所述目标风格的目标图像;

其中,所述图像生成模型根据上述第一方面中任意一项所述的图像生成模型的训练方法得到。

根据本公开实施例的第五方面,提供一种电子设备,包括:

处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述指令,以实现上述如第一方面中任一项所述的图像生成模型的训练方法或者上述如第二方面所述的图像生成方法。

根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述如第一方面中任一项所述的图像生成模型的训练方法或者上述如第二方面所述的图像生成方法。

根据本公开实施例的第七方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述如第一方面中任一项所述的图像生成模型的训练方法或者上述如第二方面所述的图像生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

本公开可以通过训练图像生成模型,使得训练好的图像生成模型可以输出具有不同图像风格的风格化图像,对于同一个输入图像,该图像生成模型可以基于不同风格向量生成对应的风格化图像,从而完成多种风格转换的任务,进而达到了使用单一网络完成多种图像风格转换目的,占用计算资源和存储资源更少,并且细节保持能力更强。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的相关技术中一种风格转换方案的示意图;

图2是根据一示例性实施例示出的相关技术中另一种风格转换方案的示意图;

图3是根据一示例性实施例示出的一种图像生成方法的应用环境图;

图4是根据一示例性实施例示出的一种图像生成模型的训练方法的流程图;

图5是根据一示例性实施例示出的将各个上述风格化图像输入对应的判别器,得到上述判别器产生的第一判别器损失和第二判别器损失的流程图;

图6是根据一示例性实施例示出的根据上述样本图像、各个上述风格化图像以及各个上述判别器对应的上述第二判别器损失,得到上述图像生成网络产生的图像生成损失的流程图;

图7是根据一示例性实施例示出的根据任意两个风格化图像的高频分量,计算得到高频损失;上述任意两个风格化图像均基于同一个样本图像生成的流程图;

图8是根据一示例性实施例示出的图像生成方法的流程图;

图9是根据一示例性实施例示出的图像生成方法的示意图;

图10是根据一示例性实施例示出的一种图像生成模型训练装置的框图;

图11是根据一示例性实施例示出的一种图像生成装置的框图;

图12是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

风格转换可以在保留图像主要内容的情况下,将图像细节和风格进行变化,如人像年龄变化,改变图像中人像肤色、发色,图像转化为动画(二次元)风格,相关技术中可以通过神经网络实现风格转换,风格转换后生成的图像与风格转换前的图像大致细节不变,如人物脸型,五官轮廓在转化前后保持基本不变。

请参考图1,其示出了相关技术中一种风格转换方案的示意图,通过神经网络1将风格为A的图像转换为风格为B的图像,通过神经网络2将风格为B的图像转换为风格为A的图像。

请参考图2,其示出相关技术中另一种风格转换方案的示意图,对各种风格图像进行特征提取,经过神经网络3输出风格为A的图像,经过神经网络4输出风格为B的图像。

图1和图2所示的风格转换方案均一种风格需要对应的一个神经网络,如果进行多种风格转换,显然需要多个神经网络,这较为占用资源,对于存储资源和计算资源都造成了浪费,并且相关技术中的风格转换对于图像纹理细节的保持效果也有待进一步提升。

为了基于一个神经网络生成具有多种图像风格的图像,节省资源,并且较大程度地保持图像纹理细节一致性,本公开提供一种图像生成模型的训练方法,以及基于该图像生成模型的图像生成方法。

请参阅图3,其所示为根据一示例性实施例示出的一种图像生成方法的应用环境图,该应用环境可以包括终端110和服务器120。

其中,终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端110中可以运行有由服务器120提供后台服务的客户端。该客户端可以向上述服务器120发送原始图像和图像生成风格,获取并显示服务器120返回的具有该图像生成风格的目标图像。示例性的,客户端可以拍摄人脸图像并确定二次元风格,将该人脸图像以及该二次元风格发送至服务器120,获取到服务器120返回的具有二次元风格的人脸图像。

服务器120可以根据客户端110传输的原始图像和图像生成风格,依托图像生成模型得到目标图像,并将该目标图像发送至客户端110。服务器120还可以用于训练图像生成模型,并保存训练好的图像生成模型。

图3中所示的服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,终端110和服务器120之间可以通过有线网络或者无线网络连接。

图4是根据一示例性实施例示出的一种图像生成模型的训练方法的流程图,如图4所示,以该图像生成模型的训练方法应用于图1所示的服务器120中进行说明,包括以下步骤。

在步骤S10中,获取至少两个样本图像集,每个上述样本图像集具有不同的图像风格。

本公开中不限定图像风格的具体内容。示例性的,图像风格可以是艺术风格,比如,艺术流派风格、艺术时代风格、自定义风格等。例如,艺术流派风格可以包括印象派、抽象派、写实派等;艺术时代风格可以包括传统古典派、现代写实派等。图像风格也可以包括漫画风格、素描风格、油画风格、国画风格、彩铅风格等表达风格。示例性的,图像风格也可以表征对图像的某个元素进行某种固定变化,比如,将图像中的人脸颜色变为灰色,或者将图像中的头发变为浅色。

在后文的示例中,以图像风格A和图像风格B两种图像风格为例说明本公开示出的技术方案。

针对每种图像风格,可以确定样本图像集,上述样本图像集中的样本图像均具备上述图像风格。

示例性的,对于图像风格A,确定样本图像集1,样本图像集1中的各个样本图形的图像风格均为A。对于图像风格B,确定样本图像集2,样本图像集2中的各个样本图形的图像风格均为B。

在步骤S20中,获取待训练的图像生成模型以及每种上述图像风格对应的判别器,上述图像生成模型包括图像生成网络和每种上述图像风格对应的风格向量;上述风格向量用于触发上述图像生成网络生成具备对应的图像风格的风格化图像。

示例性的,对于图像风格A,其对应于风格向量

生成式对抗网络模型(GAN,Generative Adversarial Networks)是一种深度学习模型。生成式对抗网络模型通过框架中生成模型(Generative Model)和判别模型(Discriminative Model)之间的互相博弈学习达到训练目的,从而优化生成模型的性能。原始生成式对抗网络模型理论中,并不要求生成模型和判别模型都是神经网络,只需要是能拟合相应生成和判别的函数即可,在实际的使用过程中一般可以使用深度神经网络作为生成模型和判别模型。当然,在一些场景中,也可以使用CNN(Convolutional NeuralNetworks,卷积神经网络),或RNN(Recurrent Neural Network,循环神经网络)。

事实上,生成模型和判别模型的具体结构可以多种多样,只要能够拟合相应生成和判别的函数即可。本公开实施例中图像生成模型即为一种上述的生成模型,每种上述图像风格对应的判别器即为一种上述的判别模型。

在一个示例性实施方式中,步骤S20中的判别器可以基于生成式对抗网络模型的判别模型得到,可以使用深度神经网络、卷积神经网络和循环神经网络的任意一种。不同图像风格对应的判别器可以使用相同或不同的神经网络,如果使用相同的神经网络,神经网络的细节结构也可以相同或不同,本公开对此不进行限制。

示例性的,判别器

在步骤S30中,将每个样本图像集中的样本图像以及各个上述风格向量输入上述图像生成网络,得到每个上述风格向量对应的风格化图像。

本公开实施例中,步骤S30中的图像生成网络可以基于上述生成式对抗网络模型的生成模型得到,可以使用深度神经网络、卷积神经网络和循环神经网络的任意一种。图像生成网络与各个判别器的结构可以相同或不同,本公开不对此进行限制。即使该图像生成网络与上述任意一个判别器使用相同的神经网络,具体的神经网络的细节结构也可以相同或不同,本公开对此不进行限制。

以图像风格A对应的样本图像集1中的任意一张样本图像P为例,将样本图像P、风格向量

同样的,以图像风格B对应的样本图像集2中的任意一张样本图像Q为例,将样本图像Q、风格向量

在步骤S40中,将各个上述风格化图像输入对应的判别器,得到上述判别器产生的第一判别器损失和第二判别器损失;上述第一判别器损失表征上述判别器的判别精度损失,上述第二判别器损失表征上述图像生成网络相对于上述判别器的图像生成精度损失。

示例性的,将图像P

本公开实施例中第一判别器损失和第二判别器损失都根据判别器输出的判别结果计算得到。其中上述第一判别器损失表征上述判别器的判别精度损失,判别器识别的准确度越高,则第一判别器损失就越小。示例性的,如果判别器输出的判别结果为0.6,而准确的判别结果是0,则第一判别器损失为0.6。

上述第二判别器损失表征上述图像生成网络相对于上述判别器的图像生成精度损失,第二判别器损失越低说明图像生成网络生成的图像越容易蒙骗上述判别器,即上述图像生成网络相对于上述判别器的图像生成精度越高,相应的,图像生成网络相对于上述判别器的图像生成精度损失越小。示例性的,如果判别器输出的判别结果为0.6,而图像生成网络期望的判别结果是1,则第二判别器损失为0.4。

在一个实施例,请参考图5,图5是根据一示例性实施例示出的将各个上述风格化图像输入对应的判别器,得到上述判别器产生的第一判别器损失和第二判别器损失的流程图,包括:

在步骤S41中,将每个上述风格化图像输入对应的判别器,得到上述判别器产生的判别结果;上述判别器对应于上述风格化图像对应的风格向量。

在步骤S42中,根据上述判别结果与上述风格化图像的真实值之间的差值,计算得到上述第一判别器损失。

示例性的,以将图像P

事实上,图像P

本公开通过计算第一判别器损失可以对判别器的性能进行准确评估,从而有利于根据第一判别器损失调节对应的判别器的参数,提升判别器的判别能力。

在步骤S43中,根据上述判别结果与上述风格化图像的期待值之间的差值,计算得到上述第二判别器损失。

本公开实施例中期待值可以用于表征上述图像生成网络生成图像的逼真程度,也体现了图像生成网络的训练目的,即生成出的图像可以以假乱真蒙蔽判别器。

示例性的,以将图像P

事实上,图像P

本公开通过计算判别器产生的第二判别器损失,可以从判别器的角度精准评估图像生成网络生成图像的精度损失,将上述第二判别器损失应用于训练图像生成网络的图像,实现了判别器和图像网络互相对抗,共同优化的目的。

在步骤S50中,根据上述样本图像、各个上述风格化图像以及各个上述判别器对应的上述第二判别器损失,得到上述图像生成网络产生的图像生成损失。

在一个实施例中,请参考图6,图6是根据一示例性实施例示出的根据上述样本图像、各个上述风格化图像以及各个上述判别器对应的上述第二判别器损失,得到上述图像生成网络产生的图像生成损失的流程图,包括:

在步骤S51中,根据任意两个风格化图像的高频分量,计算得到高频损失;上述任意两个风格化图像均基于同一个样本图像生成。

请参考图7,图7是根据一示例性实施例示出的根据任意两个风格化图像的高频分量,计算得到高频损失;上述任意两个风格化图像均基于同一个样本图像生成的流程图,包括:

在步骤S511中,计算每个风格化图像的高频分量。

示例性的,对于每个风格化图像,可以根据预设的模糊参数对其进行模糊处理,得到上述风格化图像对应的模糊图像,将上述风格化图像与上述模糊图像做差即可得到上述风格化图像的高频分量。以风格化图像P

本公开不限定模糊参数的具体数值和具体的模糊方法,用户可以根据实际情况进行设定。

在步骤S512中,对于任意两个高频分量,根据上述两个高频分量计算第一统计值。

本公开中,该第一统计值可以为MSE(Mean Square Error,均方误差)、RMSE(RootMean Square Error,均方根误差)、MAE(Mean Absolute Error,平均绝对误差),本公开不限定第一统计值的具体形式。

在步骤S513中,将计算得到的各个第一统计值的总和值确定为上述高频损失。

本公开通过计算各个风格化图像在高频分量维度产生的损失可以精准对于高频损失进行度量,有利于提升图像生成损失的计算精度。

在步骤S52中,在上述各个风格化图像中确定目标风格化图像,上述目标风格化图像由上述图像生成网络根据上述样本图像的图像风格对应的风格向量和上述样本图像生成。

示例性的,对于来自样本图像集1的样本图像P,其图像风格为A,则目标风格向量即为

在步骤S53中,根据上述目标风格化图像和上述样本图像之间的像素差异,计算得到一致性损失。

本公开实施例中,该一致性损失可以为目标风格化图像P

本公开通过计算目标风格化图像与样本图像在像素差异维度的第二统计值,可以精准对于一致性损失进行度量,有利于提升图像生成损失的计算精度。

在步骤S54中,根据上述高频损失、一致性损失和各个上述判别器对应的上述第二判别器损失,得到上述图像生成损失。

在一个实施例中,可以对上述高频损失、一致性损失和各个上述判别器对应的上述第二判别器损失进行加权求和,得到图像生成损失。本公开不限定权值的具体数值,可以根据实际需求进行设定。

本公开通过高频损失、一致性损失和各个上述判别器对应的上述第二判别器损失精准计算图像生成损失,从而可以对图像生成网络以及各个风格向量的性能进行准确评估,从而有利于根据图像生成损失调节上述图像生成网络的参数和上述各个风格向量,提升图像生成能力。

在步骤S60中,根据上述第一判别器损失训练对应的判别器,以及根据上述图像生成损失训练上述图像生成网络和各个上述风格向量。

本公开中,通过调节判别器的参数使得第一判别器损失减小,通过调节上述图像生成网络的参数和上述各个风格向量使得图像生成损失减小,即基于梯度下降思想分别调节各个判别器参数以使得上述各个判别器中,每个判别器对应的第一判别器损失减小,以及调节上述图像生成网络的参数和上述各个风格向量使得上述图像生成损失减小。

本公开中可以基于梯度下降法对各个判别器的参数、图像生成网络的参数以及各个风格向量进行调整。梯度下降法是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在优化训练神经网络的参数的应用中,即解决无约束优化问题时,梯度下降法是最常采用的方法之一。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数,以及优化神经网络的参数。

具体地,可以使用GD(梯度下降算法,Gradient Descent)、BGD(批梯度下降算法,Batch Gradient Descent)、SGD(随机梯度下降算法,stochastic gradient descent)或MBGD(小批量梯度下降算法,Mini-Batch Gradient Descent),本公开对此不进行限制。

在一个实施例中,可以统计训练目标的训练次数,上述训练目标包括判别器、图像生成网络或风格向量中的任意一个或多个;若上述训练次数大于预设的训练次数阈值,则判定达到上述训练停止条件。示例性的,在该实施例中该训练停止条件可以为:上述任一判别器的参数的训练次数达到第一预设次数,或上述图像生成网络的参数的训练次数达到第二预设次数,上述第一预设次数和上述第二预设次数可以相等,并且可以根据用户的实际需求进行设定,本公开不限定其具体数值。

在另一个实施例中,该训练停止条件可以为图像生成损失小于预设的损失阈值,该预设的损失阈值可以根据用户的实际需求进行设定,本公开不限定其具体数值。

在步骤70中,将训练好的上述图像生成网络和训练好的各个上述风格向量确定为上述图像生成模型。

本公开实施例中,可以通过训练图像生成模型,使得训练好的图像生成模型可以输出具有不同图像风格的风格化图像,对于同一个输入图像,该图像生成模型可以基于不同风格向量生成不同风格的风格化图像,从而完成多种风格转换的任务,进而达到了使用单一网络完成多种图像风格转换目的,占用计算资源和存储资源更少,并且细节保持能力更强。

本公开实施例基于对抗思想进行图像生成模型的训练,在图像生成模型训练好后,判别器已经难以对图像生成模型生成的图像的真伪进行判别,因此图像生成模型生成的图像接近可以以假乱真,这种训练方法受样本图像集中图像质量的影响较小,可以较大限度地在生成得到的图像中保留样本图像集中的样本图像的图像细节,图像轮廓以及图像纹理。与之形成对应的,相关技术中的用于进行图像风格转换的神经网络通常不是基于对抗思想训练得到,受样本图像质量影响较大,而在准备样本图像环节,难以找到风格不同而内容完全一致的样本图像,也就是说样本图像质量是不稳定的,因此,相关技术中的用于进行图像转换的神经网络对于图像细节、图像轮廓以及图像纹理的保持效果有限,转换得到的图像具有一定程度的失真,因此,本公开实施例训练得到的图像生成模型进行图像转换的质量相较于相关技术中的用于进行图像转换的神经网络有所提升。

基于上文训练得到的图像生成模型,本公开还示出一种图像生成方法,如图8所示,图8是根据一示例性实施例示出的图像生成方法的流程图,上述方法包括:

在步骤S10-1中,获取原始图像和目标风格,上述目标风格表示待生成的目标图像对应的风格。

示例性的,如果在图像生成模型的训练过程中,使用了二次元风格对应的样本图像集、素描风格对应的样本图像集,油画风格对应的样本图像集和贴纸风格对应的样本图像集进行训练,则该图像生成模型可以支持将输入的原始图像转化为二次元风格、素描风格,油画风格或贴纸风格。该图像生成模型包括图像生成网络,以及二次元风格的风格向量、素描风格的风格向量,油画风格的风格向量和贴纸风格的风格向量。相应的,在步骤S10-1中,目标风格可以为二次元风格、素描风格,油画风格或贴纸风格中的任意一种。

在一些实施例中,可以根据图像生成模型所能够支持的各种风格生成图像风格选择界面,响应于用户对上述图像风格选择界面的选择操作,根据选择操作确定目标风格。

示例性的,服务器120可以将图像生成模型所能够支持的各种风格传输至客户端110,由客户端110生成图像风格选择界面。比如,上述图像风格选择界面中可以使用单选框组上述表达图像生成模型所能够支持的风格,上述单选框组的每一个单选框对应上述图像生成模型所能够支持的一种风格。若用户点击上述图像风格选择界面的其中一个单选框,则将上述单选框对应的风格作为上述目标风格。客户端110可以将原始图像和上述目标风格传输至服务器120。

本公开中并不对原始图像进行限制,原始图像的风格可以属于上述图像生成模型所支持的风格,也可以不属于上述图像生成模型所支持的风格。

在步骤S20-1中,根据上述目标风格,在图像生成模型中确定对应的目标风格向量。

本公开中,目标风格向量对应的风格与上述目标图像对应的风格相同。

以上述图像生成模型为例,该图像生成模型包括二次元风格的风格向量、素描风格的风格向量,油画风格的风格向量或贴纸风格的风格向量。若在步骤S10-1中选择了二次元风格作为上述目标图像对应的风格,则相应的,将上述图像生成模型中的二次元风格的风格向量作为上述目标风格向量。

在步骤S30-1中,将上述原始图像和上述目标风格向量输入上述图像生成模型中的图像生成网络,得到具备上述目标风格的目标图像。

上述目标图像与上述原始图像具备的图像内容相同,图像细节,图像纹理,以及图像轮廓均可以保持基本不变,但是目标图像的风格与步骤S10-1中的获取的目标风格相同。示例性的,以上述图像生成模型为例,原始图像为达芬奇绘制的蒙娜丽莎的图像,在步骤S10-1中确定的图像生成风格为二次元的风格,则上述目标图像为二次元风格的蒙娜丽莎的图像。

上述目标图像是由图像生成模型得到的,而本公开中图像生成模型是基于对抗的思想进行训练得到的,在图像生成模型训练好后,判别器已经难以对图像生成模型生成的图像的真伪进行判别,因此图像生成模型生成的图像接近可以以假乱真,也就是说,图像生成模型生成的图像在能够对图像进行风格转换的同时,可以在目标图像中较大程度地保留原始图像的图像细节,图像纹理以及图像轮廓,在实际的应用过程中,取得了较好的应用效果。

请参考图9,图9是根据一示例性实施例示出的图像生成方法的示意图,对于任意一种风格的输入图像,可以在图像生成模型所支持的图像风格中选择一种风格(目标风格),作为对应的目标图像的风格,根据该目标风格在上述图像生成模型中确定目标风格向量,将该输入图像和该目标风格向量一并输入图像生成模型中的图像生成网络,即可得到上述图像生成网络输出的目标图像,该目标图像具有该目标风格。

示例性的,若图像生成模型支持二次元风格、素描风格,油画风格和贴纸风格,将国画风格的图像输入该图像生成模型,选择二次元风格作为图像生成风格,即可得到二次元风格的目标图像;若图像生成模型支持二次元风格、素描风格,油画风格和贴纸风格,将国画风格的图像输入该图像生成模型,选择二次元风格作为图像生成风格,即可得到二次元风格的目标图像;选择素描风格作为图像生成风格,即可得到素描风格的目标图像;选择二油画风格作为图像生成风格,即可得到油画风格的目标图像;选择贴纸风格作为图像生成风格,即可得到贴纸风格的目标图像。

本公开实施例基于图像生成模型,可以为任意风格的原始图像生成具备目标风格的目标图像,并且由于图像生成模型支持多种图像风格,因此,图像生成风格也可以有多种,即可以基于单张图像得到多张具有对应的目标风格的目标图像。

图10是根据一示例性实施例示出的一种图像生成模型训练装置的框图。参照图10,该装置包括:

样本图像集确定模块10,被配置为执行获取至少两个样本图像集,每个上述样本图像集具有不同的图像风格;

训练对象获取模块20,被配置为执行获取待训练的图像生成模型以及每种上述图像风格对应的判别器,上述图像生成模型包括图像生成网络和每种上述图像风格对应的风格向量;上述风格向量用于触发上述图像生成网络生成具备对应的图像风格的风格化图像;

图像生成模块30,被配置为执行将每个样本图像集中的样本图像以及各个上述风格向量输入上述图像生成网络,得到每个上述风格向量对应的风格化图像;

第一损失计算模块40,被配置为执行将各个上述风格化图像输入对应的判别器,得到上述判别器产生的第一判别器损失和第二判别器损失;上述第一判别器损失表征上述判别器的判别精度损失,上述第二判别器损失表征上述图像生成网络相对于上述判别器的图像生成精度损失;

第二损失计算模块50,被配置为执行根据上述样本图像、各个上述风格化图像以及各个上述判别器对应的上述第二判别器损失,得到上述图像生成网络产生的图像生成损失;

训练模块60,被配置为执行根据上述第一判别器损失训练对应的判别器,以及根据上述图像生成损失训练上述图像生成网络和各个上述风格向量;将训练好的上述图像生成网络和训练好的各个上述风格向量确定为上述图像生成模型。

在一示例性的实施方式中,上述第一损失计算模块,被配置为执行将每个上述风格化图像输入对应的判别器,得到上述判别器产生的判别结果;上述判别器对应于上述风格化图像对应的风格向量;根据上述判别结果与上述风格化图像的真实值之间的差值,计算得到上述第一判别器损失。

在一示例性的实施方式中,上述第一损失计算模块,被配置为执行根据上述判别结果与上述风格化图像的期待值之间的差值,计算得到上述第二判别器损失。

在一示例性的实施方式中,上述第二损失计算模块,包括:

高频损失计算单元,被配置为执行根据任意两个风格化图像的高频分量,计算得到高频损失;上述任意两个风格化图像均基于同一个样本图像生成;

目标风格化图像确定单元,被配置为执行在上述各个风格化图像中确定目标风格化图像,上述目标风格化图像由上述图像生成网络根据上述样本图像的图像风格对应的风格向量和上述样本图像生成;

一致性损失计算单元,被配置为执行根据上述目标风格化图像和上述样本图像之间的像素差异,计算得到一致性损失;

图像生成损失计算单元,被配置为执行根据上述高频损失、一致性损失和各个上述判别器对应的上述第二判别器损失,得到上述图像生成损失。

在一示例性的实施方式中,上述装置还包括训练控制模块,被配置为执行当上述图像生成损失小于预设的损失阈值时,训练得到上述图像生成模型;或,当训练目标的训练次数大于预设的训练次数阈值时,得到上述图像生成模型,上述训练目标包括上述判别器、上述图像生成网络或上述风格向量中的一个或多个。

图11是根据一示例性实施例示出的一种图像生成装置的框图。参照图11,该装置包括:

生成要素获取模块10-1,被配置为执行获取原始图像和目标风格,上述目标风格表示待生成的目标图像对应的风格;

目标风格向量获取模块20-1,被配置为执行根据上述目标风格,在图像生成模型中确定对应的目标风格向量;

目标图像获取模块30-1,被配置为执行将上述原始图像和上述目标风格向量输入上述图像生成模型中的图像生成网络,得到具备上述目标风格的目标图像;

其中,上述图像生成模型根据上述方法实施例上述的图像生成模型的训练方法得到。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

在示例性实施例中,还提供了一种电子设备,包括处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行存储器上所存放的指令时,实现上述实施例中的图像生成模型的训练方法或者图像生成方法的步骤。

该电子设备可以终端、服务器或者类似的运算装置,以该电子设备是服务器为例,图12是根据一示例性实施例示出的图像生成模型的训练方法或者图像生成方法的电子设备的框图,该电子设备1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1020通信,在电子设备1000上执行存储介质1020中的一系列指令操作。电子设备1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作系统1021,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中,输入输出接口100可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解,图12所示的结构仅为示意,其并不对上述电子设备的结构造成限定。例如,电子设备1000还可包括比图12中所示更多或者更少的组件,或者具有与图12所示不同的配置。

在示例性实施例中,还提供了一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述实施例中任一种实施方式中提供的图像生成模型的训练方法或者图像生成方法。

在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任一种实施方式中提供的图像生成模型的训练方法或者图像生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 图像生成模型训练方法、图像生成方法、装置、设备及存储介质
  • 图像生成模型训练方法和装置、图像生成方法和装置
技术分类

06120112922066