掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明属于计算机视觉领域,主要涉及小样本场景中的图像生成问题;主要应用于图像编辑、生成以及扩充增强等领域。

背景技术

随着深度学习的不断发展,其在计算机视觉领域中取得了显著的进步,并被应用于各个领域。其中,深度图像生成模型,利用深度网络学习和理解图片的内容和分布,并学会生成与真实图片相类似的真实图片,是计算机视觉领域中的热点问题。深度图像生成模型是图像修复、编辑、超分辨率等任务的基础,可以应用于影视媒体、创意设计等各类领域。然而,深度图像生成模型的训练通常需要大量的数据和计算代价,极大的限制了生成模型在只具有少量图片领域的应用,如医学影像、名人画作等。将生成模型应用于小样本场景中是非常有应用和研究意义的方向,不仅能够通过生成数据实现小样本场景中的数据扩充,还能将生成数据用于辅助小样本分类、分割等问题。

当给定少量的图片训练时,生成模型通常会过拟合并简单的记住训练数据,不能够产生真实和多样的图片。为了提高小样本场景中生成图像的真实性和多样性,研究者们提出了各种方法来减轻模型过拟合问题。一种直接的方法就是利用迁移学习的思想,假设存在与小样本数据相近且拥有大量数据的源域,首先对源域预训练,然后将源域中的知识迁移到小样本目标域,来提升小样本生成的多样性和真实性。然而,这类方法存在两个问题:第一,源域的预训练仍然需要大量的计算和采集代价;第二,当源域与小样本目标域存在一定偏差时,反而会降低小样本目标域的性能。

另一类小样本生成方法通过数据增强技术,将小样本数据进行翻转、平移等实现数据扩充,增加模型可用的训练数据。这类方法同样存在两个问题:第一,对原始图片进行翻转平移可能会改变原始数据的分布,从而误导生成模型产生不合理的生成图片;第二,对样本进行的增广本质上还是在同一批数据进行处理,并不会改变内在结构,所以模型还是很容易发生过拟合。

发明内容

与现有的小样本图像生成方法不同,本发明从数据先验和数据本质出发,基于更复杂的先验信息能够给模型提供更多可编辑属性的假设,设计高斯动态混合隐空间编码作为生成模型的输入信号,提供更具多样性的混合高斯隐编码给生成模型。同时,为了进一步保证生成图片的多样性和真实性,本发明设计针对生成过程中间特征进行内容和布局的混合注意力增强模块,保证局部内容和全局布局的合理性和完整性。通过融合上述两个模块,本发明构建了一种小样本图像生成方法,在来源于包含漫画风格和真实照片等不同领域的小样本数据上,本发明取得了出色的效果。

本发明目的在于提供一种小样本图像生成方法,提高小样本场景下生成图片的保真度和丰富度。

本发明是一种小样本图像生成方法,通过引入动态混合高斯隐编码,给生成模型提供更多可变、可编辑的属性,解决现有小样本生成方法多样性不足的问题。同时,为了进一步提升生成图片的真实性,本发明提出混合注意力机制,对生成过程中间特征的全局布局和局部内容进行增强,有效的保留了中间特征的关键信息。通过融合上述方法,本发明有效地提高了小样本图像生成的多样性和真实性,缓解了小样本场景中模型训练不稳定和过拟合等问题。

为了方便地对本发明内容进行描述,首先给出一些常用术语的定义。

定义1:生成对抗网络(Generative Adversarial Networks):生成对抗网络是最常用且被应用得最多的深度生成模型,本发明生成系统以生成对抗网络为基网络构建而来,生成对抗网络通常由生成网络(Generator,G)和判别网络(Discriminator,D)组成,其中生成网络G将从特定分布采样得到的隐编码(Latent Code)映射为生成图片,生成的图片与真实图片一并送入到判别网络D中,判别网络学习将生成图片和真实图片区分开来,生成对抗网络的训练目标函数为:

上述公式中,I

定义2:隐编码(Latent Code):隐编码是生成网络G的输入,通常是从特定分布(如高斯分布、均匀分布等)中随机采样得到的固定长度的向量,用z表示。生成网络D学习将隐编码z映射为生成图片。

定义3:注意力机制(Attention Mechanism):注意力机制受人类视觉注意力机制启发,学习图像中更应该受关注的内容,并增大相对应部分内容的权重。

定义4:高斯混合分布(Gaussian Mixture Distribution):高斯混合分布表示由N个高斯分布组合而成的分布,为了给本发明的生成网络提供更多可编辑和可变的属性,本发明从高斯混合分布中随机采样隐编码作为生成网络的输入,而不是像现有方法从单个高斯分布中采样隐编码作为生成网络的输入。

上面公式中,

定义5:重参数化技巧(Reparameterization Trick):由于从N个高斯分布采样得到隐编码会导致神经网络变得不可微分,本发明对高斯混合分布进行重参数化处理,首先从其中一个高斯分布采样得到δ,然后进行展平重参数化得到z:

z=u

上面公式中,u

为了给生成网络进一步提供更多可变和可编辑的属性,本发明进一步引入动态调控因子λ,λ可以动态调控隐编码的高斯成分:

z=λu

上面公式中,λ为动态调控因子,u

定义6:Sigmoid激活函数:激活函数将模型的输入通过非线性变化得到新的输出,其形式化定义为:

上面公式中,e表示自然指数,z为激活函数的输入,g(z)为Sigmoid激活函数。

定义7:卷积(Convolution):卷积是针对输入图像像素点的空间依赖性对图像进行处理的一种技术。

定义8:池化(Pooling):池化将输入的特征图,按照一定的规则将特征图降维压缩,选取的规则包括最大池化、平均池化。

本发明所述的一种小样本图像生成方法,其特征在于,所述小样本图像生成方法包括:

从动态高斯混合分布中随机采样获取动态高斯混合隐编码,所述动态高斯混合分布为引入动态调控因子的高斯混合分布;

将所述动态高斯混合隐编码输入到生成网络,通过混合注意力机制对所述生成网络的中间特征进行增强,所述中间特征为所述生成网络对所述动态高斯混合隐编码映射所得,增强后的中间特征输入到所述生成网络中,得到生成图像集合;

将所述生成图像集合和真实图像集合输入到判别网络中,得到对所述生成图像集合和所述真实图像集合的图像判别结果;

根据所述图像判别结果,以及所述生成网络和所述判别网络的目标优化函数更新所述生成网络和所述判别网络,得到更新后的生成网络和判别网络。

本发明所述的一种小样本图像生成方法,帮助解决小样本场景下由于数据有限导致的过拟合、模型坍塌问题,提升生成图片的真实性和多样性。

本发明所述的一种小样本图像生成方法,其特征在于,所述动态高斯混合分布符合如下对应关系:

z=λu

其中,z为所述动态高斯混合分布,λ为动态调控因子,可以调整动态高斯混合隐编码中高斯分布的成分,u

本发明所述的一种小样本图像生成方法,其特征在于,所述混合注意力机制包含空间注意力机制和通道注意力机制。所述混合注意力机制增强对生成网络的中间特征进行增强,所述中间特征为生成网络对动态高斯混合隐编码映射得到,其中包括了生成图片的全局布局和局部内容信息,使用所述混合注意力增强后帮助提高生成图片的真实性。

本发明所述的一种小样本图像生成方法,其特征在于,所述空间注意力机制关注于特征的哪部分内容是最重要的,并对该部分内容进行增强。所述空间注意力机制首先利用池化操作将通道信息聚合,得到两个2D的特征图:

其中σ表示Sigmoid激活函数,AvgPool和MaxPool分别表示所述平均池化和所述最大池化,f

本发明所述的一种小样本图像生成方法,其特征在于,所述通道注意力机制关注于特征图中的什么内容是值得关注的,为了计算所述通道注意力的特征图,首先使用平均池化和最大池化将空间信息进行挤压,得到两个2D所述特征图:

其中σ表示Sigmoid激活函数,W

本发明所述的一种小样本图像生成方法,其特征在于,所述根据所述图像判别结果,根据所述生成网络和所述判别网络的目标优化函数更新所述生成网络和所述判别网络的参数。包括:

将所述图像判别结果带入所述判别网络的所述目标优化函数,更新所述判别网络的参数,其中,所述判别网络的所述目标优化函数符合如下对应关系:

其中E表示期望,I

将所述图像判别结果带入所述生成网络的所述目标优化函数,更新所述生成网络的参数,其中,所述生成网络的所述目标优化函数符合如下对应关系:

L

其中E表示期望,z为所述动态高斯混合分布,x~G(z)为所述生成图像集合,D(x)为所述图像判别结果。

本发明所述的一种小样本图像生成方法,其特征在于,在所述根据所述生成网络和所述判别网络的目标优化函数更新所述生成网络和所述判别网络的参数之后,所述方法还包括:根据所述更新后的生成网络判别网络,所述更新后的生成网络用于生成图像数据用于数据增强、分类和分割中的至少一项。

本发明所述的一种小样本图像生成方法,其特征在于,包括生成器和判别器,所述生成器与所述生成网络耦合,所述判别器与所述判别网络耦合,所述生成方法用于执行所述生成器与判别器的程序。

本发明的有益效果是:本发明设计的小样本图像生成方法以所述动态混合高斯隐编码为输入,为生成网络提供了更多可编辑和更多变的属性,提升生成样本的多样性;利用所述混合注意力机制对所述生成过程中间特征的局部内容和全局布局进行增强,提升生成样本的真实性。二者融合在一起,减轻了生成模型的过拟合问题,在小样本场景下仍然能生成足够真实且多样的图片。本发明并不局限于特定的生成模型,可以适配性的嵌套入其他模型中,帮助提升生成样本的多样性和真实性,避免生成模型常出现的模式崩塌等问题。生成的图片也可以被用于图像分类、分割等领域。

附图说明

图1是本发明实施例提供的整体训练流程图。

图2是本发明实施例提供的整体框架图。

图3是本发明实施例提供的混合注意力机制图。

图4是本发明实施例提供的在艺术绘画风景和真实动物照片数据集的生成效果图。

图5是本发明实施例提供的在动漫人脸和真实人脸照片数据集的生成效果图。

具体实施方式

以下将结合图例具体阐述本发明的实施方式,为明确发明实施过程,系统实务细节也将详细说明。然而,这些实务细节并不会将本发明限制在所述的实施例范围之中。

本发明是一种小样本图像生成方法,利用动态高斯混合隐编码作为生成网络的输入,为生成网络提供更丰富的先验信息以及更多可编辑的属性信息;生成网络将隐编码映射为生成图片,在生成网络产生中间图片的过程中,中间特征表示包含了最终生成图片的局部内容和全局布局信息,使用混合注意力机制对中间表示的内容和布局信息进行增强,最后生成图片;将生成图片和真实图片输入到判别模型中,判别模型需要鉴别给定图片是生成的还是真实的;通过判别损失来对生成网络和判别网络进行更新,生成网络要学会生成尽可能接近真实分布的图片,判别网络要尽可能将真实图片和生成图片区分开来,二者相互博弈,在不断训练中变好,最终达到均衡状态。

本发明基于所述的生成网络和判别网络在小样本图像数据集上学习生成具有真实性和多样性的图片。训练流程参见图1,总体框架参见图2。

本发明的具体执行过程如下:

步骤1:参数初始化

初始化训练图片尺寸D、训练集P、Batch Size、训练迭代次数T、对生成网络G和判别网络D进行随机初始化;

步骤2:采样动态高斯混合隐编码和数据集样本

从动态高斯混合分布中随机采样m个隐编码{z

z=λu

其中,λ为动态调控因子,可以动态地调整混合隐编码中高斯分布的成分,δ为从均值为0,方差为1的高斯分布中随机采样的向量。

步骤3:对m张原始图片进行预处理,将原始图片进行水平翻转、随机裁剪以及标准化,并将数据表示为张量形式;

步骤4:将隐编码输入到生成网络中,在生成的中间过程,去除中间特征表示,利用混合注意力机制对中间特征表示的内容和布局进行增强,增强后得到的特征表示继续用于生成网络,得到m张生成图片并处理成为与训练图片一样的格式{G(z

步骤4中所述混合注意力机制包括空间注意力机制以及通道注意力机制,关注于特征图的局部内容和全部布局信息,流程如图3所示。

步骤5:将m张生成图片{G(z

步骤6:训练判别网络

通过最小目标损失函数的方式来提高判别网络的判别概率,在判别网络的损失函数上利用梯度下降进行反向传播,更新判别网络参数;

判别网络的损失函数定义为:

其中E表示期望,I

步骤7:训练生成网络

生成网络在判别网络的指导下不断生成图片,生成的图片需要尽可能的与真实图片相似,让判别网络混淆,通过最小化生成网络的目标损失函数,增大判别网络误判的概率,利用梯度下降对生成网络进行反向传播,更新生成网络参数;

生成网络的损失函数定义为:

L

其中E表示期望,z为所述动态高斯混合分布,x~G(z)为所述生成图像集合,D(x)为所述图像判别结果。

步骤8:检查迭代次数,本发明设置的总迭代次数为50000次,反复执行步骤2-步骤7直至达到终止条件,并且每迭代10000次保存一次模型参数,最终获得5个模型,利用保存的模型可以读取生成网络参数,生成图片用于可视化对比和量化指标对比,生成的图片也可以用于数据增强,帮助提升分类、分割等任务。

实验设计

实验数据集

实验数据集选取来源于包括动漫、绘画、人脸、风景等不同风格的小样本图像数据集,包括256*256*3,512*512*3以及1024*1024*3不同分辨率,且所有的数据集都不超过1000张图片,数据及其有限,数据的详细介绍如表1,具有较大的挑战,同时也具有很强的应用和研究意义。

表1 实验数据集介绍

对比算法

本发明针对小样本场景下的图像生成,对比算法包括同样针对有限样本场景下的当前最好的方法StyleGAN2、DiffAug、ADA、FastGAN。

评价指标

对生成图片的真实性和多样性评价常用的指标是FID。FID计算真实图片与生成图片的距离,参考常用设置,选取真实训练图片作为参考图片,生成5000张图片,计算二者之间的分布距离,数值越小,代表生成图片越接近真实图片,也就是说性能越好。

FID的计算公式为:

FID=||μ

其中μ

实验结果

表2 本发明与对比方法在256*256*3数据集上的实验结果

表3 本发明与对比方法在512*512*3数据集上的实验结果

表4 本发明与对比方法在1024*1024*3数据集上的实验结果

表2,3,4给出了本发明方法与对比方法在不同分辨率数据集上的实验结果,可以看出,在样本量有限的场景下,本发明能够生成具备更高真实性和多样性的图片,证明了本发明作为小样本图像生成的有效性和优越性。

可视化分析

为了更好的调查本发明在小样本图像数据集上生成效果的多样性和真实性,针对不同分辨率,生成并整理可视化结果展示,参见图4和图5。从图中可视化效果可以看出,本发明产生的图片与真实图片较为接近,在不同分辨率的数据集上都取得了较好的效果,本发明产生的图片在局部内容、全局布局等方面都相当合理。

综上所述,本发明所提出的小样本图像生成方法,能够显著提升小样本场景下生成图片的多样性和真实性,从定量和定性结果分析,验证了本发明系统的有效性和实用性。同时,本发明所生成的图片可以用于数据有限场景下广泛的任务,包括数据增强、用于分类、分割等。此外,本发明也为领域内其他相关问题提供了参考,本发明的原理和思想可以拓展延伸到相关的其他应用场景,具有良好的参考和借鉴意义,同时也提供了十分广阔的应用前景。

以上所述为本发明的具体实施方式,并不将本发明限制于所述实例,对于本领域技术人员而言,本发明可以适配于各种不同的模型,也可以根据具体的任务进行适配性的调整和更改。凡在本发明的原理范围内所做的任何修改、替换和改进等,都应当包含在本发明的权利要求范围内。

相关技术
  • 一种基于小样本持续学习的图像生成方法
  • 一种基于小样本持续学习的图像生成方法
技术分类

06120115613982