掌桥专利:专业的专利平台
掌桥专利
首页

图像生成模型的微调训练方法及装置

文献发布时间:2024-07-23 01:35:21


图像生成模型的微调训练方法及装置

技术领域

本公开涉及图像处理技术领域,尤其涉及一种图像生成模型的微调训练方法及装置。

背景技术

图像生成模型可以根据提示信息,针对性地生成若干个特定的图像,应用非常广泛。目前图像生成模型存在因为图像特征之间的冲突混淆,使得生成图像还原性极差的问题。

发明内容

有鉴于此,本公开实施例提供了一种图像生成模型的微调训练方法、装置、电子设备及计算机可读存储介质,以解决现有技术中图像生成模型生成图像还原性差的问题。

本公开实施例第一方面,提供了一种图像生成模型的微调训练方法,包括:为图像生成模型增加微调分支,得到微调模型,其中,图像生成模型属于扩散模型,扩散模型处理图像的过程分为扩散过程和逆扩散过程;获取多张训练图像以及各张训练图像对应的文本描述,将一张训练图像和其对应的文本描述作为一个正样本,将一张训练图像和其它训练图像对应的文本描述作为一个负样本,得到多个正样本和多个负样本;将各个正样本和各个负样本输入微调模型,通过微调模型的扩散过程为各个正样本和各个负样本添加噪声,通过微调模型的逆扩散过程预测并去除扩散过程中为各个正样本和各个负样本添加的噪声;根据各个正样本对应添加的噪声和预测的噪声,计算各个正样本的匹配损失,根据各个负样本对应添加的噪声和预测的噪声,计算各个负样本的非匹配损失;依据各个正样本的匹配损失和各个负样本的非匹配损失优化微调模型的模型参数,以完成对微调模型的微调训练。

本公开实施例第二方面,提供了一种图像生成模型的微调训练装置,包括:构建模块,被配置为为图像生成模型增加微调分支,得到微调模型,其中,图像生成模型属于扩散模型,扩散模型处理图像的过程分为扩散过程和逆扩散过程;获取模块,被配置为获取多张训练图像以及各张训练图像对应的文本描述,将一张训练图像和其对应的文本描述作为一个正样本,将一张训练图像和其它训练图像对应的文本描述作为一个负样本,得到多个正样本和多个负样本;微调模块,被配置为将各个正样本和各个负样本输入微调模型,通过微调模型的扩散过程为各个正样本和各个负样本添加噪声,通过微调模型的逆扩散过程预测并去除扩散过程中为各个正样本和各个负样本添加的噪声;计算模块,被配置为根据各个正样本对应添加的噪声和预测的噪声,计算各个正样本的匹配损失,根据各个负样本对应添加的噪声和预测的噪声,计算各个负样本的非匹配损失;优化模块,被配置为依据各个正样本的匹配损失和各个负样本的非匹配损失优化微调模型的模型参数,以完成对微调模型的微调训练。

本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在有益效果是:为图像生成模型增加微调分支,得到微调模型,其中,图像生成模型属于扩散模型,扩散模型处理图像的过程分为扩散过程和逆扩散过程;获取多张训练图像以及各张训练图像对应的文本描述,将一张训练图像和其对应的文本描述作为一个正样本,将一张训练图像和其它训练图像对应的文本描述作为一个负样本,得到多个正样本和多个负样本;将各个正样本和各个负样本输入微调模型,通过微调模型的扩散过程为各个正样本和各个负样本添加噪声,通过微调模型的逆扩散过程预测并去除扩散过程中为各个正样本和各个负样本添加的噪声;根据各个正样本对应添加的噪声和预测的噪声,计算各个正样本的匹配损失,根据各个负样本对应添加的噪声和预测的噪声,计算各个负样本的非匹配损失;依据各个正样本的匹配损失和各个负样本的非匹配损失优化微调模型的模型参数,以完成对微调模型的微调训练。采用上述技术手段,可以解决现有技术中图像生成模型生成图像还原性差的问题,进而提升图像生成模型的效果,提高图像生成模型生成图像的还原性。

附图说明

为了更清楚地说明本公开实施例中技术方案,下面将对实施例或现有技术描述中所需要使用附图作简单地介绍,显而易见地,下面描述中附图仅仅是本公开一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其它附图。

图1是本公开实施例提供一种图像生成模型的微调训练方法的流程示意图;

图2是本公开实施例提供另一种图像生成模型的微调训练方法的流程示意图;

图3是本公开实施例提供一种图像生成模型的微调训练装置结构示意图;

图4是本公开实施例提供一种电子设备结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类具体细节,以便透彻理解本公开实施例。然而,本领域技术人员应当清楚,在没有这些具体细节其它实施例中也可以实现本公开。在其它情况中,省略对众所周知系统、装置、电路以及方法详细说明,以免不必要细节妨碍本公开描述。

下面将结合附图详细说明根据本公开实施例一种图像生成模型的微调训练方法和装置。

图1是本公开实施例提供一种图像生成模型的微调训练方法的流程示意图。图1图像生成模型的微调训练方法可以由计算机或服务器,或者计算机或服务器上软件执行。如图1所示,该图像生成模型的微调训练方法包括:

S101,为图像生成模型增加微调分支,得到微调模型,其中,图像生成模型属于扩散模型,扩散模型处理图像的过程分为扩散过程和逆扩散过程;

S102,获取多张训练图像以及各张训练图像对应的文本描述,将一张训练图像和其对应的文本描述作为一个正样本,将一张训练图像和其它训练图像对应的文本描述作为一个负样本,得到多个正样本和多个负样本;

S103,将各个正样本和各个负样本输入微调模型,通过微调模型的扩散过程为各个正样本和各个负样本添加噪声,通过微调模型的逆扩散过程预测并去除扩散过程中为各个正样本和各个负样本添加的噪声;

S104,根据各个正样本对应添加的噪声和预测的噪声,计算各个正样本的匹配损失,根据各个负样本对应添加的噪声和预测的噪声,计算各个负样本的非匹配损失;

S105,依据各个正样本的匹配损失和各个负样本的非匹配损失优化微调模型的模型参数,以完成对微调模型的微调训练。

图像生成模型是一类用于从现有数据集中生成新图像的模型。这些模型主要基于深度学习技术,通过学习训练集中的图像数据,能够生成与训练集相似或具有特定风格、内容的新图像。图像生成模型可以是stablediffusion。本申请实施例使用的图像生成模型如stablediffusion,是扩散模型,扩散模型处理图像的过程分为扩散过程和逆扩散过程,扩散过程为图像添加噪声,逆扩散过程预测并去除扩散过程中为图像添加的噪声。

通过为图像生成模型增加微调分支,得到微调模型。训练图像对应的文本描述是描述训练图像中对象特征的文本信息,比如训练图像是关于人的图像,文本描述则是描述人外貌和穿着特征的文本。将一张训练图像和其对应的文本描述作为一个正样本(正样本的训练图像和文本描述是相互符合的),将一张训练图像和其它任意一张训练图像对应的文本描述作为一个负样本(负样本的训练图像和文本描述是不相互符合的)。将各个正样本和各个负样本输入微调模型,计算各个正样本对应添加的噪声和预测的噪声的匹配损失,计算各个负样本对应添加的噪声和预测的噪声的非匹配损失,使用匹配损失和非匹配损失优化微调模型的模型参数。图像生成模型增加微调分支之前,图像生成模型就已经通过训练,相当于图像生成模型是预训练模型。本申请实施例是为图像生成模型增加微调分支,进行微调训练。

根据本申请实施例提供技术方案,为图像生成模型增加微调分支,得到微调模型,其中,图像生成模型属于扩散模型,扩散模型处理图像的过程分为扩散过程和逆扩散过程;获取多张训练图像以及各张训练图像对应的文本描述,将一张训练图像和其对应的文本描述作为一个正样本,将一张训练图像和其它训练图像对应的文本描述作为一个负样本,得到多个正样本和多个负样本;将各个正样本和各个负样本输入微调模型,通过微调模型的扩散过程为各个正样本和各个负样本添加噪声,通过微调模型的逆扩散过程预测并去除扩散过程中为各个正样本和各个负样本添加的噪声;根据各个正样本对应添加的噪声和预测的噪声,计算各个正样本的匹配损失,根据各个负样本对应添加的噪声和预测的噪声,计算各个负样本的非匹配损失;依据各个正样本的匹配损失和各个负样本的非匹配损失优化微调模型的模型参数,以完成对微调模型的微调训练。采用上述技术手段,可以解决现有技术中图像生成模型生成图像还原性差的问题,进而提升图像生成模型的效果,提高图像生成模型生成图像的还原性。

进一步地,为图像生成模型增加微调分支,得到微调模型,包括:为图像生成模型增加LoRA微调分支,得到微调模型;或者为图像生成模型增加Controlnet微调分支,得到微调模型;或者为图像生成模型增加Dreambooth微调分支,得到微调模型。

LoRA(Low-Rank Adaptation)分支是微软研究人员为处理微调大型语言模型的问题而引入的一项新技术。它提出冻结预训练模型权重并注入可训练层(秩分解矩阵)在每个变压器块中。这样大大减少了可训练参数的数量和GPU内存要求,因为不需要为大多数模型权重计算梯度。图像生成模型由编码网络、中间网络和解码网络构成,编码网络、中间网络和解码网络均是采用U-Net架构,为图像生成模型增加微调分支,可以是为每个U-Net上增加LoRA微调分支。

ControlNet微调分支通过拷贝图像生成模型(如Stable Diffusion)的部分权重,并作为一个新的分支进行微调训练。在训练过程中,它保持原始模型权重的不变性,同时在开始训练时使用零卷积将原始权重分支与新的微调分支相连。这样做的好处是,可以利用已经在大规模图片数据上预训练的原始模型权重,从而尽量保持原模型的性能,同时实现高效的训练。为图像生成模型增加微调分支,可以是为图像生成模型整体增加一个Controlnet微调分支。

DreamBooth微调分支是一种针对文生图扩散模型的微调方法,主要用于提升模型生成特定主题或对象图像的能力。具体来说,通过DreamBooth的微调,模型可以在接收到特定的提示词时,生成与这些提示词紧密相关的图像内容。为图像生成模型增加微调分支,可以是为图像生成模型整体增加一个Dreambooth微调分支。

进一步地,将各个正样本和各个负样本输入微调模型,通过微调模型的扩散过程为各个正样本和各个负样本添加噪声,通过微调模型的逆扩散过程预测并去除扩散过程中为各个正样本和各个负样本添加的噪声,包括:将各个正样本和各个负样本输入微调模型,在微调模型内部:通过微调模型的扩散过程为各个正样本和各个负样本连续多次添加噪声,得到各个正样本和各个负样本的扩散特征;通过微调模型的逆扩散过程为各个正样本和各个负样本的扩散特征连续多次预测并去除噪声,得到各个正样本和各个负样本的微调图像。

将添加的噪声记作∈,∈为高斯白噪声。第t次通过α

微调模型的扩散过程为各个正样本和各个负样本连续多次添加噪声,微调模型的逆扩散过程为连续多次预测并去除扩散过程中添加的噪声,最终得到各个正样本和各个负样本的微调图像。

在一些实施例中,通过微调模型的扩散过程为各个正样本和各个负样本的训练图像连续多次添加噪声,得到各个正样本和各个负样本的训练图像的扩散特征,其中,为各个正样本和各个负样本的训练图像添加的噪声会加强或者不会减弱各个正样本和各个负样本的训练图像对应的文本描述;通过微调模型的逆扩散过程为各个正样本和各个负样本的训练图像的扩散特征连续多次预测并去除噪声,得到各个正样本和各个负样本的训练图像的微调图像,其中,为各个正样本和各个负样本的训练图像的扩散特征去除噪声会加强或者不会减弱各个正样本和各个负样本的训练图像对应的文本描述。

训练图像对应的文本描述表达的训练图像的特征在添加的噪声和去除噪声的过程中是需要加强或者不会减弱的。本申请实施例通过文本描述引导微调模型的扩散过程和逆扩散过程,以得到训练图像的微调图像。

进一步地,通过如下公式计算各个正样本的匹配损失L1,包括:

其中,∈是添加的噪声,α

C

进一步地,通过如下公式计算各个负样本的非匹配损失L2,包括:

其中,α是预设的超参数,∈是添加的噪声,α

图2是本公开实施例提供另一种图生图模型的训练方法的流程示意图,如图2所示,该方法包括:

S201,将各个正样本和各个负样本输入微调模型,通过微调模型输出各个正样本和各个负样本的微调图像;

S202,计算各个正样本和各个负样本的训练图像和微调图像之间的微调损失;

S203,依据各个正样本的匹配损失和微调损失以及各个负样本的非匹配损失和微调损失优化微调模型的模型参数,以完成对微调模型的微调训练。

在一个可选实施例中,获取待处理图像以及待处理图像对应的目标文本描述;将待处理图像和目标文本描述输入微调模型,通过微调模型的扩散过程为待处理图像添加噪声,通过微调模型的逆扩散过程预测并去除扩散过程中为待处理图像添加的噪声,其中,扩散过程中添加噪声和逆扩散过程中去除噪声均是在目标文本描述的指导下进行的;通过微调模型的逆扩散过程预测并去除扩散过程中为待处理图像添加的噪声,得到待处理图像的微调图像。

目标文本描述是待处理图像的提示词。训练图像对应的文本描述是训练图像的提示词。

上述所有可选技术方案,可以采用任意结合形成本申请可选实施例,在此不再一一赘述。

下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露细节,请参照本公开方法实施例。

图3是本公开实施例提供一种图像生成模型的微调训练装置示意图。如图3所示,该图像生成模型的微调训练装置包括:

构建模块301,被配置为为图像生成模型增加微调分支,得到微调模型,其中,图像生成模型属于扩散模型,扩散模型处理图像的过程分为扩散过程和逆扩散过程;

获取模块302,被配置为获取多张训练图像以及各张训练图像对应的文本描述,将一张训练图像和其对应的文本描述作为一个正样本,将一张训练图像和其它训练图像对应的文本描述作为一个负样本,得到多个正样本和多个负样本;

微调模块303,被配置为将各个正样本和各个负样本输入微调模型,通过微调模型的扩散过程为各个正样本和各个负样本添加噪声,通过微调模型的逆扩散过程预测并去除扩散过程中为各个正样本和各个负样本添加的噪声;

计算模块304,被配置为根据各个正样本对应添加的噪声和预测的噪声,计算各个正样本的匹配损失,根据各个负样本对应添加的噪声和预测的噪声,计算各个负样本的非匹配损失;

优化模块305,被配置为依据各个正样本的匹配损失和各个负样本的非匹配损失优化微调模型的模型参数,以完成对微调模型的微调训练。

根据本申请实施例提供技术方案,为图像生成模型增加微调分支,得到微调模型,其中,图像生成模型属于扩散模型,扩散模型处理图像的过程分为扩散过程和逆扩散过程;获取多张训练图像以及各张训练图像对应的文本描述,将一张训练图像和其对应的文本描述作为一个正样本,将一张训练图像和其它训练图像对应的文本描述作为一个负样本,得到多个正样本和多个负样本;将各个正样本和各个负样本输入微调模型,通过微调模型的扩散过程为各个正样本和各个负样本添加噪声,通过微调模型的逆扩散过程预测并去除扩散过程中为各个正样本和各个负样本添加的噪声;根据各个正样本对应添加的噪声和预测的噪声,计算各个正样本的匹配损失,根据各个负样本对应添加的噪声和预测的噪声,计算各个负样本的非匹配损失;依据各个正样本的匹配损失和各个负样本的非匹配损失优化微调模型的模型参数,以完成对微调模型的微调训练。采用上述技术手段,可以解决现有技术中图像生成模型生成图像还原性差的问题,进而提升图像生成模型的效果,提高图像生成模型生成图像的还原性。

在一些实施例中,构建模块301还被配置为为图像生成模型增加LoRA微调分支,得到微调模型;或者为图像生成模型增加Controlnet微调分支,得到微调模型;或者为图像生成模型增加Dreambooth微调分支,得到微调模型。

在一些实施例中,微调模块303还被配置为将各个正样本和各个负样本输入微调模型,在微调模型内部:通过微调模型的扩散过程为各个正样本和各个负样本连续多次添加噪声,得到各个正样本和各个负样本的扩散特征;通过微调模型的逆扩散过程为各个正样本和各个负样本的扩散特征连续多次预测并去除噪声,得到各个正样本和各个负样本的微调图像。

在一些实施例中,微调模块303还被配置为通过微调模型的扩散过程为各个正样本和各个负样本的训练图像连续多次添加噪声,得到各个正样本和各个负样本的训练图像的扩散特征,其中,为各个正样本和各个负样本的训练图像添加的噪声会加强或者不会减弱各个正样本和各个负样本的训练图像对应的文本描述;通过微调模型的逆扩散过程为各个正样本和各个负样本的训练图像的扩散特征连续多次预测并去除噪声,得到各个正样本和各个负样本的训练图像的微调图像,其中,为各个正样本和各个负样本的训练图像的扩散特征去除噪声会加强或者不会减弱各个正样本和各个负样本的训练图像对应的文本描述。

在一些实施例中,计算模块304还被配置为通过如下公式计算各个正样本的匹配损失L1,包括:

其中,∈是添加的噪声,α

C

在一些实施例中,计算模块304还被配置为通过如下公式计算各个负样本的非匹配损失L2,包括:

其中,α是预设的超参数,∈是添加的噪声,α

在一些实施例中,优化模块305还被配置为将各个正样本和各个负样本输入微调模型,通过微调模型输出各个正样本和各个负样本的微调图像;计算各个正样本和各个负样本的训练图像和微调图像之间的微调损失;依据各个正样本的匹配损失和微调损失以及各个负样本的非匹配损失和微调损失优化微调模型的模型参数,以完成对微调模型的微调训练。

在一些实施例中,优化模块305还被配置为获取待处理图像以及待处理图像对应的目标文本描述;将待处理图像和目标文本描述输入微调模型,通过微调模型的扩散过程为待处理图像添加噪声,通过微调模型的逆扩散过程预测并去除扩散过程中为待处理图像添加的噪声,其中,扩散过程中添加噪声和逆扩散过程中去除噪声均是在目标文本描述的指导下进行的;通过微调模型的逆扩散过程预测并去除扩散过程中为待处理图像添加的噪声,得到待处理图像的微调图像。

应理解,上述实施例中各步骤序号大小并不意味着执行顺序先后,各过程执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例实施过程构成任何限定。

图4是本公开实施例提供电子设备4示意图。如图4所示,该实施例电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元功能。

电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4示例,并不构成对电子设备4限定,可以包括比图示更多或更少部件,或者不同部件。

处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器402可以是电子设备4内部存储单元,例如,电子设备4硬盘或内存。存储器402也可以是电子设备4外部存储设备,例如,电子设备4上配备插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备4内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需其它程序和数据。

所属领域技术人员可以清楚地了解到,为了描述方便和简洁,仅以上述各功能单元、模块划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同功能单元、模块完成,即将装置内部结构划分成不同功能单元或模块,以完成以上描述全部或者部分功能。实施例中各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成单元既可以采用硬件形式实现,也可以采用软件功能单元形式实现。

集成模块/单元如果以软件功能单元形式实现并作为独立产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样理解,本公开实现上述实施例方法中全部或部分流程,也可以通过计算机程序来指令相关硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明是,计算机可读介质包含内容可以根据司法管辖区内立法和专利实践要求进行适当增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细说明,本领域普通技术人员应当理解:其依然可以对前述各实施例所记载技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案本质脱离本公开各实施例技术方案精神和范围,均应包含在本公开保护范围之内。

相关技术
  • 一种用于图像定位的模型训练方法、图像定位方法及装置
  • 一种图像识别模型的训练方法、图像识别方法和相关装置
  • 神经网络、训练方法、图像处理方法及图像处理装置
  • 模型训练方法、替换图像背景的方法、装置和电子系统
  • 神经网络的训练方法、图像分割方法、装置、设备及介质
  • 图像生成模型的训练方法和装置、图像生成方法及装置
  • 图像生成模型的训练方法及装置、图像生成方法及装置
技术分类

06120116678675