掌桥专利:专业的专利平台
掌桥专利
首页

基于解耦自增强的细节可控个性化图像生成方法及系统

文献发布时间:2024-04-18 20:02:40


基于解耦自增强的细节可控个性化图像生成方法及系统

技术领域

本发明涉及数字图像生成领域,并特别涉及一种基于解耦自增强的细节可控个性化图像生成方法及系统。

背景技术

在今天,仅仅需要用户给出自然语言描述,大规模图像生成模型就能够合成以假乱真或者异想天开的图像。数字内容合成领域的个性化生成任务旨在满足用户的定制化生成需求,通过学习用户指定的参考概念(例如个人自拍、宠物狗的照片等)生成包含这个概念的新图片。个性化技术可以为广告设计、艺术创作、社交媒体等广泛的应用场景提供支持。

现有的个性化生成方法大多关注高质量高效率的概念重建或多个概念的提取与组合。然而这些通常为概念级方法,仅仅关注对参考图片中整体概念的学习。在缺少额外训练数据或监督信息的情况下,这些方法无法解耦概念的不同视觉信息。另一些方法探索了如何拆解单个概念,独立学习构成原概念的视觉属性或细分概念,满足了用户提取细分属性和分析概念组成的需求。然而,这类方法往往依赖于对视觉属性的先验知识或基于无监督训练流程,因此无法根据用户要求可控地解耦指定属性并进行个性化生成。

发明内容

本发明的目的是解决数字图像个性化任务中学习用户指定的视觉属性的问题,提出了一个基于解耦自增强策略的属性个性化框架。

具体来说,本发明提出了一种基于解耦自增强的细节可控个性化图像生成方法,其中包括:

步骤1、获取参考概念图像和其对应的文本指令,通过大语言模型提取该文本指令的属性描述,该属性描述包括目标属性和非目标属性,基于该概念图像的概念特征和该属性描述,生成多个初始图像并筛选,将筛选后的每张初始图像与其对应的属性描述作为训练样本;

步骤2、为该训练样本中初始图像添加噪声得到噪声图像,将该噪声图像和其对应的属性描述送入包括文本编码器的扩散网络,该扩散网络根据该属性描述,预测该噪声图像中所添加的噪声,根据该预测结果和真实添加噪声构建损失函数训练该扩散网络,得到图像生成模型;

步骤3、调整该图像生成模型中的文本编码器文本嵌入空间,获取具有该目标属性的图像生成文本指令,该文本编码器对该图像生成文本指令对应的文本嵌入进行语义矫正,得到文本条件向量,将噪声图像和该文本条件向量输入该图像生成模型中的扩散网络,根据该图像生成文本指令为噪声图像去噪,得到该图像生成文本指令对应的图像生成结果。

所述的基于解耦自增强的细节可控个性化图像生成方法,其中该步骤1包括通过概念预学习模型得到该概念图像的概念特征,包括:

采用基于扩散模型的概念预学习模型,输入具有特定概念图像和类先验图像至该概念预学习模型,该概念预学习模型的优化目标为:

式中z表示对具有特定概念图像进行编码得到的潜在代码,z

给定加噪后的潜在z

所述的基于解耦自增强的细节可控个性化图像生成方法,其中该步骤1包括:

将包括目标属性a

本发明得到一对目标属性和非目标属性的增强样本集合D={D

所述的基于解耦自增强的细节可控个性化图像生成方法,其中该步骤2包括:

对该增强样本集合中每对样本,本发明分别使用目标标识符tgt和非标识符ngt两个标识符表示目标属性和非目标属性的信息;使用每张图片对应的描述作为条件输入,同时训练两个标识符以分别绑定目标和非目标属性,基于重构损失构建如下优化目标:

其中,

该步骤2中调整该图像生成模型中的文本编码器文本嵌入空间包括:

在该图像生成模型中文本编码器的文本嵌入空间中,将该目标属性标识符tgt向远离非目标属性标识符ngt的语义方向进行偏离。

本发明还提出了一种基于解耦自增强的细节可控个性化图像生成系统,其中包括:

初始模块,用于获取参考概念图像和其对应的文本指令,通过大语言模型提取该文本指令的属性描述,该属性描述包括目标属性和非目标属性,基于该概念图像的概念特征和该属性描述,生成多个初始图像并筛选,将筛选后的每张初始图像与其对应的属性描述作为训练样本;

训练模块,用于为该训练样本中初始图像添加噪声得到噪声图像,将该噪声图像和其对应的属性描述送入包括文本编码器的扩散网络,该扩散网络根据该属性描述,预测该噪声图像中所添加的噪声,根据该预测结果和真实添加噪声构建损失函数训练该扩散网络,得到图像生成模型;

图像生成模块,用于调整该图像生成模型中的文本编码器文本嵌入空间,获取具有该目标属性的图像生成文本指令,该文本编码器对该图像生成文本指令对应的文本嵌入进行语义矫正,得到文本条件向量,将噪声图像和该文本条件向量输入该图像生成模型中的扩散网络,根据该图像生成文本指令为噪声图像去噪,得到该图像生成文本指令对应的图像生成结果。

所述的基于解耦自增强的细节可控个性化图像生成系统,其中该初始模块包括通过概念预学习模型得到该概念图像的概念特征,包括:

采用基于扩散模型的概念预学习模型,输入具有特定概念图像和类先验图像至该概念预学习模型,该概念预学习模型的优化目标为:

式中z表示对具有特定概念图像进行编码得到的潜在代码,z

给定加噪后的潜在z

所述的基于解耦自增强的细节可控个性化图像生成系统,其中该初始模块包括:

将包括目标属性a

本发明得到一对目标属性和非目标属性的增强样本集合d={D

所述的基于解耦自增强的细节可控个性化图像生成系统,其中该训练模块包括:

对该增强样本集合中每对样本,本发明分别使用目标标识符tgt和非标识符ngt两个标识符表示目标属性和非目标属性的信息;使用每张图片对应的描述作为条件输入,同时训练两个标识符以分别绑定目标和非目标属性,基于重构损失构建如下优化目标:

其中,

该初始模块中调整该图像生成模型中的文本编码器文本嵌入空间包括:

在该图像生成模型中文本编码器的文本嵌入空间中,将该目标属性标识符tgt向远离非目标属性标识符ngt的语义方向进行偏离。

本发明还提出了一种服务器,其中包括所述的一种基于解耦自增强的细节可控个性化图像生成装置。

本发明还提出了一种存储介质,用于存储一种执行所述基于解耦自增强的细节可控个性化图像生成方法的计算机程序。

由以上方案可知,本发明的优点在于:

本发明基于解耦自增强的属性感知样本构造方法能够得到一对目标属性和非目标属性上增强的样本,以促进模型学习解耦的属性;通过在生产过程中文本嵌入上的矫正进一步分离指定目标属性和非目标属性的语义;对上述两阶段操作整合以得到整体框架,灵活地允许各类基础方案的部署与属性个性化生成。

附图说明

图1为本发明基于解耦自增强的细节可控个性化图像生成方法流程图;

图2为本发明自增强数据构造流程图;

图3为语义矫正示意图。

具体实施方式

为了解决学习用户指定视觉属性的问题,本发明提出了一种基于解耦自增强的用户指定外观细节个性化方法。本发明基于Stable Diffusion Model(稳定扩散模型)构建了一个简洁灵活的个性化框架,用于从概念级的训练数据中提取指定属性,并根据输入文本描述生成具有该属性的新概念。针对属性个性化场景下缺少额外监督信息的问题,本发明设计了一种解耦自增强的方式构造属性感知的数据集,对有限的参考图像样本进行扩增,帮助模型解耦地理解和学习目标属性。为了在推理阶段分离非目标属性的干扰,本发明设计了一种语义矫正方法,进一步缓解目标属性和非目标属性的耦合。

为了实现上述技术效果,本发明包括如下关键技术点:

关键点1,基于解耦自增强的属性感知样本构造。该方法文生图大模型,通过和大语言模型的交互获取丰富的生成描述,自动构造并筛选一对目标属性感知和非目标属性感知的增强样本。通过在增强样本上的同步训练,模型能够解耦地学习到目标属性和非目标属性。

关键点2,基于的语义矫正。该方法通过在生成过程中,在文本语义空间调整目标属性词嵌入远离非目标属性语义,使得生成图像中非目标属性的干扰减少,增强对用户指定属性内容的生成。

关键点3,一个简洁灵活的属性个性化框架。该框架是一个训练推理两阶段个性化框架,能够灵活地结合各类基础个性化方法。用户能够以较低的交互成本端到端地生成具有指定属性的图片。

为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。本说明书公开了一个或多个包含本发明特点的实施例。公开的实施例仅仅用于举例说明。本发明的保护范围并不限于所公开的实施例,本发明由所附权利要求来限定。

本发明发明的基于解耦自增强的细节可控个性化图像生成方法的框架如图1所示。该框架分为两个阶段:1.在训练阶段,(1)首先,给定用户输入的参考概念图像和文本指令,基于对概念预学习后的模型和大语言模型(LLM)构造的目标属性和非目标属性描述生成大量初始样本,并考虑到筛选难度和模型训练效率,通过自我策展模块筛选出一对属性感知的增强样本。(2)通过在框架中部署个性化方法,在增强样本上同步学习一对绑定了目标属性和非目标属性的标识符。2.在推理阶段,通过在文本嵌入空间调整标识符的语义方向来矫正生成图像中的属性。下面对该方法的各个模块进行详细介绍。

一.基于解耦自增强的同步训练

(一).初始概念预学习

为了学习到参考概念中的指定视觉外观或属性,本发明通过自增强的方式构造一对属性感知的样本集合。首先,本发明采用基础的基于Stable Diffusion Model(SD)的概念级个性化方法DreamBooth对用户给定输入图像的概念进行预学习。给定输入图像(特定的宠物狗,例如sks dog)和类先验图像(普通的狗),本发明构造含有特定标识符的条件文本(例如:“A sks dog”)。其中标识符表示了特定概念的信息,“dog”表示该概念所属的抽象类别。模型的优化目标为:

这里,z表示对输入图像进行编码得到的潜在代码,z

经过训练后的生成模型(记作G

(二).基于解耦自增强——策展的增强样本构造

当得到初始的具有整体参考概念信息的个性化模型后,本发明借助LLM构造多样的文本描述,并构造属性感知的样本。如图2所示,当用户提供一段包括图像基础描述、目标属性a

(三).同步个性化训练

基于上述构造的增强样本集合,本发明对模型进行同步属性个性化训练,提升基本的概念级个性化方法的属性个性化能力。类似于DreamBooth,对于这对样本,本发明分别使用tgt和ngt两个标识符表示目标属性和非目标属性的信息。使用每张图片对应的描述作为条件输入,同时训练两个标识符以分别绑定目标和非目标属性,基于重构损失构建如下优化目标:

其中,

二.语义矫正模块

在推理阶段,模型已经具备生成含有目标属性的新概念的能力,只需使用目标属性标识符tgt进行文生图推理即可。部分情况下,由于增强样本并未充分解耦目标属性a

因此本发明提出了一种语义矫正方法,在SD模型的文本编码器的文本嵌入空间中,对学习到的目标属性标识符tgt向远离非目标属性标识符ngt的语义方向进行偏离,并将偏离结果用新的标识符(例如sks)表示,由此减少非目标属性的干扰。具体来说,设tgt和ngt对应的文本编码向量分别为v

最终,在生成过程中用sks的编码替换目标属性标识符tgt的编码,能够促进模型生成更加准确的仅具有用户所指定的目标属性a

以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还提出了一种基于解耦自增强的细节可控个性化图像生成系统,其中包括:

初始模块,用于获取参考概念图像和其对应的文本指令,通过大语言模型提取该文本指令的属性描述,该属性描述包括目标属性和非目标属性,基于该概念图像的概念特征和该属性描述,生成多个初始图像并筛选,将筛选后的每张初始图像与其对应的属性描述作为训练样本;

训练模块,用于为该训练样本中初始图像添加噪声得到噪声图像,将该噪声图像和其对应的属性描述送入包括文本编码器的扩散网络,该扩散网络根据该属性描述,预测该噪声图像中所添加的噪声,根据该预测结果和真实添加噪声构建损失函数训练该扩散网络,得到图像生成模型;

图像生成模块,用于调整该图像生成模型中的文本编码器文本嵌入空间,获取具有该目标属性的图像生成文本指令,该文本编码器对该图像生成文本指令对应的文本嵌入进行语义矫正,得到文本条件向量,将噪声图像和该文本条件向量输入该图像生成模型中的扩散网络,根据该图像生成文本指令为噪声图像去噪,得到该图像生成文本指令对应的图像生成结果。

所述的基于解耦自增强的细节可控个性化图像生成系统,其中该初始模块包括通过概念预学习模型得到该概念图像的概念特征,包括:

采用基于扩散模型的概念预学习模型,输入具有特定概念图像和类先验图像至该概念预学习模型,该概念预学习模型的优化目标为:

式中z表示对具有特定概念图像进行编码得到的潜在代码,z

给定加噪后的潜在z

所述的基于解耦自增强的细节可控个性化图像生成系统,其中该初始模块包括:

将包括目标属性a

本发明得到一对目标属性和非目标属性的增强样本集合D={D

所述的基于解耦自增强的细节可控个性化图像生成系统,其中该训练模块包括:

对该增强样本集合中每对样本,本发明分别使用目标标识符tgt和非标识符ngt两个标识符表示目标属性和非目标属性的信息;使用每张图片对应的描述作为条件输入,同时训练两个标识符以分别绑定目标和非目标属性,基于重构损失构建如下优化目标:

其中,

该初始模块中调整该图像生成模型中的文本编码器文本嵌入空间包括:

在该图像生成模型中文本编码器的文本嵌入空间中,将该目标属性标识符tgt向远离非目标属性标识符ngt的语义方向进行偏离。

本发明还提出了一种服务器,其中包括所述的一种基于解耦自增强的细节可控个性化图像生成装置。

本发明还提出了一种存储介质,用于存储一种执行所述基于解耦自增强的细节可控个性化图像生成方法的计算机程序。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

相关技术
  • 一种基于可控扩散的图像增强方法
  • 一种基于beeps滤波红外图像细节增强方法和图像增强装置
  • 一种基于beeps滤波红外图像细节增强方法和图像增强装置
技术分类

06120116586666