掌桥专利:专业的专利平台
掌桥专利
首页

一种通过修改扩散模型轨迹进行图像补全的方法和系统

文献发布时间:2023-06-19 19:30:30


一种通过修改扩散模型轨迹进行图像补全的方法和系统

技术领域

本发明涉及图像补全领域,尤其涉及一种通过修改扩散模型轨迹进行图像补全的方法和系统。

背景技术

图像补全是计算机视觉中一个重要的研究方向,给定一个部分区域被遮盖的图像(遮罩图像),图像补全要求根据图像未被遮盖区域的信息,来预测并填补被遮盖的区域,使得修复后的图像看起来非常自然,没有明显地拼接和认为修改的痕迹。图像补全的方法主要分为两类:一类是纹理合成方法,其核心是从图像未被遮盖区域采样相似像素块填充待补全区域;另一类是基于神经网络的生成模型,根据图像未被遮盖区域的特征,生成语义一致的补全图像。

近年来,扩散生成模型被提出并在学术界和工业界备受关注。扩散生成模型是在非平衡态热力学的启发下被提出的,非平衡热力学也称为不可逆过程的热力学,主要研究对象包括热传导、物质的扩散等,其中一个主要问题就是演化动力学问题,它要解决微观可逆与宏观不可逆的矛盾。应用到生成模型领域,可以认为数据都是各种变量在外力作用下达到的一种平衡状态,当这种外力消失时,变量会进行自由的扩散,就像粒子的布朗运动一样。通过模拟这个扩散的过程,通过迭代的方法,有规律地、缓慢地摧毁原始数据的分布,使得原始数据分布趋向于一个更加自然的、简单的、容易计算的分布,理论上任何复杂的原始分布都可以通过这一过程被转化为这种简单的分布。拿图像举例,通过不断对每个像素的值做扩散操作,最终这个图像就变成了一张高斯噪声图。微观上,只要每步扩散的程度足够小,扰动足够小,那么它就是可逆的,任务就是去定量估计这个扰动的过程,这比直接显式地建模原始数据分布要简单很多。只要模型学会了扩散的逆向操作,那么任何从简单分布中采样的样本都可被逆转回原始分布中,即生成了一个服从原始分布的样本,这个过程就是生成模型的过程。

现有的扩散生成模型预定义一个固定的前向过程,再训练神经网络拟合前向过程的逆过程,从而得到一个生成模型。现有的条件扩散生成模型在神经网络的训练时引入条件的建模,拟合的目标还是预定义的固定的前向过程的逆,对于图像补全来说,即将遮罩图像作为条件输入到逆向过程的神经网络中作为条件,但这种方法极大地限制了模型在图像补全任务上的训练效率和性能表现。

发明内容

为了克服上述问题,本发明提出了一种通过修改扩散模型轨迹进行图像补全的方法和系统,在对遮罩图像作为条件的建模引入到前向过程中,不再使用原本的扩散模型预定义的固定的前向过程,而是通过对前向过程扩散轨迹进行偏移,提高了训练效率和性能表现。

为了实现上述目的,本发明采用的技术方案是:

第一个目的,本发明提出了一种通过修改扩散模型轨迹进行图像补全的方法,包括以下步骤:

步骤1,通过可训练的神经网络将部分遮盖后的样本图像映射到原始图像空间;

步骤2,对原始图像进行采样,得到采样图像x

其中,t~Uniform({1,…,T}),T为预设的总扩散步数,x

步骤3,根据采样图像计算图像补全网络的损失,损失函数为:

其中,g

步骤4,根据图像补全网络的损失,更新图像补全网络参数和步骤1中可训练的神经网络参数;

步骤5,利用训练好的神经网络和图像补全网络,逆向生成遮盖图像的补全结果。

进一步地,步骤2中,前t步的噪声累积

其中,β

进一步地,所述的扩散轨迹偏移模式包括:

数据归一化模式:

先验偏移模式:

进一步地,所述的图像补全网络采用UNet架构。

进一步地,所述的步骤5中,逆向生成遮盖图像的补全结果的公式为:

s

其中,β

进一步地,初始化t=T时,

第二个目的,本发明提出了一种通过修改扩散模型轨迹进行图像补全的系统,包括:

空间映射模块,其用于通过可训练的神经网络将部分遮盖后的样本图像映射到原始图像空间;

图样采样模块,其用于对原始图像进行采样;

损失计算模块,其用于根据采样图像计算图像补全网络的损失;

训练模块,其用于根据图像补全网络的损失,更新可训练的神经网络参数和图像补全网络参数;

图像补全模块,其用于利用训练好的神经网络和图像补全网络,逆向生成遮盖图像的补全结果。

进一步地,所述的图样采样模块的采样公式为:

其中,t~Uniform({1,…,T}),T为预设的总扩散步数,x

进一步地,所述的损失计算模块中的损失函数为:

其中,g

进一步地,所述的图像补全模块中逆向生成遮盖图像的补全结果的公式为:

s

其中,β

与现有技术相比,本发明的有益效果是:因为本发明采用了更加灵活的和可操控的扩散轨迹进行建模,相比于原本扩散模型使用的固定的扩散轨迹,极大地提升了扩散模型的容量,在图像补全上取得了更好的效果。

附图说明

图1是本发明实施例示出的模型训练示意图;

图2是本发明实施例示出的图像补全示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

原本的扩散模型的扩散轨迹分布为:

其中,q(·)表示前向过程概率分布,t为扩散步数,其取值范围为1,2,...,T,T为扩散模型预设的总扩散步数,x

在此基础上,为了根据作为条件的遮罩图像控制扩散轨迹,将扩散模型的扩散轨迹分布修改为:

其中,c表示遮罩图像,也即待补全的图像,k

将扩散过程比作水管,k

由于扩散过程为马尔可夫链,根据简写后的扩散轨迹分布,可以反推出其对应的扩散核为:

再由贝叶斯公式,可以推导出该扩散核的后验分布为:

由简写后的扩散轨迹分布

其中,

将x

其中,E[·]表示均值;后验分布的均值表达式中,只有∈未知,但是由于

其中,p

图像补全网络g

其中,D

将上述推导得到的扩散核的后验分布q(x

其中,c为常数,

进一步对损失函数进行简化,得到最终的损失函数:

对于控制扩散轨迹偏移模式的系数k

数据归一化模式:

先验偏移模式:

相比于原本的扩散模型的逆向过程采样,本发明的方法在每一步采样时都需要对轨迹做出修正,体现在上述的后验分布的均值

数据归一化模式:

先验偏移模式:

如图1-2所示,本发明通过修改扩散轨迹实现的条件扩散生成模型并进行图像补全,具体步骤如下:

1)获取训练数据

对于一条训练数据x

2)对原始图像x

其中,t~Uniform({1,…,T}),T为扩散模型预设的总扩散步数,设为1000,β

对于图像补全网络g

本实施例中,函数f(c)同图像补全网络g

3)使用训练好的图像补全网络g

进行逆向过程的逐步采样,由x

s

执行最后一步时,z=0。

为了进一步展示本发明的实施效果,下面将上述方法应用于下列实施例中,以体现本发明的效果,实施例中具体步骤不再赘述。

实施例在Places2数据集+不规则的遮罩数据集上进行了实验验证。其中Places2数据集包含400多个独特的场景类别和总共超过1000万张图片,每个场景类别具有5000至30,000个训练图像,与现实世界中的场景频次一致。不规则的遮罩数据集是随机生成的遮罩数据集根据被遮盖区域占整个图像的比例,将遮罩分为不同级别,越高的遮罩百分比,图像被遮盖的区域越大,越难进行补全修复。在不同遮罩百分比下,采用上述实施步骤并对不同图像补全方法进行性能评估。

表1展示了本发明的测试结果,实施例采用FID分数进行评估,FID通过对比生成图像与真实图像来产生评估分数,计算一个“距离值”,指标值越小说明生成图像与真实图像距离越小,间接说明算法性能越好。本实施例对比了传统的基于对抗生成模型GAN的图像补全方法Contextual Attention、EdgeConncet和StructureFlow,还对比了传统条件扩散模型方法DDPM,相比于这些图像补全方法,本发明的达到了更好的性能。

表1 实验结果(FID)

在本实施例中还提供了一种通过修改扩散模型轨迹进行图像补全的系统,该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。

所述的通过修改扩散模型轨迹进行图像补全的系统,包括:

空间映射模块,其用于通过可训练的神经网络将部分遮盖后的样本图像映射到原始图像空间;

图样采样模块,其用于对原始图像进行采样;

损失计算模块,其用于根据采样图像计算图像补全网络的损失;

训练模块,其用于根据图像补全网络的损失,更新可训练的神经网络参数和图像补全网络参数;

图像补全模块,其用于利用训练好的神经网络和图像补全网络,逆向生成遮盖图像的补全结果。

对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可,其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本发明的系统的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

技术分类

06120115933760