掌桥专利:专业的专利平台
掌桥专利
首页

图像生成方法以及相关设备

文献发布时间:2024-04-18 19:58:30


图像生成方法以及相关设备

技术领域

本申请涉及计算机技术领域,具体涉及一种图像生成方法以及相关设备。

背景技术

随着计算机技术的发展,图像处理技术应用到了越来越多的领域,比如,图像处理技术可以包括图像生成,图像生成具体可以是通过离散扩散模型对任意一张图像进行加噪处理,得到噪声图像,再通过去噪处理从噪声图像中生成新的一张图像。

但是,在目前的相关技术中,离散扩散模型的扩散过程是随机的,图像生成过程难以控制,这使得生成的图像有着很强的不确定性,限制了其应用。

发明内容

本申请实施例提供一种图像生成方法以及相关设备,相关设备可以包括图像生成装置、电子设备、计算机可读存储介质和计算机程序产品,可以使得生成的图像的不确定性大大降低,提高生成图像的可用性。

本申请实施例提供一种图像生成方法,包括:

获取待处理的基础图像,所述基础图像为第一样式下的图像;

对所述基础图像进行图像加噪处理,得到加噪后图像;

针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率;

根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;

基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布;

根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。

相应的,本申请实施例提供一种图像生成装置,包括:

获取单元,用于获取待处理的基础图像,所述基础图像为第一样式下的图像;

加噪单元,用于对所述基础图像进行图像加噪处理,得到加噪后图像;

预测单元,用于针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率;

计算单元,用于根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;

确定单元,用于基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布;

去噪单元,用于根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。

可选的,在本申请的一些实施例中,所述计算单元可以包括对比子单元和设置子单元,如下:

所述对比子单元,用于对所述像素点分别在当前像素状态和预设像素状态上的状态出现概率进行对比处理;

设置子单元,用于根据对比处理结果和预设速率约束条件,设置所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

可选的,在本申请的一些实施例中,所述设置子单元具体可以用于当所述像素点在当前像素状态上的状态出现概率大于所述像素点在预设像素状态上的状态出现概率时,基于所述预设速率约束条件,设置所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;当所述像素点在当前像素状态上的状态出现概率不大于所述像素点在预设像素状态上的状态出现概率时,将所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率设置为预设值。

可选的,在本申请的一些实施例中,所述计算单元可以包括第一计算子单元和第二计算子单元,如下:

所述第一计算子单元,用于计算所述当前像素状态和所述预设像素状态之间的状态距离;

第二计算子单元,用于当所述状态距离满足预设距离条件时,根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

可选的,在本申请的一些实施例中,所述当前像素状态包括至少一个维度上的像素子状态;所述预设像素状态包括至少一个维度上的像素子状态;

所述确定单元可以包括第一确定子单元、第二确定子单元和融合子单元,如下:

所述第一确定子单元,用于针对每个维度,从预设像素状态中确定所述维度上当前像素状态的相邻预设像素状态,所述相邻预设像素状态在所述维度上的像素子状态与所述当前像素状态在所述维度上的像素子状态不同,所述相邻预设像素状态在参考维度上的像素子状态与所述当前像素状态在参考维度上的像素子状态相同,所述参考维度为除所述维度外的其他维度;

第二确定子单元,用于根据所述像素点从当前像素状态转移到所述相邻预设像素状态对应的反向转移速率,确定所述像素点的当前像素状态在所述维度上的状态转移概率;

融合子单元,用于将所述像素点的当前像素状态在各个维度上的状态转移概率进行融合,得到所述像素点在所述当前像素状态下的状态转移概率分布。

可选的,在本申请的一些实施例中,所述去噪单元可以包括去噪子单元和循环子单元,如下:

所述去噪子单元,用于根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪图像进行去噪处理,得到处理后图像;

循环子单元,用于将所述处理后图像作为新的加噪后图像,返回执行所述根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率的步骤,以生成第二样式下的目标图像。

可选的,在本申请的一些实施例中,所述加噪单元具体可以用于通过图像处理模型,对所述基础图像进行图像加噪处理,得到加噪后图像;

所述预测单元具体可以用于通过所述图像处理模型,针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率。

可选的,在本申请的一些实施例中,所述图像生成装置还可以包括训练单元,所述训练单元用于获取训练数据,所述训练数据包括至少一个图像样本;通过预设图像处理模型,对所述图像样本进行图像加噪处理,得到加噪后样本图像;针对所述加噪后样本图像中每个像素点,基于所述像素点的当前像素状态,确定所述像素点对应的预测状态概率分布,所述预测状态概率分布包括所述像素点上各预设像素状态对应的预测状态出现概率;根据所述预测状态概率分布和预设状态概率分布,对所述预设图像处理模型进行调整,得到训练后的图像处理模型。

可选的,在本申请的一些实施例中,所述加噪单元具体可以用于将所述基础图像与噪声图像进行融合处理,得到融合后图像;对所述融合后图像进行图像编码处理,得到所述加噪后图像。

可选的,在本申请的一些实施例中,所述预测单元可以包括第三确定子单元和提取子单元,如下:

所述第三确定子单元,用于针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,确定所述像素点对应的预测状态概率分布,所述预测状态概率分布包括所述像素点上各候选预设像素状态对应的状态出现概率;

提取子单元,用于根据预设像素状态对应的状态位置信息,从所述预测状态概率分布中提取所述像素点上各预设像素状态对应的状态出现概率。

本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的图像生成方法中的步骤。

本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的图像生成方法中的步骤。

此外,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现本申请实施例提供的图像生成方法中的步骤。

本申请实施例提供了一种图像生成方法以及相关设备;可以获取待处理的基础图像,所述基础图像为第一样式下的图像;对所述基础图像进行图像加噪处理,得到加噪后图像;针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率;根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布;根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。本申请可以根据加噪后图像中各像素点对应的状态转移概率分布,来对加噪后图像中各像素点的状态转移进行约束,即控制状态转移的过程,这样可以使得生成的图像的不确定性大大降低,提高生成图像的可用性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的图像生成方法的场景示意图;

图1b是本申请实施例提供的图像生成方法的流程图;

图1c是本申请实施例提供的图像生成方法的说明图;

图1d是本申请实施例提供的图像生成方法的另一说明图;

图1e是本申请实施例提供的图像生成方法的另一说明图;

图1f是本申请实施例提供的图像生成方法的另一说明图;

图1g是本申请实施例提供的图像生成方法的另一说明图;

图2是本申请实施例提供的图像生成方法的另一流程图;

图3是本申请实施例提供的图像生成装置的结构示意图;

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供一种图像生成方法以及相关设备,相关设备可以包括图像生成装置、电子设备、计算机可读存储介质和计算机程序产品。该图像生成装置具体可以集成在电子设备中,该电子设备可以是终端或服务器等设备。

可以理解的是,本实施例的图像生成方法可以是在终端上执行的,也可以是在服务器上执行,还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

如图1a所示,以终端和服务器共同执行图像生成方法为例。本申请实施例提供的图像生成系统包括终端10和服务器11等;终端10与服务器11之间通过网络连接,比如,通过有线或无线网络连接等,其中,图像生成装置可以集成在服务器中。

其中,服务器11,可以用于:获取待处理的基础图像,所述基础图像为第一样式下的图像;对所述基础图像进行图像加噪处理,得到加噪后图像;针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率;根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布;根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。其中,服务器11可以是单台服务器,也可以是由多个服务器组成的服务器集群或云服务器。

其中,终端10,可以用于:确定目标对象选择的基础图像,向服务器11发送基础图像,并接收服务器11发送的基于基础图像生成得到的第二样式下的目标图像;终端10还可以将目标图像推送给该目标对象。其中,终端10可以包括手机、智能语音交互设备、智能家电、车载终端、飞行器、平板电脑、笔记本电脑、或个人计算机(PC,Personal Computer)等。终端10上还可以设置客户端,该客户端可以是应用程序客户端或浏览器客户端等等。

上述服务器11中进行图像生成等步骤,也可以由终端10执行。

本申请实施例提供的图像生成方法涉及人工智能领域中的计算机视觉技术和机器学习。

其中,人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中,计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从图像生成装置的角度进行描述,该图像生成装置具体可以集成在电子设备中,该电子设备可以是服务器或终端等设备。

可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

如图1b所示,该图像生成方法的具体流程可以如下:

101、获取待处理的基础图像,所述基础图像为第一样式下的图像。

其中,基础图像可以是任意的图像,比如可以是风景图,也可以是人物图等。通过本申请提供的图像生成方法,可以生成与基础图像相关的目标图像。

其中,这里的样式可以包括图像的色彩风格、色调和对比度、滤镜效果、质感和纹理、艺术风格、平面构成等等,本实施例对此不作限制。

例如,基础图像为人物图,生成后的目标图像可以是各式各样不同的人,这里的各式各样不同的人可以是表情、动作、服饰、或身份等不同,本实施例对此不作限制。比如,基础图像为人物“甲”在打篮球的图像,生成的目标图像可以是人物“乙”在打排球对应的图像。

又例如,基础图像为“多云的天空”对应的图像,生成的目标图像可以是正在下雨的图像,也可以是正在下雪的图像。

102、对所述基础图像进行图像加噪处理,得到加噪后图像。

其中,图像加噪处理具体可以是对基础图像中的像素点的像素状态进行随机扰动,以在基础图像中引入噪声。其中,引入的噪声可以是高斯噪声等。

其中,像素状态可以是像素点的像素值。具体地,对于一个像素点,它可以有256个状态,分别是从0到255的离散像素值(取整数)。

其中,这里的图像加噪处理可以是一次或多次的像素状态扰动。具体地,基础图像可以记为x0,可以分T步来一步步对x1叠加噪声,最终的得到一系列经噪声叠加后得到样本x1、x2、...、xT,其间,原始数据即基础图像x0在前向扩散的t步数的迭代,逐渐失去其独特鲜明的特征,最终当T趋于∞时,xT等价于一个符合各向同性的高斯分布噪声(这里叠加的噪声具体可以是高斯噪声),xT即上述实施例中的加噪后图像。

可选地,本实施例中,步骤“对所述基础图像进行图像加噪处理,得到加噪后图像”,可以包括:

将所述基础图像与噪声图像进行融合处理,得到融合后图像;

对所述融合后图像进行图像编码处理,得到所述加噪后图像。

其中,该噪声图像可以是高斯噪声图像,基础图像和噪声图像的融合处理可以是将二者进行叠加处理,再对融合后图像进行图像隐空间编码处理,得到加噪后图像。

本实施例中,可以通过离散扩散模型来对基础图像进行图像加噪处理,再进行图像生成。离散扩散模型的处理过程可以分为两个,分别是前向扩散过程和反向生成过程,前向扩散过程也即加噪处理过程,加噪处理过程随着时间对数据状态(具体即图像中像素状态)进行转移得到噪声分布,即加噪后图像;图像生成过程是加噪的反过程,图像生成过程具体也可以视为去噪过程,通过去噪从噪声中生成离散数据(具体为目标图像)。

具体地,前向扩散过程是对一张图像逐渐添加高斯噪音直至变成随机噪音,而反向生成过程是去噪音过程,将从一个随机噪音开始逐渐去噪音直至生成一张图像,最后生成的图片是从随机噪声生成出的图像,和原来的可以说是表面毫不相干,但是底层特征是一致的。

在实际应用中,很多的数据都是以离散的形式存在的,可以用有限的状态进行表示,比如图像中的像素点可以用256个像素状态表示。离散扩散模型正是将扩散过程看作为状态转移,通过拟合离散数据,从而进行反向的离散数据生成。

在目前的相关图像生成方法中,离散扩散模型的扩散过程是随机的,从同一点出发生成的数据会遍布整个数据分布,有着很强的不确定性,这使得离散扩散模型的生成过程难以控制,限制了其应用。这里所说的“从同一点出发生成的数据会遍布整个数据分布”,具体是说某个像素状态可以随机转移到任意像素状态。

而本申请提供的图像生成方法可以解决离散扩散模型采样不确定的问题。参考图1c,为目前的相关图像生成方法和本申请提供的图像生成方法的采样过程比较,灰色的线条表示目前相关技术的采样过程,黑色的线条表示本申请的方法的采样过程,目前的相关技术中,从一个点(具体为噪声图像中的点)出发,可以采样到所有的数据;而本申请的方法可以对像素转移过程进行约束,大大降低了采样的不确定性。

103、针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率。

其中,当前像素状态为像素点当前的像素值,具体可以包括RGB(红绿蓝)三个维度上的像素值。预设像素状态可以包括当前像素状态本身和除当前像素状态外的其他像素状态。

具体地,像素点的像素状态可以包括0到255共256个状态,预设像素状态可以是这256个状态。

可选地,本实施例中,步骤“针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率”,可以包括:

针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,确定所述像素点对应的预测状态概率分布,所述预测状态概率分布包括所述像素点上各候选预设像素状态对应的状态出现概率;

根据预设像素状态对应的状态位置信息,从所述预测状态概率分布中提取所述像素点上各预设像素状态对应的状态出现概率。

其中,一些实施例中,预设像素状态可以是从候选预设像素状态中筛选出来的。具体地,候选预设像素状态包括0到255共256个状态,预设像素状态可以包括当前像素状态本身和当前像素状态对应的相邻像素状态,相邻像素状态具体可以是上一个像素状态和下一个像素状态。比如,若当前像素状态为2,相邻像素状态可以是1或者3,预设像素状态可以包括1、2、3这三个状态。

其中,预设状态概率分布中各候选预设像素状态对应的状态出现概率的分布可以按照像素状态的大小进行排列,预设像素状态可以基于其像素状态大小,确定其状态位置信息,状态位置信息具体也即状态出现概率在预设状态概率分布中的分布位置。

可选地,本实施例中,步骤“对所述基础图像进行图像加噪处理,得到加噪后图像”,可以包括:

通过图像处理模型,对所述基础图像进行图像加噪处理,得到加噪后图像;

步骤“针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率”,可以包括:

通过所述图像处理模型,针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率。

其中,该图像处理模型具体可以是神经网络模型,比如,该神经网络模型可以是视觉几何组网络(VGGNet,Visual Geometry Group Network)、残差网络(ResNet,ResidualNetwork)和密集连接卷积网络(DenseNet,Dense Convolutional Network)等等,但是应当理解的是,本实施例的神经网络并不仅限于上述列举的几种类型。

需要说明的是,该图像处理模型可以是上述离散扩散模型的一部分。

可选地,本实施例中,步骤“通过图像处理模型,对所述基础图像进行图像加噪处理,得到加噪后图像”之前,还可以包括:

获取训练数据,所述训练数据包括至少一个图像样本;

通过预设图像处理模型,对所述图像样本进行图像加噪处理,得到加噪后样本图像;

针对所述加噪后样本图像中每个像素点,基于所述像素点的当前像素状态,确定所述像素点对应的预测状态概率分布,所述预测状态概率分布包括所述像素点上各预设像素状态对应的预测状态出现概率;

根据所述预测状态概率分布和预设状态概率分布,对所述预设图像处理模型进行调整,得到训练后的图像处理模型。

其中,图像样本可以是任意的图像。预设状态概率分布可以是高斯分布或者均匀分布等,本实施例对此不作限制。具体地,预设状态概率分布可以是各预设像素状态对应的状态出现概率呈现高斯分布。

其中,该训练过程可以是先计算出像素点对应的预测状态概率分布和预设状态概率分布之间的损失值,然后,使用反向传播算法对预设图像处理模型的参数进行调整,基于该损失值,优化预设图像处理模型的参数,使得预测状态概率分布趋近于预设状态概率分布,得到训练好的图像处理模型。具体地,可以使预测状态概率分布和预设状态概率分布之间的损失值小于预设值,该预设值可以根据实际情况设置。

104、根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

可选地,本实施例中,步骤“根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率”,可以包括:

计算所述当前像素状态和所述预设像素状态之间的状态距离;

当所述状态距离满足预设距离条件时,根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

其中,具体地,当前像素状态可以包括K个维度上的像素子状态;预设像素状态包括K个维度上的像素子状态。当前像素状态和预设像素状态之间的状态距离可以是K个维度上的状态子距离之和,每个维度上的状态子距离具体可以是当前像素状态在该维度上的像素子状态和预设像素状态在该维度上的像素子状态之间的距离。

例如,当前像素状态为111,其三个维度的像素子状态均为1;预设像素状态为000,其三个维度的像素子状态均为0,则每个维度的状态子距离均为1,当前像素状态和预设像素状态之间的状态距离可以为3。

其中,该预设距离条件可以是状态距离为1。只有状态距离符合预设距离条件,才进行具体的反向转移速率计算。

具体地,当状态距离不满足预设距离条件时,可以将像素点从当前像素状态转移到预设像素状态的反向转移速率直接设置为0,这样可以降低可能转移的像素状态的范围,减少状态的不确定性,从而提高生成的图像的确定性。

可选地,本实施例中,步骤“根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率”,可以包括:

对所述像素点分别在当前像素状态和预设像素状态上的状态出现概率进行对比处理;

根据对比处理结果和预设速率约束条件,设置所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

其中,通过对比处理,可以确定当前像素状态的状态出现概率和预设像素状态的状态出现概率的大小。

其中,预设速率约束条件可以根据实际情况进行设置。具体地,预设速率约束条件可以为像素点对应的正向转移速率和反向转移速率守恒。这里的守恒具体可以是正向转移速率和反向转移速率二者的绝对值相等。像素点对应的正向转移速率具体可以是其他像素状态转移到当前像素状态的转移速率,像素点对应的反向转移速率具体可以是当前像素状态转移到其他像素状态的转移速率,可以理解的是,正向转移速率相当于流入速率,反向转移速率相当于流出速率,二者需要持平。

可选地,本实施例中,步骤“根据对比处理结果和预设速率约束条件,设置所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率”,可以包括:

当所述像素点在当前像素状态上的状态出现概率大于所述像素点在预设像素状态上的状态出现概率时,基于所述预设速率约束条件,设置所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;

当所述像素点在当前像素状态上的状态出现概率不大于所述像素点在预设像素状态上的状态出现概率时,将所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率设置为预设值。

其中,预设值可以设置为零。具体地,记当前像素状态为状态i,预设像素状态为状态j,本实施例中,可以设置只有状态i对应的状态出现概率大于状态j对应的状态出现概率时,才会进行状态转移,这样了消除状态间的对流。

其中,当状态i对应的状态出现概率大于状态j对应的状态出现概率时,可以根据预设速率约束条件,来确定反向转移速率的计算式子,进而根据该式子,计算像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

在具体场景中,反向过程的转移速率的计算过程如式子(1)所示:

其中,式子(1)等号右边第二种情况,也就是d

其中,d

其中,ReLU函数具体如式子(2)所示:

通过ReLU的操作,状态之间的对流得到了消除,即只有i状态概率大于j,才进行状态转移。

具体地,d

其中,

可以理解的是,式子(3)和式子(1)所描述的内容相同。

105、基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布。

可选地,本实施例中,所述当前像素状态包括至少一个维度上的像素子状态;所述预设像素状态包括至少一个维度上的像素子状态;

步骤“基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布”,可以包括:

针对每个维度,从预设像素状态中确定所述维度上当前像素状态的相邻预设像素状态,所述相邻预设像素状态在所述维度上的像素子状态与所述当前像素状态在所述维度上的像素子状态不同,所述相邻预设像素状态在参考维度上的像素子状态与所述当前像素状态在参考维度上的像素子状态相同,所述参考维度为除所述维度外的其他维度;

根据所述像素点从当前像素状态转移到所述相邻预设像素状态对应的反向转移速率,确定所述像素点的当前像素状态在所述维度上的状态转移概率;

将所述像素点的当前像素状态在各个维度上的状态转移概率进行融合,得到所述像素点在所述当前像素状态下的状态转移概率分布。

其中,当前像素状态可以包括K个维度上的像素子状态,预设像素状态也可以包括K个维度上的像素子状态。

其中,对像素点的当前像素状态在各个维度上的状态转移概率进行融合的方式有多种,比如,该融合方式可以是相乘等。

例如,有3个维度,分别为RGB(红绿蓝)三个颜色通道,若当前像素状态的R维度的像素子状态为100,G维度的像素子状态为197,B维度的像素子状态为255,则对于在G维度上当前像素状态的相邻预设像素状态,其R维度的像素子状态可以为100,G维度的像素子状态为196,B维度的像素子状态为255;其中,相对G维度,R维度和B维度属于参考维度。

具体地,对于某个像素点的当前像素状态i(t)在第L维的状态转移概率,可以用如下式子(4)表示:

其中,∈表示步长,P

当∈足够小,反向条件分布可以因子分解为式子(5),如下:

其中,p

106、根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。

可选地,本实施例中,步骤“根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪图像进行去噪处理,生成第二样式下的目标图像”,可以包括:

根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪图像进行去噪处理,得到处理后图像;

将所述处理后图像作为新的加噪后图像,返回执行所述根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率的步骤,以生成第二样式下的目标图像。

具体地,循环过程中得到的各处理后图像和一开始的加噪后图像的图像尺寸大小相同,目标图像也和加噪后图像的图像尺寸一致。

其中,针对加噪后图像中每个像素点,具体可以从该像素点对应的状态转移概率分布中选取状态转移概率最大的预设像素状态进行转移,也可以从该像素点对应的状态转移概率分布中随机选取一个预设像素状态进行转移,若加噪后图像为t时刻对应的图像,则选取到的预设像素状态即作为t-1时刻的像素状态,从而获取t-1时刻对应的图像,将其作为新的加噪后图像,以进行新一轮的状态转移,直到迭代的次数满足预设条件,或者直到生成的图像符合要求,本实施例对此不作限制。需要说明的是,这里的状态转移也相当于去噪处理。

具体地,本实施例可以用jax框架实现了上述的算法,离散扩散模型的反向生成过程的伪代码如下所示:

具体地,对于一个有K个维度S个状态的扩散模型,首先,可以通过K*S次前向传递网络,并通过softmax函数对概率进行归一化,计算t时刻每个状态的概率矩阵P,概率矩阵P包含各预设像素状态对应的状态出现概率。接着,可以按照三种候选结果(停留在当前状态,跳转到下一状态,跳转到上一状态)的候选位置进行编码,从概率矩阵P中取出对应的概率。取出后,可以按照上述式子(1)计算反向转移速率R,并通过式子(4)和式子(5)采样得到t-1时刻的状态。时间从T到零进行迭代,最后就可以采样得到最后的输出结果,即目标图像。

本申请提供的图像生成方法可以应用到各种数据生成任务上,比如图像、视频、音乐等数据生成任务上。本申请可以使得离散扩散模型的采样不确定性大大降低,能够增加生成的图像的确定性。增加确定性后,可以为生成任务带来很大的好处。

例如,要修改一张图像,可以通过找到输入图像对应的噪声并进行修改,即对加噪后图像中像素点进行状态转移,修改其像素值,本申请的方法可以对状态转移过程进行约束,使得像素点的像素值变化幅度不会过大,从而能够生成和输入图像相关的图像,而避免生成与输入图像毫无关联的图像。比如,输入图像为一只小狗的图像,通过本申请的方法基于该输入图像生成的目标图像仍然是小狗的图像,只是图像背景、姿态、神情可能不一样;具体地,可以生成如图1d所示的各种场景下的图片,包括游泳、睡觉、在狗窝、在水桶里、修剪毛发等场景,虽然场景变化了,但生成的图片的底层特征不变,都是属于狗的图像。而当前的技术由于采样不确定性较高,生成的目标图像可能是一只四不像的生物。

又例如,本申请还可用于实现图像间的差值,比如想要生成一张图像包括图像A的前景和B的背景,则可以通过在隐空间中差值实现生成。具体地,可以分别对图像A和图像B进行图像加噪处理,得到图像A对应的加噪后图像(隐变量Z1)和图像B对应的加噪后图像(隐变量Z2),再对Z1和Z2进行加权融合,再采用本申请的扩散方法对融合后的数据进行状态转移,以生成图像。

本申请提出了一种基于最优传输的离散扩散模型采样方法,可以通过消除状态间“对流”来降低了采样的不确定性,从而提高生成图像的确定性,可以让生成过程变得可控,帮助生成算法部署到多媒体,社交平台,丰富娱乐。

具体地,可以在生成数据上对本申请的图像生成方法(记为DPF,DiscreteProbability Flow,离散概率流)与当前的SDDM(Score-based continuous-time DiscreteDiffusion Models,基于分数的连续时间离散扩散模型)进行对比实验,如表1所示,为在使用带宽bandwith=0.1的拉普拉斯内核的MMD(Maximum Mean Discrepancy,最大均值差异)的情况下,SDDM和DPF的生成图像的质量比较结果。需要说明的是,表1中较低的值表示质量越好,即MMD越低代表采样的效果越好。

表1

根据表1的采样质量结果可知,本申请方法采样的质量略有降低但是在可接受范围内,也就是说,和现有方法相差不大。

表2

在另一实施例中,可以对从同一出发点采样的方差进行测量,如表2所示,为SDDM和DPF采样的确定性比较,具体是4000个初始点的ECV(Expectation of the ConditionalVariance,条件方差)结果,每个初始点有10个生成的样本,数值越低表示确定性越高,即ECV越低代表采样的确定性越好。

由表2可知,本申请能够显著地降低采样的方差,大大降低了不确定性。具体地,参考图1e,为对上述表2的生成数据上采样不确定性的可视化。

其中,用四角星标识的点为初始点,其他小圆点为采样结果,为了突出显示,在图1e中用虚线圆圈圈出初始点。从图1e中,可以看到本申请方法从初始点出发只能到周围几个状态,而SDDM方法从一个状态出发可以到任意状态,因此,本申请方法具有更好的确定性。

本实施例还可以验证本申请的最优传输理论,具体地,参考图1f,展示了在空间中选取400个点(图1f最右侧的XT图像),每个点进行10次采样,得到的结果。

图1f具体为传输的可视化。右侧XT为初始点,不同初始点为其标注了不同的颜色。左侧为每个初始点采样十次的结果。

由图1f可以看出,SDDM方法得到的采样图颜色混乱,说明采样是不确定性的。相反本申请的方法生成的点的颜色大致与出发点一致(XT),说明采样的结果分布在出发点的周围,验证了最优传输理论。

本实施例还可以在图像上进行实验,以验证本申请方法生成的图像有着较强的确定性。具体地,从同一出发点出发,使用SDDM和本申请方法进行采样得到了如图1g的结果,其中同一行表明采样的初始点相同。

图1g为本申请方法与现有SDDM方法的采样结果的对比图。左侧为现有方法的采样结果,右侧为本申请的离散概率流方法的采样结果。同一行表示图像是由同一点采样而来,可以看出本申请方法生成的图像有着很强的确定性,验证了上述的理论。

由上可知,本实施例可以获取待处理的基础图像,所述基础图像为第一样式下的图像;对所述基础图像进行图像加噪处理,得到加噪后图像;针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率;根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布;根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。本申请可以根据加噪后图像中各像素点对应的状态转移概率分布,来对加噪后图像中各像素点的状态转移进行约束,即控制状态转移的过程,这样可以使得生成的图像的不确定性大大降低,提高生成图像的可用性。

根据前面实施例所描述的方法,以下将以该图像生成装置具体集成在服务器举例作进一步详细说明。

本申请实施例提供一种图像生成方法,如图2所示,该图像生成方法的具体流程可以如下:

201、服务器获取待处理的基础图像,所述基础图像为第一样式下的图像。

其中,基础图像可以是任意的图像,比如可以是风景图,也可以是人物图等。通过本申请提供的图像生成方法,可以生成与基础图像相关的目标图像。

其中,这里的样式可以包括图像的色彩风格、色调和对比度、滤镜效果、质感和纹理、艺术风格、平面构成等等,本实施例对此不作限制。

202、服务器对所述基础图像进行图像加噪处理,得到加噪后图像。

本实施例中,可以通过离散扩散模型来对基础图像进行图像加噪处理,再进行图像生成。离散扩散模型的处理过程可以分为两个,分别是前向扩散过程和反向生成过程,前向扩散过程也即加噪处理过程,加噪处理过程随着时间对数据状态(具体即图像中像素状态)进行转移得到噪声分布,即加噪后图像;图像生成过程是加噪的反过程,图像生成过程具体也可以视为去噪过程,通过去噪从噪声中生成离散数据(具体为目标图像)。

203、服务器针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率。

其中,当前像素状态为像素点当前的像素值,具体可以包括RGB(红绿蓝)三个维度上的像素值。预设像素状态可以包括当前像素状态本身和除当前像素状态外的其他像素状态。

具体地,像素点的像素状态可以包括0到255共256个状态,预设像素状态可以是这256个状态。

204、服务器根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

可选地,本实施例中,步骤“根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率”,可以包括:

计算所述当前像素状态和所述预设像素状态之间的状态距离;

当所述状态距离满足预设距离条件时,根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

其中,该预设距离条件可以是状态距离为1。只有状态距离符合预设距离条件,才进行具体的反向转移速率计算。

具体地,当状态距离不满足预设距离条件时,可以将像素点从当前像素状态转移到预设像素状态的反向转移速率直接设置为0,这样可以降低可能转移的像素状态的范围,减少状态的不确定性,从而提高生成的图像的确定性。

可选地,本实施例中,步骤“根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率”,可以包括:

对所述像素点分别在当前像素状态和预设像素状态上的状态出现概率进行对比处理;

根据对比处理结果和预设速率约束条件,设置所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

其中,通过对比处理,可以确定当前像素状态的状态出现概率和预设像素状态的状态出现概率的大小。

其中,预设速率约束条件可以根据实际情况进行设置。具体地,预设速率约束条件可以为像素点对应的正向转移速率和反向转移速率守恒。这里的守恒具体可以是正向转移速率和反向转移速率二者的绝对值相等。像素点对应的正向转移速率具体可以是其他像素状态转移到当前像素状态的转移速率,像素点对应的反向转移速率具体可以是当前像素状态转移到其他像素状态的转移速率,可以理解的是,正向转移速率相当于流入速率,反向转移速率相当于流出速率,二者需要持平。

可选地,本实施例中,步骤“根据对比处理结果和预设速率约束条件,设置所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率”,可以包括:

当所述像素点在当前像素状态上的状态出现概率大于所述像素点在预设像素状态上的状态出现概率时,基于所述预设速率约束条件,设置所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;

当所述像素点在当前像素状态上的状态出现概率不大于所述像素点在预设像素状态上的状态出现概率时,将所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率设置为预设值。

其中,预设值可以设置为零。具体地,记当前像素状态为状态i,预设像素状态为状态j,本实施例中,可以设置只有状态i对应的状态出现概率大于状态j对应的状态出现概率时,才会进行状态转移,这样了消除状态间的对流。

其中,当状态i对应的状态出现概率大于状态j对应的状态出现概率时,可以根据预设速率约束条件,来确定反向转移速率的计算式子,进而根据该式子,计算像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

205、服务器基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布。

可选地,本实施例中,所述当前像素状态包括至少一个维度上的像素子状态;所述预设像素状态包括至少一个维度上的像素子状态;

步骤“基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布”,可以包括:

针对每个维度,从预设像素状态中确定所述维度上当前像素状态的相邻预设像素状态,所述相邻预设像素状态在所述维度上的像素子状态与所述当前像素状态在所述维度上的像素子状态不同,所述相邻预设像素状态在参考维度上的像素子状态与所述当前像素状态在参考维度上的像素子状态相同,所述参考维度为除所述维度外的其他维度;

根据所述像素点从当前像素状态转移到所述相邻预设像素状态对应的反向转移速率,确定所述像素点的当前像素状态在所述维度上的状态转移概率;

将所述像素点的当前像素状态在各个维度上的状态转移概率进行融合,得到所述像素点在所述当前像素状态下的状态转移概率分布。

其中,对像素点的当前像素状态在各个维度上的状态转移概率进行融合的方式有多种,比如,该融合方式可以是相乘等。

206、服务器根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪图像进行去噪处理,得到处理后图像。

207、服务器将所述处理后图像作为新的加噪后图像,返回执行所述根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率的步骤,以生成第二样式下的目标图像。

具体地,循环过程中得到的各处理后图像和一开始的加噪后图像的图像尺寸大小相同,目标图像也和加噪后图像的图像尺寸一致。

本申请提出了一种基于最优传输的离散扩散模型采样方法,可以通过消除状态间“对流”来降低了采样的不确定性,从而提高生成图像的确定性,可以让生成过程变得可控,帮助生成算法部署到多媒体,社交平台,丰富娱乐。

由上可知,本实施例可以通过服务器获取待处理的基础图像,所述基础图像为第一样式下的图像;对所述基础图像进行图像加噪处理,得到加噪后图像;针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率;根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布;根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪图像进行去噪处理,得到处理后图像;将所述处理后图像作为新的加噪后图像,返回执行所述根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率的步骤,以生成第二样式下的目标图像。本申请可以根据加噪后图像中各像素点对应的状态转移概率分布,来对加噪后图像中各像素点的状态转移进行约束,即控制状态转移的过程,这样可以使得生成的图像的不确定性大大降低,提高生成图像的可用性。

为了更好地实施以上方法,本申请实施例还提供一种图像生成装置,如图3所示,该图像生成装置可以包括获取单元301、加噪单元302、预测单元303、计算单元304、确定单元305以及去噪单元306,如下:

(1)获取单元301;

获取单元,用于获取待处理的基础图像,所述基础图像为第一样式下的图像.。

(2)加噪单元302;

加噪单元,用于对所述基础图像进行图像加噪处理,得到加噪后图像。

(3)预测单元303;

预测单元,用于针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率。

可选的,在本申请的一些实施例中,所述加噪单元具体可以用于通过图像处理模型,对所述基础图像进行图像加噪处理,得到加噪后图像;

所述预测单元具体可以用于通过所述图像处理模型,针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率。

可选的,在本申请的一些实施例中,所述图像生成装置还可以包括训练单元,所述训练单元用于获取训练数据,所述训练数据包括至少一个图像样本;通过预设图像处理模型,对所述图像样本进行图像加噪处理,得到加噪后样本图像;针对所述加噪后样本图像中每个像素点,基于所述像素点的当前像素状态,确定所述像素点对应的预测状态概率分布,所述预测状态概率分布包括所述像素点上各预设像素状态对应的预测状态出现概率;根据所述预测状态概率分布和预设状态概率分布,对所述预设图像处理模型进行调整,得到训练后的图像处理模型。

可选的,在本申请的一些实施例中,所述加噪单元具体可以用于将所述基础图像与噪声图像进行融合处理,得到融合后图像;对所述融合后图像进行图像编码处理,得到所述加噪后图像。

可选的,在本申请的一些实施例中,所述预测单元可以包括第三确定子单元和提取子单元,如下:

所述第三确定子单元,用于针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,确定所述像素点对应的预测状态概率分布,所述预测状态概率分布包括所述像素点上各候选预设像素状态对应的状态出现概率;

提取子单元,用于根据预设像素状态对应的状态位置信息,从所述预测状态概率分布中提取所述像素点上各预设像素状态对应的状态出现概率。

(4)计算单元304;

计算单元,用于根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

可选的,在本申请的一些实施例中,所述计算单元可以包括对比子单元和设置子单元,如下:

所述对比子单元,用于对所述像素点分别在当前像素状态和预设像素状态上的状态出现概率进行对比处理;

设置子单元,用于根据对比处理结果和预设速率约束条件,设置所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

可选的,在本申请的一些实施例中,所述设置子单元具体可以用于当所述像素点在当前像素状态上的状态出现概率大于所述像素点在预设像素状态上的状态出现概率时,基于所述预设速率约束条件,设置所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;当所述像素点在当前像素状态上的状态出现概率不大于所述像素点在预设像素状态上的状态出现概率时,将所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率设置为预设值。

可选的,在本申请的一些实施例中,所述计算单元可以包括第一计算子单元和第二计算子单元,如下:

所述第一计算子单元,用于计算所述当前像素状态和所述预设像素状态之间的状态距离;

第二计算子单元,用于当所述状态距离满足预设距离条件时,根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率。

(5)确定单元305;

确定单元,用于基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布。

可选的,在本申请的一些实施例中,所述当前像素状态包括至少一个维度上的像素子状态;所述预设像素状态包括至少一个维度上的像素子状态;

所述确定单元可以包括第一确定子单元、第二确定子单元和融合子单元,如下:

所述第一确定子单元,用于针对每个维度,从预设像素状态中确定所述维度上当前像素状态的相邻预设像素状态,所述相邻预设像素状态在所述维度上的像素子状态与所述当前像素状态在所述维度上的像素子状态不同,所述相邻预设像素状态在参考维度上的像素子状态与所述当前像素状态在参考维度上的像素子状态相同,所述参考维度为除所述维度外的其他维度;

第二确定子单元,用于根据所述像素点从当前像素状态转移到所述相邻预设像素状态对应的反向转移速率,确定所述像素点的当前像素状态在所述维度上的状态转移概率;

融合子单元,用于将所述像素点的当前像素状态在各个维度上的状态转移概率进行融合,得到所述像素点在所述当前像素状态下的状态转移概率分布。

(6)去噪单元306;

去噪单元,用于根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。

可选的,在本申请的一些实施例中,所述去噪单元可以包括去噪子单元和循环子单元,如下:

所述去噪子单元,用于根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪图像进行去噪处理,得到处理后图像;

循环子单元,用于将所述处理后图像作为新的加噪后图像,返回执行所述根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率的步骤,以生成第二样式下的目标图像。

由上可知,本实施例可以由获取单元301获取待处理的基础图像,所述基础图像为第一样式下的图像;通过加噪单元302对所述基础图像进行图像加噪处理,得到加噪后图像;通过预测单元303针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率;通过计算单元304根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;通过确定单元305基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布;通过去噪单元306根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。本申请可以根据加噪后图像中各像素点对应的状态转移概率分布,来对加噪后图像中各像素点的状态转移进行约束,即控制状态转移的过程,这样可以使得生成的图像的不确定性大大降低,提高生成图像的可用性。

本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,该电子设备可以是终端或者服务器等,具体来讲:

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,该电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:

获取待处理的基础图像,所述基础图像为第一样式下的图像;对所述基础图像进行图像加噪处理,得到加噪后图像;针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率;根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布;根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

由上可知,本实施例可以获取待处理的基础图像,所述基础图像为第一样式下的图像;对所述基础图像进行图像加噪处理,得到加噪后图像;针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率;根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布;根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。本申请可以根据加噪后图像中各像素点对应的状态转移概率分布,来对加噪后图像中各像素点的状态转移进行约束,即控制状态转移的过程,这样可以使得生成的图像的不确定性大大降低,提高生成图像的可用性。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种图像生成方法中的步骤。例如,该指令可以执行如下步骤:

获取待处理的基础图像,所述基础图像为第一样式下的图像;对所述基础图像进行图像加噪处理,得到加噪后图像;针对所述加噪后图像中每个像素点,基于所述像素点的当前像素状态,预测所述像素点上各预设像素状态对应的状态出现概率;根据所述状态出现概率,计算所述像素点从所述当前像素状态转移到所述预设像素状态的反向转移速率;基于所述反向转移速率,确定所述像素点在所述当前像素状态下的状态转移概率分布;根据所述加噪后图像中各像素点对应的状态转移概率分布,对所述加噪后图像进行去噪处理,生成第二样式下的目标图像。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像生成方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种图像生成方法以及相关设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 基于遮挡图像生成三维人脸图像方法、装置及电子设备
  • 生成对抗网络训练方法、图像处理方法、设备及存储介质
  • 一种图像生成方法、装置、设备和存储介质
  • 一种图像生成方法及终端设备
  • 图像生成方法和装置、计算机设备和计算机存储介质
  • 图像生成方法、图像生成装置及相关设备
  • 图像生成方法、生成对抗网络的训练方法和相关设备
技术分类

06120116499928