掌桥专利:专业的专利平台
掌桥专利
首页

基于扩散模型的图文相关多分布采样方法和装置

文献发布时间:2024-01-17 01:14:25


基于扩散模型的图文相关多分布采样方法和装置

技术领域

本发明涉及机器学习技术领域,尤其涉及一种基于扩散模型的图文相关多分布采样方法和装置。

背景技术

扩散模型是一种深度生成模型,用于生成与训练它们的数据相似的数据,扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过逆转这个噪声过程来学习恢复数据。训练后,我们可以使用扩散模型通过学习去噪过程简单地传递随机采样的噪声来生成数据。也就是说,模型由在带噪数据上的去噪模型所决定。

图文相关多分布建模问题指对图文数据的一族潜在分布进行建模的问题,这一族分布包括图像数据的边缘分布、文本数据的边缘分布、图文数据的联合分布、文到图的条件分布、图到文的条件分布。

针对图文数据的图文相关多分布建模问题,现有的扩散模型被设计为建模一个特定的分布,例如文到图的条件分布。在训练时,扩散模型会给图文数据中的图像加入噪声,然后再以带噪图像、原始文本、以及图像噪声大小为输入,去预测图像中的噪声。这样训练出来的扩散模型仅考虑单个分布,也就是说,现有的扩散模型无法支持任意多模态(图文)数据的多分布建模,例如,一个模型同时支持图像数据的边缘分布、文本数据的边缘分布、图文数据的联合分布、文到图的条件分布、图到文的条件分布等的建模。这就会导致现有的扩散模型用于采样时只具有单功能。

综上,现有的采样方法存在功能单一、普适性低的问题。

发明内容

本发明提供一种基于扩散模型的图文相关多分布采样方法和装置,用以解决现有技术中功能单一、普适性低的缺陷,实现多功能、普适性高的,适用于任意多模态数据的多分布采样的效果。

本发明提供一种基于扩散模型的图文相关多分布采样方法,包括:

获取待处理数据,所述待处理数据为图像数据、文本数据和图文数据中的一者;

根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值;

将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中,以得到采样结果;

其中,所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的,所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法,基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到图文相关多分布采样模型,具体包括以下步骤:

S1:获取样本数据对,所述样本数据对包括图像数据样本和文本数据样本;

S2:基于标准高斯分布获取目标图像噪声和目标文本噪声,获取图像噪声参数值和文本噪声参数值;

S3:根据所述图像噪声参数值,计算所述图像数据样本与所述图像噪声参数值的线性组合,得到加噪图像样本,根据所述文本噪声参数值,计算所述文本数据样本与所述文本噪声参数值的线性组合,得到加噪文本样本;

S4:将所述图像噪声参数值、所述文本噪声参数值、所述加噪图像样本和所述加噪文本样本输入图文相关多分布采样模型,得到图像噪声预测结果和文本噪声预测结果;

S5:计算所述图像噪声预测结果和目标图像噪声之差的二范数平方,以及所述文本噪声预测结果和目标文本噪声之差的二范数平方,以最小化两个二范数平方之和为目标,训练所述图文相关多分布采样模型的参数;

S6:重复步骤S1-S5,直至达到预设的训练迭代次数,将最后一次训练模型的参数作为最终模型的参数,以得到训练完成的图文相关多分布采样模型。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为图像采样,确定待输入的噪声类型为文本噪声,并将待输入的文本噪声指定为标准高斯噪声,确定待输入的文本噪声参数值为预设范围内的最大值。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为文本采样,确定待输入的噪声类型为图像噪声,并将待输入的图像噪声指定为标准高斯噪声,确定待输入的图像噪声参数值为预设范围内的最大值。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为图文联合采样,确定待输入的图像噪声参数值与待输入的文本噪声参数值为相同预设值。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为图到文采样,确定待输入的噪声类型为图像噪声,并将待输入的图像噪声指定为预设图像,确定待输入的图像噪声参数值为0。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为文到图采样,确定待输入的噪声类型为文本噪声,并将待输入的文本噪声指定为预设文本,确定待输入的图像噪声参数值为0。

本发明还提供一种基于扩散模型的图文相关多分布采样装置,包括:

数据获取单元,用于获取待处理数据,所述待处理数据为图像数据、文本数据和图文数据中的一者;

噪声确定单元,用于根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值;

采样单元,用于将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中,以得到采样结果;

其中,所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的,所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于扩散模型的图文相关多分布采样方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于扩散模型的图文相关多分布采样方法。

本发明提供的一个基于扩散模型的图文相关多分布采样方法和装置,通过获取待处理数据,所述待处理数据为图像数据、文本数据和图文数据中的一者;根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值;将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中,以得到采样结果;其中,所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的,所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。本发明同时考虑多个图文分布,根据预先设定的采样类型进行加噪,将噪声类型、噪声参数值输入进预先训练的图文相关多分布采样模型,得到采样结果,实现多功能、普适性高的,适用于任意多模态数据的多分布采样的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的基于扩散模型的图文相关多分布采样方法的流程示意图之一;

图2是本发明提供的基于扩散模型的图文相关多分布采样方法的流程示意图之二;

图3是本发明提供的基于扩散模型的图文相关多分布采样装置的结构示意图;

图4是本发明提供的电子设备的结构示意图。

附图标记:

310:数据获取单元;320:噪声确定单元;330:采样单元;

410:处理器;420:通信接口;430:存储器;440:通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合图1-图2描述本发明的基于扩散模型的图文相关多分布采样方法,图1是本发明提供的基于扩散模型的图文相关多分布采样方法的流程示意图之一,如图1所示,本发明提供一种基于扩散模型的图文相关多分布采样方法,包括:

步骤110:获取待处理数据,所述待处理数据为图像数据、文本数据和图文数据中的一者。

待处理数据可能为图像数据,可能为文本数据,也可能为图文数据。

步骤120:根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值。

预先设定的采样类型包括:图像采样、文本采样、图文联合采样、图到文采样、文到图采样。

待输入的噪声类型包括图像和文本两个模态,噪声参数值根据采样类型设定。

步骤130:将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中,以得到采样结果;

其中,所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的,所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。

将待处理数据、待输入的噪声类型和噪声参数值输入预先训练的图文相关多分布采样模型中,得到采样结果。

本发明旨在提出一种图文相关多分布的建模方法。在训练时同时向图和文加入噪声,其中图和文的噪声大小独立,然后根据带噪图像、带噪文本、以及图像和文本各自的噪声大小为输入,去同时预测图像和文本的噪声。在推理时,通过指定输入的噪声的参数值大小,可以完成对图像、文本、图文联合、图到文、文到图的采样。

本发明提升了扩散模型的普适性,即让扩散模型从一个单功能的模型(例如文到图采样功能)转变为一个多功能的模型(同时拥有图像、文本、图文联合、图到文、文到图的采样功能)。

基于上述实施例,该方法中,基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到图文相关多分布采样模型,具体包括以下步骤:

S1:获取样本数据对,所述样本数据对包括图像数据样本和文本数据样本;

S2:基于标准高斯分布获取目标图像噪声和目标文本噪声,获取图像噪声参数值和文本噪声参数值;

S3:根据所述图像噪声参数值,计算所述图像数据样本与所述图像噪声参数值的线性组合,得到加噪图像样本,根据所述文本噪声参数值,计算所述文本数据样本与所述文本噪声参数值的线性组合,得到加噪文本样本;

S4:将所述图像噪声参数值、所述文本噪声参数值、所述加噪图像样本和所述加噪文本样本输入图文相关多分布采样模型,得到图像噪声预测结果和文本噪声预测结果;

S5:计算所述图像噪声预测结果和目标图像噪声之差的二范数平方,以及所述文本噪声预测结果和目标文本噪声之差的二范数平方,以最小化两个二范数平方之和为目标,训练所述图文相关多分布采样模型的参数;

S6:重复步骤S1-S5,直至达到预设的训练迭代次数,将最后一次训练模型的参数作为最终模型的参数,以得到训练完成的图文相关多分布采样模型。

具体地,如图2,对于给定的图文数据集,模型训练步骤如下:

S1:获取样本数据对,所述样本数据对包括图像数据样本和文本数据样本。在一些实施例中,样本数据对来源于给定的图文数据集,从图文数据集采样图像文本数据对,以得到样本数据对。

S2:基于标准高斯分布获取目标图像噪声和目标文本噪声,获取图像噪声参数值和文本噪声参数值。在具体操作过程中,从标准高斯分布中采样噪声,采样一个图像噪声参数值。同样地,从标准高斯分布中采样噪声,采样一个文本噪声参数值。

S3:根据所述图像噪声参数值,计算所述图像数据样本与所述图像噪声参数值的线性组合,得到加噪图像样本,根据所述文本噪声参数值,计算所述文本数据样本与所述文本噪声参数值的线性组合,得到加噪文本样本。也就是说,根据图像噪声参数值,计算图像数据样本和图像噪声参数值的一个线性组合,得到添加了高斯噪声的图片(即加噪图片),称为加噪图像样本。同样地,计算文本数据样本和文本噪声参数值的一个线性组合,得到添加了高斯噪声的文本(即加噪文本),称为加噪文本样本。加噪图像样本和图像噪声参数值共同组成目标文本噪声;加噪文本样本和文本噪声参数值共同组成目标文本噪声。

S4:将所述图像噪声参数值、所述文本噪声参数值、所述加噪图像样本和所述加噪文本样本输入图文相关多分布采样模型,得到图像噪声预测结果和文本噪声预测结果。此处的图文相关多分布采样模型是预先构建的噪声预测神经网络模型。将加噪图像样本、图像噪声参数值、加噪文本样本、文本噪声参数值输入图文相关多分布采样模型,得到对图像噪声的预测结果和对文本噪声的预测结果。

S5:计算所述图像噪声预测结果和目标图像噪声之差的二范数平方,以及所述文本噪声预测结果和目标文本噪声之差的二范数平方,以最小化两个二范数平方之和为目标,训练所述预先构建的图文相关多分布采样模型的参数。

S6:重复步骤S1-S5,直至达到预设的训练迭代次数,将最后一次训练模型的参数作为最终模型的参数,以得到训练完成的图文相关多分布采样模型。预设的训练迭代次数可以为300000。

针对图文相关多分布建模问题,现有技术仅考虑单个分布的建模,因此只在单个模态(例如图像)上进行加噪、将单个模态的噪声大小值输入进噪声预测网络、以及预测单个模态的噪声。本发明同时考虑多个分布的建模,因此在所有模态(图和文)上进行加噪、将每个模态的噪声大小值输入进噪声预测网络、以及预测每个模态的噪声。

基于上述实施例,该方法中,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为图像采样,确定待输入的噪声类型为文本噪声,并将待输入的文本噪声指定为标准高斯噪声,确定待输入的文本噪声参数值为预设范围内的最大值。

具体地,若预先设定的采样类型为图像采样,则待输入的噪声类型为文本噪声,将模型的待输入的文本噪声固定为标准高斯噪声,文本噪声参数值固定为预设范围内的最大值,使用图文相关多分布采样模型内包含的扩散模型的采样器对上述固定文本噪声输入和文本噪声大小的噪声预测网络进行采样。

基于上述实施例,该方法中,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为文本采样,确定待输入的噪声类型为图像噪声,并将待输入的图像噪声指定为标准高斯噪声,确定待输入的图像噪声参数值为预设范围内的最大值。

具体地,若预先设定的采样类型为文本采样,则待输入的噪声类型为图像噪声,将模型的待输入的图像噪声固定为标准高斯噪声,图像噪声参数值固定为预设范围内的最大值,使用图文相关多分布采样模型内包含的扩散模型的采样器对上述固定图像噪声输入和图像噪声大小的噪声预测网络进行采样。

基于上述实施例,该方法中,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为图文联合采样,确定待输入的图像噪声参数值与待输入的文本噪声参数值为相同预设值。

具体地,若预先设定的采样类型为图文联合采样,将模型的待输入的图像噪声参数值和文本噪声参数值设置为相同的预设值。需要强调的是,待输入的图像噪声参数值和文本噪声参数值相同,预设值可以为符合实际操作要求的任意值,本发明在此不做限定。使用图文相关多分布采样模型内包含的扩散模型的采样器对上述限定图像噪声大小值和文本噪声大小值为相同后的噪声预测网络进行采样。

基于上述实施例,该方法中,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为图到文采样,确定待输入的噪声类型为图像噪声,并将待输入的图像噪声指定为预设图像,确定待输入的图像噪声参数值为0。

具体地,若预先设定的采样类型为图到文采样,确定待输入的噪声类型为图像噪声,将模型的图像噪声输入固定为给定的图像,图像噪声参数值固定为0。使用图文相关多分布采样模型内包含的扩散模型的采样器对上述固定图像噪声输入和图像噪声大小的噪声预测网络进行采样。

基于上述实施例,该方法中,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为文到图采样,确定待输入的噪声类型为文本噪声,并将待输入的文本噪声指定为预设文本,确定待输入的图像噪声参数值为0。

具体地,若预先设定的采样类型为文到图采样,确定待输入的噪声类型为文本噪声,将模型的文本噪声输入固定为给定的文本,文本噪声参数值固定为0。使用图文相关多分布采样模型内包含的扩散模型的采样器对上述固定文本噪声输入和文本噪声大小的噪声预测网络进行采样。

在一些具体实施例中,本发明提供的基于扩散模型的图文相关多分布采样方法可以在配有8张Nvidia GeForce 2080Ti型号显卡的计算机上运行。在该计算机中配置好对应的数据集后,即可运行本发明的方法对模型进行训练。具体地,程序需要在可以运行PyTorch深度学习框架的系统上,配备至少共有96GB显存的显卡(例如8张12GB的显卡)。程序运行的实际流程:

1.根据运行的实际显存,配置好训练的批大小。

2.训练噪声预测神经网络模型。

在上述具体实施方式中,本发明提供的基于扩散模型的图文相关多分布采样方法,通过获取待处理数据,所述待处理数据为图像数据、文本数据和图文数据中的一者;根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值;将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中,以得到采样结果;其中,所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的,所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。本发明同时考虑多个图文分布,根据预先设定的采样类型进行加噪,将噪声类型、噪声参数值输入进预先训练的图文相关多分布采样模型,得到采样结果,实现多功能、普适性高的,适用于任意多模态数据的多分布采样的效果。

下面对本发明提供的基于扩散模型的图文相关多分布采样装置进行描述,下文描述的基于扩散模型的图文相关多分布采样装置与上文描述的基于扩散模型的图文相关多分布采样方法可相互对应参照。

图3是本发明实施例提供基于扩散模型的图文相关多分布采样装置的结构示意图,如图3所示,本发明实施例提供一种基于扩散模型的图文相关多分布采样装置,包括:数据获取单元310;噪声确定单元320;采样单元330;

其中,

数据获取单元310,用于获取待处理数据,所述待处理数据为图像数据、文本数据和图文数据中的一者;

噪声确定单元320,用于根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值;

采样单元330,用于将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中,以得到采样结果;

其中,所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的,所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。

基于上述实施例,该装置中,基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到图文相关多分布采样模型,具体包括以下步骤:

S1:获取样本数据对,所述样本数据对包括图像数据样本和文本数据样本;

S2:基于标准高斯分布获取目标图像噪声和目标文本噪声,获取图像噪声参数值和文本噪声参数值;

S3:根据所述图像噪声参数值,计算所述图像数据样本与所述图像噪声参数值的线性组合,得到加噪图像样本,根据所述文本噪声参数值,计算所述文本数据样本与所述文本噪声参数值的线性组合,得到加噪文本样本;

S4:将所述图像噪声参数值、所述文本噪声参数值、所述加噪图像样本和所述加噪文本样本输入图文相关多分布采样模型,得到图像噪声预测结果和文本噪声预测结果;

S5:计算所述图像噪声预测结果和目标图像噪声之差的二范数平方,以及所述文本噪声预测结果和目标文本噪声之差的二范数平方,以最小化两个二范数平方之和为目标,训练所述图文相关多分布采样模型的参数;

S6:重复步骤S1-S5,直至达到预设的训练迭代次数,将最后一次训练模型的参数作为最终模型的参数,以得到训练完成的图文相关多分布采样模型。

基于上述实施例,该装置中,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为图像采样,确定待输入的噪声类型为文本噪声,并将待输入的文本噪声指定为标准高斯噪声,确定待输入的文本噪声参数值为预设范围内的最大值。

基于上述实施例,该装置中,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为文本采样,确定待输入的噪声类型为图像噪声,并将待输入的图像噪声指定为标准高斯噪声,确定待输入的图像噪声参数值为预设范围内的最大值。

基于上述实施例,该装置中,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为图文联合采样,确定待输入的图像噪声参数值与待输入的文本噪声参数值为相同预设值。

基于上述实施例,该装置中,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为图到文采样,确定待输入的噪声类型为图像噪声,并将待输入的图像噪声指定为预设图像,确定待输入的图像噪声参数值为0。

基于上述实施例,该装置中,根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值,具体包括:

若预先设定的采样类型为文到图采样,确定待输入的噪声类型为文本噪声,并将待输入的文本噪声指定为预设文本,确定待输入的图像噪声参数值为0。

在上述具体实施方式中,本发明提供的基于扩散模型的图文相关多分布采样装置,通过获取待处理数据,所述待处理数据为图像数据、文本数据和图文数据中的一者;根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值;将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中,以得到采样结果;其中,所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的,所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。本发明同时考虑多个图文分布,根据预先设定的采样类型进行加噪,将噪声类型、噪声参数值输入进预先训练的图文相关多分布采样模型,得到采样结果,实现多功能、普适性高的,适用于任意多模态数据的多分布采样的效果。

图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行基于扩散模型的图文相关多分布采样方法,该方法包括:获取待处理数据,所述待处理数据为图像数据、文本数据和图文数据中的一者;根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值;将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中,以得到采样结果;其中,所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的,所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。

此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于扩散模型的图文相关多分布采样方法,该方法包括:获取待处理数据,所述待处理数据为图像数据、文本数据和图文数据中的一者;根据预先设定的采样类型,确定待输入的噪声类型和/或噪声参数值;将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中,以得到采样结果;其中,所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的,所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 一种基于高斯分布M-H采样的反演模型更新方法
  • 基于多采样率自回归分布滞后模型的高炉指标预测方法
  • 一种基于犹豫模糊扩散决策模型的决策方法及相关装置
  • 基于多概率分布的分布式视频编码相关噪声模型构造方法
技术分类

06120116075158