基于扩散模型的图文相关多分布采样方法和装置

文献发布时间：2024-01-17 01:14:25

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于扩散模型的图文相关多分布采样方法和装置。

背景技术

扩散模型是一种深度生成模型，用于生成与训练它们的数据相似的数据，扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据，然后通过逆转这个噪声过程来学习恢复数据。训练后，我们可以使用扩散模型通过学习去噪过程简单地传递随机采样的噪声来生成数据。也就是说，模型由在带噪数据上的去噪模型所决定。

图文相关多分布建模问题指对图文数据的一族潜在分布进行建模的问题，这一族分布包括图像数据的边缘分布、文本数据的边缘分布、图文数据的联合分布、文到图的条件分布、图到文的条件分布。

针对图文数据的图文相关多分布建模问题，现有的扩散模型被设计为建模一个特定的分布，例如文到图的条件分布。在训练时，扩散模型会给图文数据中的图像加入噪声，然后再以带噪图像、原始文本、以及图像噪声大小为输入，去预测图像中的噪声。这样训练出来的扩散模型仅考虑单个分布，也就是说，现有的扩散模型无法支持任意多模态(图文)数据的多分布建模，例如，一个模型同时支持图像数据的边缘分布、文本数据的边缘分布、图文数据的联合分布、文到图的条件分布、图到文的条件分布等的建模。这就会导致现有的扩散模型用于采样时只具有单功能。

综上，现有的采样方法存在功能单一、普适性低的问题。

发明内容

本发明提供一种基于扩散模型的图文相关多分布采样方法和装置，用以解决现有技术中功能单一、普适性低的缺陷，实现多功能、普适性高的，适用于任意多模态数据的多分布采样的效果。

本发明提供一种基于扩散模型的图文相关多分布采样方法，包括：

获取待处理数据，所述待处理数据为图像数据、文本数据和图文数据中的一者；

根据预先设定的采样类型，确定待输入的噪声类型和/或噪声参数值；

将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中，以得到采样结果；

其中，所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的，所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法，基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到图文相关多分布采样模型，具体包括以下步骤：

S1：获取样本数据对，所述样本数据对包括图像数据样本和文本数据样本；

S2：基于标准高斯分布获取目标图像噪声和目标文本噪声，获取图像噪声参数值和文本噪声参数值；

S3：根据所述图像噪声参数值，计算所述图像数据样本与所述图像噪声参数值的线性组合，得到加噪图像样本，根据所述文本噪声参数值，计算所述文本数据样本与所述文本噪声参数值的线性组合，得到加噪文本样本；

S4：将所述图像噪声参数值、所述文本噪声参数值、所述加噪图像样本和所述加噪文本样本输入图文相关多分布采样模型，得到图像噪声预测结果和文本噪声预测结果；

S5：计算所述图像噪声预测结果和目标图像噪声之差的二范数平方，以及所述文本噪声预测结果和目标文本噪声之差的二范数平方，以最小化两个二范数平方之和为目标，训练所述图文相关多分布采样模型的参数；

S6：重复步骤S1-S5，直至达到预设的训练迭代次数，将最后一次训练模型的参数作为最终模型的参数，以得到训练完成的图文相关多分布采样模型。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法，根据预先设定的采样类型，确定待输入的噪声类型和/或噪声参数值，具体包括：

若预先设定的采样类型为图像采样，确定待输入的噪声类型为文本噪声，并将待输入的文本噪声指定为标准高斯噪声，确定待输入的文本噪声参数值为预设范围内的最大值。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法，根据预先设定的采样类型，确定待输入的噪声类型和/或噪声参数值，具体包括：

若预先设定的采样类型为文本采样，确定待输入的噪声类型为图像噪声，并将待输入的图像噪声指定为标准高斯噪声，确定待输入的图像噪声参数值为预设范围内的最大值。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法，根据预先设定的采样类型，确定待输入的噪声类型和/或噪声参数值，具体包括：

若预先设定的采样类型为图文联合采样，确定待输入的图像噪声参数值与待输入的文本噪声参数值为相同预设值。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法，根据预先设定的采样类型，确定待输入的噪声类型和/或噪声参数值，具体包括：

若预先设定的采样类型为图到文采样，确定待输入的噪声类型为图像噪声，并将待输入的图像噪声指定为预设图像，确定待输入的图像噪声参数值为0。

根据本发明提供的一种基于扩散模型的图文相关多分布采样方法，根据预先设定的采样类型，确定待输入的噪声类型和/或噪声参数值，具体包括：

若预先设定的采样类型为文到图采样，确定待输入的噪声类型为文本噪声，并将待输入的文本噪声指定为预设文本，确定待输入的图像噪声参数值为0。

本发明还提供一种基于扩散模型的图文相关多分布采样装置，包括：

数据获取单元，用于获取待处理数据，所述待处理数据为图像数据、文本数据和图文数据中的一者；

噪声确定单元，用于根据预先设定的采样类型，确定待输入的噪声类型和/或噪声参数值；

采样单元，用于将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中，以得到采样结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于扩散模型的图文相关多分布采样方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于扩散模型的图文相关多分布采样方法。

本发明提供的一个基于扩散模型的图文相关多分布采样方法和装置，通过获取待处理数据，所述待处理数据为图像数据、文本数据和图文数据中的一者；根据预先设定的采样类型，确定待输入的噪声类型和/或噪声参数值；将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中，以得到采样结果；其中，所述图文相关多分布采样模型是基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到的，所述样本数据对为通过图像数据样本和文本数据样本构成的数据对。本发明同时考虑多个图文分布，根据预先设定的采样类型进行加噪，将噪声类型、噪声参数值输入进预先训练的图文相关多分布采样模型，得到采样结果，实现多功能、普适性高的，适用于任意多模态数据的多分布采样的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于扩散模型的图文相关多分布采样方法的流程示意图之一；

图2是本发明提供的基于扩散模型的图文相关多分布采样方法的流程示意图之二；

图3是本发明提供的基于扩散模型的图文相关多分布采样装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

附图标记：

310：数据获取单元；320：噪声确定单元；330：采样单元；

410：处理器；420：通信接口；430：存储器；440：通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图2描述本发明的基于扩散模型的图文相关多分布采样方法，图1是本发明提供的基于扩散模型的图文相关多分布采样方法的流程示意图之一，如图1所示，本发明提供一种基于扩散模型的图文相关多分布采样方法，包括：

步骤110：获取待处理数据，所述待处理数据为图像数据、文本数据和图文数据中的一者。

待处理数据可能为图像数据，可能为文本数据，也可能为图文数据。

步骤120：根据预先设定的采样类型，确定待输入的噪声类型和/或噪声参数值。

预先设定的采样类型包括：图像采样、文本采样、图文联合采样、图到文采样、文到图采样。

待输入的噪声类型包括图像和文本两个模态，噪声参数值根据采样类型设定。

步骤130：将所述待处理数据、所述待输入的噪声类型和/或噪声参数值输入预先训练的图文相关多分布采样模型中，以得到采样结果；

将待处理数据、待输入的噪声类型和噪声参数值输入预先训练的图文相关多分布采样模型中，得到采样结果。

本发明旨在提出一种图文相关多分布的建模方法。在训练时同时向图和文加入噪声，其中图和文的噪声大小独立，然后根据带噪图像、带噪文本、以及图像和文本各自的噪声大小为输入，去同时预测图像和文本的噪声。在推理时，通过指定输入的噪声的参数值大小，可以完成对图像、文本、图文联合、图到文、文到图的采样。

本发明提升了扩散模型的普适性，即让扩散模型从一个单功能的模型(例如文到图采样功能)转变为一个多功能的模型(同时拥有图像、文本、图文联合、图到文、文到图的采样功能)。

基于上述实施例，该方法中，基于预先构建的神经网络利用样本数据对和在所述样本数据对中加入的噪声进行训练得到图文相关多分布采样模型，具体包括以下步骤：

S1：获取样本数据对，所述样本数据对包括图像数据样本和文本数据样本；

S2：基于标准高斯分布获取目标图像噪声和目标文本噪声，获取图像噪声参数值和文本噪声参数值；

S6：重复步骤S1-S5，直至达到预设的训练迭代次数，将最后一次训练模型的参数作为最终模型的参数，以得到训练完成的图文相关多分布采样模型。

具体地，如图2，对于给定的图文数据集，模型训练步骤如下：

S1：获取样本数据对，所述样本数据对包括图像数据样本和文本数据样本。在一些实施例中，样本数据对来源于给定的图文数据集，从图文数据集采样图像文本数据对，以得到样本数据对。

S2：基于标准高斯分布获取目标图像噪声和目标文本噪声，获取图像噪声参数值和文本噪声参数值。在具体操作过程中，从标准高斯分布中采样噪声，采样一个图像噪声参数值。同样地，从标准高斯分布中采样噪声，采样一个文本噪声参数值。

S3：根据所述图像噪声参数值，计算所述图像数据样本与所述图像噪声参数值的线性组合，得到加噪图像样本，根据所述文本噪声参数值，计算所述文本数据样本与所述文本噪声参数值的线性组合，得到加噪文本样本。也就是说，根据图像噪声参数值，计算图像数据样本和图像噪声参数值的一个线性组合，得到添加了高斯噪声的图片(即加噪图片)，称为加噪图像样本。同样地，计算文本数据样本和文本噪声参数值的一个线性组合，得到添加了高斯噪声的文本(即加噪文本)，称为加噪文本样本。加噪图像样本和图像噪声参数值共同组成目标文本噪声；加噪文本样本和文本噪声参数值共同组成目标文本噪声。

S4：将所述图像噪声参数值、所述文本噪声参数值、所述加噪图像样本和所述加噪文本样本输入图文相关多分布采样模型，得到图像噪声预测结果和文本噪声预测结果。此处的图文相关多分布采样模型是预先构建的噪声预测神经网络模型。将加噪图像样本、图像噪声参数值、加噪文本样本、文本噪声参数值输入图文相关多分布采样模型，得到对图像噪声的预测结果和对文本噪声的预测结果。

S5：计算所述图像噪声预测结果和目标图像噪声之差的二范数平方，以及所述文本噪声预测结果和目标文本噪声之差的二范数平方，以最小化两个二范数平方之和为目标，训练所述预先构建的图文相关多分布采样模型的参数。

S6：重复步骤S1-S5，直至达到预设的训练迭代次数，将最后一次训练模型的参数作为最终模型的参数，以得到训练完成的图文相关多分布采样模型。预设的训练迭代次数可以为300000。

针对图文相关多分布建模问题，现有技术仅考虑单个分布的建模，因此只在单个模态(例如图像)上进行加噪、将单个模态的噪声大小值输入进噪声预测网络、以及预测单个模态的噪声。本发明同时考虑多个分布的建模，因此在所有模态(图和文)上进行加噪、将每个模态的噪声大小值输入进噪声预测网络、以及预测每个模态的噪声。