基于扩散模型的无训练指代图像分割方法

文献发布时间：2024-04-18 19:57:31

技术领域

本发明涉及基于扩散模型的无训练指代图像分割方法，属于计算机视觉中的指代图像分割领域。

背景技术

无训练指代图像分割的目的在于，在没有预先数据的情况下，给定一张图片和文本，分割图片中文本描述的区域。训练一个可用的指代图像分割系统往往需要大量的数据，但现实生活中收集足够的指代图像分割数据是十分困难的。因此，对于数据极度匮乏的情况，传统方法难以进行指代图像分割。

发明内容

针对现有数据匮乏情况下，难以实现指代图像分割的问题，本发明提供一种基于扩散模型的无训练指代图像分割方法。

本发明的一种基于扩散模型的无训练指代图像分割方法，包括，

步骤一：获取要进行指代图像分割的原始图像和文本，对原始图像增加高斯噪声后，与文本共同输入至文本到图像的生成器，得到交叉注意力函数的全部计算结果矩阵；

步骤二：采用句法分析工具确定文本的核心词语位置，并在交叉注意力函数的全部计算结果矩阵中确定与核心词语位置对应的所有目标矩阵；利用双线性插值算法将每个目标矩阵扩张到与原始图像等大的形状，再进行均值化，得到指代关系矩阵；

步骤三：采用SAM模型对原始图像进行分割，得到多个候选分割结果矩阵；计算每个候选分割结果矩阵与指代关系矩阵的相似度，选择相似度最高的候选分割结果矩阵作为指代图像分割结果。

根据本发明的基于扩散模型的无训练指代图像分割方法，步骤一中，文本到图像的生成器的获得方法为，下载得到的开源的文本到图像的基于扩散模型的生成器，或者经预训练得到的基于扩散模型的生成器。

根据本发明的基于扩散模型的无训练指代图像分割方法，步骤二中，句法分析工具为SpaCy。

根据本发明的基于扩散模型的无训练指代图像分割方法，步骤二中核心词语位置的获得方法为：

采用句法分析工具得到文本中每个词语的句法信息；选择句法信息为根词语的词语作为核心词语，并确定核心词语位置。

根据本发明的基于扩散模型的无训练指代图像分割方法，步骤二中，将目标矩阵表示为A′：

A′＝R

式中R

根据本发明的基于扩散模型的无训练指代图像分割方法，步骤二中，目标矩阵扩张到与原始图像等大的形状后，表示为矩阵A：

A＝φ(A′)，

式中φ为双线性插值函数。

根据本发明的基于扩散模型的无训练指代图像分割方法，步骤三中，候选分割结果矩阵与指代关系矩阵的相似度的计算方法为：

式中q

本发明的有益效果：本发明方法利用文本到图像生成模型得到图像的指代分割，设计了从文本到图像生成模型获取指代关系矩阵与相似度计算方法，从而无需训练获得文本与图像区域的关系，使得在没有指代分割训练数据的情况下实现指代分割。

附图说明

图1是本发明所述基于扩散模型的无训练指代图像分割方法的一种实施流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

具体实施方式一、结合图1所示，本发明提供了一种基于扩散模型的无训练指代图像分割方法，包括，

步骤一：获取要进行指代图像分割的原始图像和文本，对原始图像增加高斯噪声后，将含噪声的原始图像与文本共同输入至文本到图像的生成器，得到交叉注意力函数的全部计算结果矩阵；由于文本到图像的生成器处理的图像需要在噪声环境中，因此对原始图像增加高斯噪声；

本实施考虑到基于DiffusionModel的文本到图像生成模型在理解文本与图像之间关系的作用，设计了从文本到图像生成模型获取指代关系矩阵与相似度计算方法，从而解决了在没有指代分割训练数据的情况下进行指代分割的问题。由此，对于给定的一张图片与文本，可以直接分割出图片中文本描述的对应区域。

作为示例，步骤一中，文本到图像的生成器的获得方法为，下载得到的开源的文本到图像的基于扩散模型的生成器，或者经预训练得到的基于扩散模型(DiffusionModel)的生成器。

本实施方式中，若能得到预训练好的生成器则可直接使用；否则，需要在图像文本数据上训练生成器直至收敛。经预训练得到的基于扩散模型的生成器通过收集足够多的图片进行训练得到。

作为示例，步骤二中，句法分析工具为SpaCy。

进一步，步骤二中核心词语位置的获得方法为：

采用句法分析工具得到文本中每个词语的句法信息；选择句法信息为根词语(Root)的词语作为核心词语，并确定核心词语位置。

再进一步，步骤二中，选取交叉注意力函数的全部计算结果中与核心词语位置相对应的维度，将目标矩阵表示为A′：

A′＝R

式中R

步骤二中，目标矩阵扩张到与原始图像等大的形状后，表示为矩阵A：

A＝φ(A′)，

式中φ为双线性插值函数。

将所有目标矩阵的双线性插值计算结果求均值，得到指代关系矩阵。

再进一步，步骤三中，假设SAM模型对原始图像进行分割，得到n个候选分割结果矩阵P

式中q

本发明方法相较于现有方法，不需要人工标注的数据指代图像分割数据，极大的降低了应用成本。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其它所述实施例中。

完整全部详细技术资料下载