一种基于先验指示表征框架的遥感图文检索方法

文献发布时间：2024-04-18 19:58:26

技术领域

本发明属于遥感领域，尤其涉及一种基于先验指示表征框架的遥感图文检索的方法。

背景技术

遥感图文检索是一种重要的信息检索技术，旨在将遥感图像与相关文本信息进行关联并检索出匹配的图像块和文本内容。这一技术的主要目标是从大规模遥感图像数据库中，如由卫星或航空无人机收集的数据，准确地检索出与给定查询文本或图像块相匹配的结果，其在资源调查、灾害检测、农业生产等领域发挥着重大作用。遥感图像中的小尺度目标容易受到语义噪声的干扰，例如背景、无关对象等。而过多关注语义噪声会影响视觉和文本表征，增加语义混淆区域，从而严重影响检索性能。

在遥感图文检索领域，大多数现有方法都是基于卷积神经网络的视觉表征和基于循环神经网络的文本表征，使用成对三元损失进行优化，但是这不利于模态间的远程依赖关系建模和提高遥感图文检索模型可扩增能力。

发明内容

为了解决现有遥感图文检索方法中由语义噪声引起的性能衰退，本发明提出了一种基于先验指示表征框架的遥感图文检索方法，提升遥感图文检索性能。

为了实现上述的目的，本申请的技术方案如下：

一种基于先验指示表征框架的遥感图文检索方法，所述方法包括以下步骤：

步骤一、图文预处理，对遥感图像-文本数据集的图像和文本输入进行预处理操作；

步骤二、图文检索模型的搭建，包括构建图文预编码，构建视觉指示表征模块和语言循环注意力模块，实现对视觉和文本模态的特征提取，获得最终的视觉和文本嵌入特征；

步骤三、表征对齐，包括相似度量和子空间表征；计算视觉和文本模态特征的余弦相似度矩阵，并设计损失函数，包括对比损失函数和归属损失函数，通过最小化损失函数实现图像和文本的对齐。

进一步，所述步骤一包括以下子步骤：

步骤1.1：遥感图像的预处理；将图像数据分成训练集、验证集和测试集；对训练和验证数据进行数据增强处理，包括缩放、随机裁剪、随机翻转和标准化处理；

步骤1.2：文本数据的预处理；每个遥感图像对应五句文本描述；首先在第一句开头加上特殊Token[CLS]用于标记句子开始，用[SEP]标记句子结束；然后建立单词向量表将每个单词转换成一个一维向量。

再进一步，所述步骤二包括以下子步骤：

步骤2.1：构建图文预编码；所述的图文预编码包括一个视觉编码器、一个指示编码器和一个文本编码器，过程如下：

步骤2.1.1：使用Swin Transformer网络作为视觉编码器，用于提取图像的全局相关特征和局部相关特征；

步骤2.1.2：使用在AID数据集上预训练的ResNet网络作为指示编码器，以获得指示嵌入特征，从而帮助获得无偏视觉表征；

步骤2.1.3：使用一个预训练过的Bert作为文本编码器，用于提取文本的全局相关特征和局部相关特征；

步骤2.2：构建渐进式注意力编码器；Transformer编码层由自注意力层和跨注意力层组成，根据Transformer编码层间的信息传递方式的不同将传递方法划分为空间渐进式注意力编码器和时隙渐进式注意力编码器；

步骤2.3：构建视觉指示表征模块；首先使用步骤2.1.1获得的指示嵌入特征和步骤2.1.2获得的图像特征计算获得信念矩阵，然后通过信念矩阵对图像特征进行排序和过滤以实现冗余过滤，去除遥感图像中的冗余信息，将过滤后的图像特征通过空间渐进式注意力编码器进行激活，得到图像的无偏局部相关嵌入特征，最后将图像的无偏局部相关嵌入特征进行映射并与图像全局相关特征相加得到最终视觉嵌入特征；

步骤2.4：构建语言循环注意力模块；将步骤2.1.3中得到的文本特征放入时隙渐进式注意力编码器中进行激活，得到文本的无偏局部相关嵌入特征，最后将文本的无偏局部相关嵌入特征进行映射并和文本全局相关特征相加得到最终文本嵌入特征。

更进一步，所述步骤三包括以下子步骤：

步骤3.1：设计对比损失函数；计算相应的最终视觉嵌入特征和最终文本嵌入特征的余弦相似度，得到视觉到文本的对比损失和文本到视觉的对比损失，从而得到总体对比损失；

步骤3.2：设计归属损失函数；对于每张图像，根据场景类别信息计算对应同一类别的文本聚类中心，组成一组图像到文本的正样本对；同样地，对于每个文本，根据场景类别信息计算对应同一类别的图像的聚类中心，组成一组文本到图像的正样本对；然后计算这些正样本对特征的余弦相似度，从而得到视觉到文本和文本到视觉的归属损失表征，最终得到总体归属损失；

步骤3.3：组合总体对比损失函数和总体归属损失函数作为模型训练的总体损失函数。

本发明的有益效果为：利用先验指示过滤图像冗余，设计渐进式注意力编码器执行远程依赖关系建模，利用损失函数约束类间关系，从而提高了遥感图文检索精度。

附图说明

图1是本发明的图文检索方法流程图。

图2是本发明的图文检索网络框架示意图。

图3是本发明的Transformer编码层示意图。

图4是本发明的渐进式注意力编码器示意图，其中，(a)为Spatial-PAE，(b)为Temporal-PAE。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

参照图1～图4，一种基于先验指示表征框架的遥感图文检索方法，包括以下步骤：

步骤一、图文预处理，对遥感图像-文本数据集的图像和文本输入进行预处理操作；

所述步骤一包括以下子步骤：

步骤1.2：文本数据的预处理；每个遥感图像对应五句文本描述；首先会在第一句开头加上特殊Token[CLS]用于标记句子开始，用[SEP]标记句子结束；然后建立单词向量表将每个单词转换成一个一维向量；

步骤二、图文检索模型的搭建，包括构建图文预编码，构建视觉指示表征模块和语言循环注意力模块，实现对视觉和文本模态特征提取，获得最终的视觉和文本嵌入特征；

所述步骤二包括以下子步骤：

步骤2.1：构建图文预编码；所述的图文预编码包括一个视觉编码器、一个指示编码器和一个文本编码器；

所述步骤2.1的过程如下：

步骤2.1.1：首先将输入图像

其中

步骤2.1.2：使用在AID数据集上预训练的ResNet网络作为指示编码器

步骤2.1.3：使用一个预先训练过的Bert作为文本编码器来编码文本T，从而得到全局相关特征

其中

步骤2.2：如图3所示Transformer编码层，记为TEL；其包括自注意力层和跨注意力层，给定查询向量

MHA(Q,K,V)＝[head

其中

其中LN(·)代表层标准化，MLP(·)代表多层感知器，是一种前馈人工神经网络模型。

如图4所示，根据Transformer编码层之间的信息传递方式的不同，将传递方法分为空间渐进式注意力编码器和时隙注意力编码器，分别记为Spatial-PAE和Temporal-PAE。其中Spatial-PAE使用线性投影与外部源的输入序列进行空间连接，利用包含全局信息的外部知识协助远程依赖建模，Temporal-PAE使用线性投影与最后时刻的输入序列进行时间连接，利用之前和当前时间步长的序列输出计算注意力图。

步骤2.3：构建视觉指示表征模块(Spatial-PAE)；首先利用步骤2.1.2得到的指示嵌入特征v

然后将特征进行排序和过滤以实现冗余过滤，过滤遥感图像中的冗余信息，公式表示为：

其中

其中Head(·)表示将最后一层的头部嵌入特征映射到无偏嵌入特征。最后得到最终视觉嵌入特征v

步骤2.4：构建语言循环注意力模块(Temporal-PAE)；首先使用Temporal-PAE递归地激活文本特征，用公式表示：

其中

最后得到最终文本嵌入特征t

步骤三、表征对齐，包括相似度量和子空间表征；计算视觉和文本模态的余弦相似度矩阵，设计损失函数，包括对比损失函数和归属损失函数，通过最小化损失函数实现图像和文本的对齐；

所述步骤三包括以下子步骤：

步骤3.1：构建对比损失函数；给定一个小批样本，随机取样N个正对{(I

其中τ是温度参数，最终可以得到对比损失，用公式表示为：

步骤3.2：构建归属损失函数；给定一个小样本，对于每幅图像，根据场景类别信息计算对应同一类别的文本特征聚类中心，组成一组图像到文本的正样本对

于是得到总体归属损失，用公式表示为：

步骤3.3：组合对比损失函数和归属损失函数作为模型训练的总体损失函数,用公式表示为：

其中λ

本发明还提供实施所述的一种基于先验指示表征框架的遥感图像文本检索系统，包括以下模块：

图文编码前的预处理，对遥感图像-文本数据集的图像和文本进行预处理，获得标准的模型输入样本数据；

图文检索模型的搭建，包括构建图文编码，构建视觉指示表征模块和语言循环注意力模块，实现对视觉和文本模态特征提取，获得最终的视觉和文本嵌入特征；

表征对齐，包括相似度量和子空间表征，获得视觉和文本模态的余弦相似度矩阵，设计损失函数，包括对比损失函数和归属损失函数，通过最小化损失函数实现图像和文本的对齐。

上述各模块对应所述方法的步骤一～步骤三。

以上所述实施例仅表达了本申请的两种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载