掌桥专利:专业的专利平台
掌桥专利
首页

一种基于跨模态提示的遥感伪装图像修补方法

文献发布时间:2024-04-18 20:01:55


一种基于跨模态提示的遥感伪装图像修补方法

技术领域

本发明属于遥感图像生成领域,更具体地涉及一种基于跨模态提示的遥感伪装图像修补方法。

背景技术

近些年,随着人工智能技术的发展,自然场景下的目标检测、语义分割等视觉任务在性能和效果上有了长足的进步,然而,针对伪装图像的视觉模型投入的研究和相关报道较少。伪装图像的在隐私保护、对抗识别等应用方面有巨大潜力,目前相关研究主要集中在伪装目标检测方面。基于智能算法进行伪装图像分析与自然场景图像分析一样需要大量的人工标注,不同之处在于伪装图像的数据采集更加困难,由于物理世界中具有伪装效果的实体很少,使得伪装图像数量十分稀少,此外对伪装图像进行人工标注十分困难,需要花费更多的人力和时间成本。

基于扩散模型的图像生成技术为伪装图像的分析带来了新的启发,图像生成技术能够根据提示词或者提示图生成含有指定实体并且具有指定风格的图像,这将有助于扩充伪装图像的数量,但是,此类方法无法针对性的生成多种伪装效果的图像,采用基于跨模态提示的遥感伪装图像修补方法,能够对图像中的局部区域进行修补,从而改变该区域的伪装效果,达到提升伪装图像生成多样性的目的。

发明内容

本发明的目的是为了针对性的生成既能满足用户意图也能具有一定多样性的伪装效果的图像,提出了一种基于跨模态提示的遥感伪装图像修补方法。

本发明采用的技术方案为:

一种基于跨模态提示的遥感伪装图像修补方法,包括以下步骤:

步骤1,对相同的场景或目标施加两次伪装效果不同的伪装手段,利用光学遥感卫星和无人机平台分别对两次不同伪装效果的场景或目标进行数据采集,并对采集的两景图像进行对比,用图像掩码的形式涂抹两景图像不同之处,再用文本对采集数据及伪装效果不同之处进行自然语言描述,形成“遥感伪装图像1-遥感伪装图像2-图像掩码-提示文本”数据对,构建多组数数据对,形成遥感伪装图像数据集;

步骤2,利用卷积神经网络构建图像编码器和图像解码器,组成遥感伪装图像编解码网络,将遥感伪装图像作为遥感伪装图像编解码网络的输入,通过最优化算法对输出图像和输入图像之间的损失函数进行最小化优化,更新遥感伪装图像编解码网络的参数;同时,采用ConvBERT自然语言处理模型构建文本编码器;并采用卷积模块、注意力模块、下采样模块和上采样模块构建WNet网络;

步骤3,将遥感伪装图像数据集中遥感伪装图像1经过图像编码器进行编码,形成隐空间图像特征1,将遥感伪装图像2与对应的图像掩码进行叠加,形成遮盖遥感图像,并将遮盖遥感图像经过图像编码器编码,形成隐空间图像特征2;同时利用缩放器对图像掩码进行缩放,使图像掩码尺寸与对应的隐空间图像特征2保持一致,并用文本编码器对提示文本进行特征提取,得到文本特征,将隐空间图像特征2、缩放后的图像掩码和随机噪声相加得到加噪加掩码隐空间图像特征,将文本特征和加噪加掩码隐空间图像特征作为WNet网络的输入,在WNet网络中通过DDIM_inverse扩散方法对输入进行多轮迭代去噪,输出生成隐空间特征,然后采用K-L散度损失函数计算生成隐空间特征与隐空间图像特征1之间的损失,通过最优化算法对损失进行最小化优化,更新WNet网络的参数;

步骤4,根据应用需求对原始遥感伪装图像中需要修补的部分绘制图像掩码,将原始遥感伪装图像与图像掩码叠加形成遮盖遥感图像,利用图像编码器对遮盖遥感图像进行特征提取,得到隐空间图像特征,同时利用缩放器对图像掩码进行缩放,使尺寸与隐空间图像特征保持一致,将隐空间图像特征叠加随机噪声和缩放后的图像掩码后形成加噪加掩码隐空间图像特征,并编写一句自然语言描述,作为提示文本输入到文本编码器,文本编码器提取文本特征;将文本特征和加噪加掩码隐空间图像特征输入到训练好的WNet网络中,输出生成隐空间特征,然后利用训练好的遥感伪装图像编解码网络的图像解码器对生成隐空间特征进行解码,得到生成遥感图像。

进一步的,WNet网络的结构为:

WNet网络的输入为加噪隐空间图像特征和文本特征,输出为生成隐空间特征,WNet包括四个采样行程,WNet的输入经过第一个采样行程后形成压缩张量,压缩张量输入到第二个采样行程,处理后成为解压张量,第三个采样行程对解压张量进行处理得到重压缩张量,最后经过第四个采样行程,重压缩张量被处理得到WNet最终的输出;其中,第一个采样行程串联1个卷积模块、1个注意力模块和5个复合下采样组件,每个复合下采样组件包括1个卷积模块、1个注意力模块和1个下采样模块,第二个采样行程串联1个上采样模块、1个卷积模块和1个注意力模块,第三个采样行程串联1个卷积模块、1个注意力模块和1个下采样模块,第四个采样行程串联5个复合上采样组件、1个卷积模块和1个注意力模块,每个复合上采样组件包括1个上采样模块、1个卷积模块和1个注意力模块;注意力模块采用交叉注意力机制,绑定图像像素特征和文本特征,达到仅依据文本提示编辑图像局部内容的目的,卷积模块是由3×3八度卷积组成的5层残差网络,下采样模块为步长为2的5×5八度卷积,上采样模块采用双线性插值实现。

进一步的,步骤1中的所述提示文本包括拍摄时间、拍摄地点、拍摄平台、拍摄高度、图像分辨率、能见度、场景类型、伪装手段和伪装效果。

进一步的,步骤3中遥感伪装图像1编码和遥感伪装图像2编码过程中分时共用图像编码器。

进一步的,步骤4中自然语言描述包含伪装手段及伪装效果内容。

本发明相对于现有技术的优点为:

(1)本发明能够生成空基遥感伪装图像,伪装图像中的伪装手段具有多样性;

(2)本发明能够根据图像掩码和提示词,对遥感伪装图像中的任意区域进行修补;

(3)本发明能够为伪装检测评估的任务提供大量训练数据和测试数据。

附图说明

图1为本发明提出的方法的总体架构图。

图2为本发明提出的WNet的结构图。

具体实施方式

下面结合附图对本发明的具体实施方式和基本原理做进一步说明。

本发明提出了一种基于跨模态提示的遥感伪装图像修补方法,总体架构如图1所示,包括伪装遥感图像修补训练架构和遥感伪装图像修补生成架构两部分。

具体过程如下:

步骤1,遥感伪装图像修补数据集构建,对相同的场景或目标施加两次伪装效果不同的伪装手段,利用光学遥感卫星和无人机平台对两次不同伪装效果的场景或目标进行数据采集,并对采集的两景图像进行对比,用图像掩码的形式涂抹两景图像不同之处,再用文本对采集数据及伪装效果不同之处进行自然语言描述,形成“遥感伪装图像1-遥感伪装图像2-图像掩码-提示文本”数据对,提示文本包括拍摄时间、拍摄地点、拍摄平台、拍摄高度、图像分辨率、能见度、场景类型、伪装手段、伪装效果等关键要素,重复以上操作,构建1000组数据对,形成遥感伪装图像数据集;

步骤2,遥感伪装图像编解码网络构建及训练,利用卷积神经网络构建图像编码器模块和图像解码器模块,组成遥感伪装图像编解码网络,将遥感伪装图像作为遥感伪装图像编解码网络的输入,输出为编解码后的图像,通过最优化算法对输出图像和输入图像之间的损失函数进行最小化优化,更新遥感伪装图像编解码网络的参数;

步骤3,文本编码器和WNet网络构建,文本编码器采用ConvBERT自然语言处理模型;WNet网络如图2,采用卷积模块、注意力模块、下采样模块和上采样模块构建WNet网络,WNet网络输入为加噪加掩码隐空间图像特征和文本特征,WNet包括4个采样行程,第一个采样行程串联1个卷积模块、1个注意力模块和5个复合下采样组件,每个复合下采样组件包括1个卷积模块、1个注意力模块和1个下采样模块,第二个采样行程串联1个上采样模块、1个卷积模块和1个注意力模块,第三个采样行程串联1个卷积模块、1个注意力模块和1个下采样模块,第四个采样行程串联5个复合上采样组件、1个卷积模块和1个注意力模块,每个复合上采样组件包括1个上采样模块、1个卷积模块和1个注意力模块;上采样过程包括卷积计算、自注意力计算、双线性插值三个步骤,下采样过程包括平均池化、自注意力计算、卷积计算三个步骤,卷积计算采用八度卷积,兼顾高低频率特征同步提取,注意力模块采用交叉注意力机制,绑定图像像素特征和文本特征,达到仅依据文本提示编辑图像局部内容的目的,卷积模块是由3×3八度卷积组成的5层残差网络,下采样模块为步长为2的5×5八度卷积,上采样模块采用双线性插值实现。

步骤4,遥感伪装图像修补网络构建及训练,将遥感伪装图像数据集中遥感伪装图像1经过图像编码器进行编码,形成隐空间图像特征1,将遥感伪装图像2与对应的图像掩码进行叠加,形成遮盖遥感图像,并将遮盖遥感图像经过图像编码器编码,形成隐空间图像特征2;同时利用缩放器对图像掩码进行缩放,使图像掩码尺寸与对应的隐空间图像特征2保持一致,并用文本编码器对提示文本进行特征提取,得到文本特征,将隐空间图像特征2、缩放后的图像掩码和随机噪声相加得到加噪加掩码隐空间图像特征,将文本特征和加噪加掩码隐空间图像特征作为WNet网络的输入,在WNet网络中通过DDIM_inverse扩散方法对输入进行多轮迭代去噪,输出生成隐空间特征,然后采用K-L散度损失函数计算生成隐空间特征与隐空间图像特征1之间的损失,通过最优化算法对损失进行最小化优化,更新WNet网络的参数;其中,遥感伪装图像1编码和遥感伪装图像2编码过程中分时共用图像编码器;

步骤5,遥感伪装图像修补,根据应用需求对原始遥感伪装图像中需要修补的部分绘制图像掩码,将原始遥感伪装图像与图像掩码叠加形成遮盖遥感图像,利用图像编码器对遮盖遥感图像进行特征提取,得到隐空间图像特征,同时利用缩放器对图像掩码进行缩放,使尺寸与隐空间图像特征保持一致,将隐空间图像特征叠加随机噪声和缩放后的图像掩码后形成加噪加掩码隐空间图像特征,并编写一句自然语言描述,作为提示文本输入到文本编码器,文本编码器提取文本特征;将文本特征和加噪加掩码隐空间图像特征输入到训练好的WNet网络中,输出生成隐空间特征,然后利用训练好的遥感伪装图像编解码网络的图像解码器对生成隐空间特征进行解码,得到生成遥感图像;其中,自然语言描述包含伪装手段及伪装效果内容。

技术分类

06120116566743