掌桥专利:专业的专利平台
掌桥专利
首页

具备多语义层级注意能力的遥感影像文本描述生成方法

文献发布时间:2023-06-19 11:22:42


具备多语义层级注意能力的遥感影像文本描述生成方法

技术领域

本发明属于机器学习技术领域,具体涉及一种遥感影像文本描述生成方法。

背景技术

遥感影像文本描述生成是一种新兴的遥感影像视觉理解任务。该任务要求描述生成器具备对遥感影像的语义特征的深入理解能力,并在此基础上输出符合人类语言规律的描述性语句。遥感影像文本描述生成相较于一般图像的描述生成,有以下难点:

第一,遥感影像覆盖空间尺度大,地面元素组成复杂,全面理解困难;

第二,图像间的语义分布及密度差异明显,如沙漠和城市;

第三,地面物体与全局的关系、地面物体之间的复杂组织关系难以建模。

为自动化地实现这一任务,早期的遥感描述文本生成器大多采用基于模板的方法或基于检索的方法,如“S.Li,G.Kulkarni,T.L.Berg,A.C.Berg,and Y.Choi,“Composingsimple image descriptions using web-scale n-grams,”inProc.Conf.Comput.Natural Lang.Learn.,2011,pp.220–228”及“V.Ordonez,G.Kulkarni,and T.L.Berg,“Im2text:Describing images using 1million captionedphotographs,”in Proc.Adv.Neural Inf.Process.Syst.,2011,pp.1143–1151”。但是这些方法的性能普遍不甚理想,现在基本上已经被基于编码器—解码器的方法所替代,如“X.Lu,B.Wang,X.Zheng,and X.Li,“Exploring models and data for remote sensingimage caption generation,”IEEE Trans.Geosci.Remote Sens.,vol.56,no.4,pp.2183–2195,2017”中所描述的方法。

基于解码器编码器的方法主要由两个阶段构成:(1)输入图像进入特征提取器(编码器)得到特征;(2)特征输入解码器并按顺序逐词输出每个估计的词汇。在估计的词汇输出的过程中,输出当前词汇会考虑和上一词汇的联系。由于画面的图像元素众多,全图的特征包含的语义信息较多,难以实现具体目标的表达,引入空间注意力机制可以较好的对具体目标进行聚焦。目前的空间注意力机制为了考虑算法运算量,实现大多将图像划分为一个低分辨率网格(一般为14×14或7×7),在这个网格中实现特征提取权重的重新分配。通过引入空间注意力机制,上述问题得到了一定程度上的缓解。但是由于较低的网格分辨率和固定的网格尺寸,导致对于元素尺寸多样的遥感影像并不能取得足够合理与精细的区域关注,也就难以实现理想的描述语句生成。

发明内容

为了克服现有技术的不足,本发明提供了一种具备多语义层级注意能力的遥感影像文本描述生成方法,该方法利用物体检测深度神经网络的强大物体定位能力,对遥感影像中潜在的物体区域进行框选,并根据这些区域的特征组合出多层视觉元素网格系统;在进行描述语句生成时,根据上下文信息自动关注多层视觉注意力网格系统中的对应区块,实现更为精准的视觉注意力聚焦,进一步带来更为恰当的词汇估计,更为准确、全面的对遥感图像进行描述。本发明相较于传统的单一尺度、稀疏网格的空间注意区块划分有了更精准的聚焦能力和联合多层语义表达能力。

本发明解决其技术问题所采用的技术方案包括以下步骤:

步骤1:采用包含特征提取器、候选区域提出模块和候选区域池化模块的双阶段物体检测网络,在遥感描述任务数据集上完成对双阶段物体检测网络的训练;

将遥感描述任务数据集中遥感图像的所有描述文本标注内容提取建立编码词库;

步骤2:将待处理遥感图像输入完成训练的双阶段物体检测网络中,使用特征提取器输出全图对应的初级特征图,再将初级特征图直接输入双阶段物体检测网络的全连接层中获得1个全图特征向量;

步骤3:使用候选区域提出模块在初级特征图上进行候选区域提出,选择前k个分数最高的候选区域作为关键地物候选框;并在每个关键地物候选框的基础上取同中心放大两倍边长的区域作为关键地物邻域框;

步骤4:使用候选区域池化模块对所有的关键地物选框和关键地物邻域选框进行候选区域池化,池化后得到的特征输入双阶段物体检测网络的全连接层输出2k个特征向量;2k个特征向量和1个全图特征向量共同组成向量组,即多层视觉元素网格系统;

步骤5:将向量组输入跨层注意力分析模块,跨层注意力分析模块对向量组打分,调节向量组中不同特征向量在估计词汇时的权重;

步骤6:将调节权重后的向量组输入作为解码器的长短期记忆网络,长短期记忆网络在编码词库中选择用于描述待处理遥感图像的词汇进行输出;

步骤7:循环步骤5和步骤6,直至长短期记忆网络输出语句结束符号;按顺序组合长短期记忆网络输出的词语,即为待处理遥感图像的文本描述内容。

优选地,所述双阶段物体检测网络为Faster-RCNN。

本发明的有益效果如下:

1、本发明引入了具体的物体轮廓信息,对于物体和邻域关系有了更为准确的定位,在地物尺度较小时仍然能够保证网络对其产生关注。

2、本发明采用物体级、邻域级、全局级的三级语义特征共同组成了注意力用于关注的特征系统,相较于传统的单一尺度、稀疏网格的空间注意区块划分有了更精准的聚焦能力和联合多层语义表达能力。

3、本发明跨层的注意力机制使得网络对于聚焦的模式更为灵活,促使解码器动态地关注不同的语义级别和不同的地物实例,从而促使解码器选择出更为恰当的词汇进行描述。

附图说明

图1为本发明方法流程图。

图2为本发明实施例生成文本结果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出了一种具备多语义层级注意能力的遥感影像文本描述生成方法。该方法的主要思想是:利用物体检测深度神经网络的强大物体定位能力,对遥感影像中潜在的物体区域进行框选,并根据这些区域的特征组合出多层视觉元素网格系统;在进行描述语句生成时,根据上下文信息自动关注多层视觉注意力网格系统中的对应区块,实现更为精准的视觉注意力聚焦,进一步带来更为恰当的词汇估计,也就是更为准确、全面的遥感图像描述。

如图1所示,一种具备多语义层级注意能力的遥感影像文本描述生成方法,包括以下步骤:

步骤1:采用包含特征提取器、候选区域提出模块(Region Proposal)和候选区域池化模块(ROI Pooling)的双阶段物体检测网络,任何双阶段物体检测网络均可,在遥感描述任务数据集上完成对双阶段物体检测网络的训练;

将遥感描述任务数据集中遥感图像的所有描述文本标注内容提取建立编码词库;

步骤2:将待处理遥感图像输入完成训练的双阶段物体检测网络中,使用特征提取器输出全图对应的初级特征图,再将初级特征图直接输入双阶段物体检测网络的全连接层中获得1个全图特征向量;

步骤3:使用候选区域提出模块在初级特征图上进行候选区域提出,选择前k个分数最高的候选区域作为关键地物候选框;并在每个关键地物候选框的基础上取同中心放大两倍边长的区域作为关键地物邻域框;

步骤4:使用候选区域池化模块对所有的关键地物选框和关键地物邻域选框进行候选区域池化,池化后得到的特征输入双阶段物体检测网络的全连接层输出2k个特征向量;2k个特征向量和1个全图特征向量共同组成向量组,即多层视觉元素网格系统;

步骤5:将向量组输入跨层注意力分析模块,根据向量组内特征向量的内容所包含的语义特征与上一轮循环步骤6输出的词汇(如果为首词则此项置为零)所对应的在编码词库中的编码,跨层注意力分析模块对向量组打分,调节向量组中不同特征向量在估计词汇时的权重;

步骤6:将调节权重后的向量组输入作为解码器的长短期记忆网络,长短期记忆网络根据向量组和估计上一词汇时的隐态输出在编码词库中选择用于描述待处理遥感图像的词汇进行输出;

步骤7:循环步骤5和步骤6,直至长短期记忆网络输出语句结束符号;按顺序组合长短期记忆网络输出的词语,即为待处理遥感图像的文本描述内容。

具体实施例:

1.实验条件

本实施例是在显存8G的Nvidia GTX1070、Windows操作系统中运行,使用Python进行仿真实验。

仿真使用的数据是公开的遥感描述任务数据集,本实验中采用UCM-Captions数据集。该数据集包含约两万张遥感图像,每张图像拥有5个标注语句。

2.仿真内容

首先,引入用于衡量句子接近程度的BLEU、CIDEr和ROUGE-L三种度量来衡量本发明所生成语句的质量。为了证明本发明的有效性,实验结果与基于空间传统Attention的方法与入属性信息的Attention的方法进行了对比。其中基于传统空间Attention的方法在文献“X.Lu,B.Wang,X.Zheng,and X.Li,“Exploring models and data for remote sensingimage caption generation,”IEEE Trans.Geosci.Remote Sens.,vol.56,no.4,pp.2183–2195,2017”中有详细的介绍,在此基础上加入属性信息的方法由文献“X.Zhang,X.Wang,X.Tang,H.Zhou,and C.Li,“Description generation for remote sensing imagesusing attribute attention mechanism,”Remote Sensing,vol.11,no.6,pp.612,2019”提出。

对比结果如表1所示:

表1 三种算法对比结果

从表1可见,相比于对比方法,本方法的各项指标均显著高于其他方法。由于加入了多层视觉元素网格系统和相适应的注意力机制,本发明对于遥感图像中存在的高语义密度变化问题提供了一套可行的解决方案,提高了描述文本生成算法的实用性和鲁棒性。

附图2是部分遥感影像所生成的描述文本的结果图。通过结果可以发现,语句基本上较为完整、准确地对图像内容进行了表述,并且符合人类语言习惯和认知规律。

相关技术
  • 具备多语义层级注意能力的遥感影像文本描述生成方法
  • 一种基于文本层级结构的图像描述生成方法
技术分类

06120112901010