一种基于空间注意力增强机制的自动图像描述方法

文献发布时间：2023-06-19 11:05:16

技术领域

本发明涉及图像描述的技术领域，具体的，涉及一种基于空间注意力增强机制的自动图像描述方法。

背景技术

图像描述生成是一个融合计算机视觉和自然语言处理的综合问题，图像描述任务对于人类来说非常容易，但是受限于不同模态数据的异构特性，要求机器理解图片的内容并用自然语言描述十分困难，不仅要求机器生成通顺且人类可理解的句子，还要求句子表现完整图像内容。

受注意力机制在机器翻译中应用的启发，一些研究人员在传统的“编码-解码”框架引入了注意力机制，显著地提高了自动图像描述任务的性能。注意力机制专注于图像中关键的视觉内容，在图像上下文向量输入到“编码-解码”框架的过程中提供更具辨别力的视觉信息来指导句子生成过程。尽管注意力机制能有效提升自动图像描述方法的性能，但是目前方法仍然存在注意力不够准确等问题，导致图像描述中出现图像中未出现的物体描述。

发明内容

针对现有技术的不足，本发明提供一种提高注意力准确性的基于空间注意力增强机制的自动图像描述方法。

为实现上述目的，本发明通过以下技术方案予以实现：一种基于空间注意力增强机制的自动图像描述方法，包括：获取待描述的图像后，提取图像中潜在的目标区域，将目标区域设定为待处理的图像区域，获取多个图像区域的空间特征和位置信息，并提取各图像区域的图像特征；从提取出的图像区域中，根据实体数据集的信息选择富含定位信息的图像区域作为候选框，获得基于簇的注意力特征标签；根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度；计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失，并计算总损失；计算真实值标签和初始预测值之间的损失，并判定初始预测值与真实结果的差异，图像描述模型根据差异进行自学习，将图像特征输入完成自学习后的图像描述模型后，获得最终预测值。

优选的，获取多个图像区域的空间特征和位置信息包括：利用视觉基因数据集所预先训练的目标检测算法提取图像中自下而上的特征和相应的目标边界框在图像中的位置信息。

优选的，根据实体数据集的信息选择富含定位信息的图像区域作为候选框包括：基于实体数据集的内容描述定位名词，将图像区域的空间特征和位置信息与实体数据集中的名词相匹配，使用簇类信息筛选方法选择出富含定位信息的候选框。

优选的，使用簇类信息筛选方法选择出富含定位信息的候选框包括：使用簇类信息筛选方法将图像区域的空间特征和位置信息与实体数据集中的名词相结合，根据交并比准则和交叠比准则，选出富含定位信息的候选框。

优选的，根据交并比准则和交叠比准则，选出富含定位信息的候选框包括：计算目标名词矩形框G与候选框B的交并比，交并比的计算公式为：

其中，G∩B表示候选框和目标名词矩形框的相交区域面积，当交并比大于第一阈值时，则保留该候选框，将候选框的交并比标记为正；

计算目标名词矩形框G与候选框B的交叠比，交叠比的计算公式为：

当交叠比大于预设的第二阈值时，则保留该候选框，将候选框的交叠比标记为正。

优选的，将目标名词矩形框G与候选框B的交并比小于第一阈值的候选框标记为负，并且，将目标名词矩形框G与候选框B的交叠比小于第二阈值的候选框标记为负。

优选的，根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度包括：将图像区域的空间特征和位置信息输入特征映射模块中，从N个对象的特征区域中提取语义特征，记为

优选的，计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失，并计算总损失包括：使用以下公式计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失：

L(θ)＝λ·L

其中，L为总的损失，L

与现有技术相比，本发明的有益效果是：

本发明提出一种基于空间注意力增强机制的自动图像描述方法，使用基于簇的注意力标签，为描述生成过程中的注意力权重提供更好的参考，从而生成更精确的描述，以提升自动图像描述方法的性能。本发明的方法通过在Flickr30k和COCO等主流数据集上进行广泛实验，并与最先进的方法对比，本发明取得了更优异的结果。本发明的方法对于自动图像描述方法应用于辅助视障人士的场景具有实际意义。

附图说明

图1是本发明基于空间注意力增强机制的自动图像描述方法实施例所使用的结构框图；

图2是本发明基于空间注意力增强机制的自动图像描述方法实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明是一种基于空间注意力增强机制的自动图像描述方法，本发明的方法可以应用计算机装置实现，例如，计算机装置包括处理器以及存储器，存储器上存储有计算机程序，计算机程序可以实现本发明的基于空间注意力增强机制的自动图像描述方法。

本发明的方法应用如图1所示的系统中，待描述的图像10经过目标检测算法模块11后被提取出图像特征13，图像特征13被输入至注意力模块14，并计算获得注意力权重。同时，图像特征13还与实体数据集中的名词相匹配23相结合，并利用簇类信息24来计算注意力权重15，注意力权重15通过解码器16的计算可以获得图像描述信息17，图像描述信息17还利用描述标签25获得。从待描述的图像10中可以获得定位标签21，并且经过名词筛选22可以获得描述定位名词23。

参见图2，本实施例首先执行步骤S1，获取待描述的图像，例如将一张需要描述的图像输入至图像描述模型，然后，执行步骤S2，提取图像中潜在的目标区域，这些目标区域就是待处理的图像区域。然后，获取图像区域的空间特征和位置信息，并提取图像特征。具体的，提取待描述图像中潜在的目标区域的空间特征，并将这些特征作为后续内容的输入。例如，利用视觉基因数据集(Visual Genome)所预先训练的目标检测算法提取待描述的图像I中自下而上的特征和相应的目标边界框，图像特征的提取可以应用区域候选网络和感兴趣区域池化等已知的技术实现，这些目标边界框确定了目标区域在图像中的位置。

接着，执行步骤S3，提取基于簇的注意力特征标签。本实施例中，使用簇类信息筛选方法选择出富含定位信息的候选框，具体的，使用簇类信息筛选方法将图像区域的空间特征和位置信息与实体数据集中的名词相结合，根据交并比准则和交叠比准则，选出富含定位信息的候选框。

例如，根据实体数据集中的句子划分，找出句子中有定位信息的名词，其定位区域就是目标名词矩形框G，候选框是每一个自下而上特征在图像中所对应的边界框。其中，候选框是待描述图像中的一个框，是之前获得的图像特征在图像中所对应的位置。本实施例中，实体数据集是一个预先设定的数据集，实体数据集里有对coco或flickr描述的句子进行名词短语的位置标注。

然后，对候选框进行筛选。例如，根据交并比准则和交叠比准则，选出富含定位信息的候选框。

应用交并比准则时，计算目标名词矩形框G与候选框B的交并比(IoU)，交并比的计算公式如下：

其中，G∩B表示候选框和目标名词矩形框的相交区域面积，当交并比大于第一阈值时，优选的，该第一阈值为0.5，则保留该候选框，将候选框的交并比标记为正。因此，本实施例保留与目标名词矩形框G具有高交并比的候选框B。

应用交交叠比则时，计算目标名词矩形框G与候选框B的交叠比(IoP)，交叠比的计算公式如下：

当交叠比大于预设的第二阈值时，优选的，该第二阈值为0.9，则保留该候选框，将候选框的交叠比标记为正。因此，本实施例保留与目标名词矩形框G具有高交叠比的候选框B。

进一步的，将目标名词矩形框G与候选框B的交并比小于第一阈值的候选框标记为负，并且，将目标名词矩形框G与候选框B的交叠比小于第二阈值的候选框标记为负。这样，可以根据上述的正负标记定义，将图像特征划分为正负两个簇类，簇类的划分就是本实施例的注意力特征标签。

接着，执行步骤S4，计算每一时刻下图像候选区域的注意力强度。例如，根据已提取的图像特征计算每一时刻下图像候选区域的注意力强度，即将图像区域的空间特征和位置信息输入特征映射模块中，从N个对象的特征区域中提取语义特征，将这些语义特征记为

具体的，将提取的语义特征K输入注意力模块，注意力模块会结合目前所生成单词所包含的语义信息S，生成在某一个时刻t下的注意力权重α

其中，S是前一时刻的文字序列，W

然后，执行步骤S5，计算关于描述内容的交叉熵损失和基于簇的注意力特征标签的显著性损失，并计算总损失。具体的，采用以下公式进行计算：

L(θ)＝λ·L

其中，L为总的损失，L

然后，执行步骤S6，计算真实值标签和图像描述模型计算的初始预测值之间的损失，并判定初始预测值与真实结果的差异，图像描述模型根据该差异进行自学习。

最后，执行步骤S7，将图像特征输入完成自学习后的图像描述模型后，图像描述模型根据输入的图像特征获得最终预测值，最终预测值就是本实施例所需要获取的图像描述的最终语句。

为了验证本实施例的可行性，对本实施例进行验证，具体的，采用了COCO数据集和Flickr30k数据集来进行测试和对比。其中，COCO数据集包含十二万张张图像，Flickr30k数据集包含三万张图像，对于这两个数据集，每个图像都有至少五个人工标注的图像描述语句，这些人工标注的图像描述语句称为真实值标签。在实验中，使用Karpathy分割法将COCO数据集原本的训练验证集和Flickr30k数据集划分为训练集、验证集和测试集，最终取测试集上的结果进行验证。本发明使用五个评估标准：双语评估辅助工具(BLEU)，基于召回率的替补摘要评估辅助工具(ROUGE)，显式排序的翻译评估指标(METEOR)，基于常识的图像描述评估(CIDEr)，语义命题图像标题评估(SPICE)来定量地评价各种图像描述方法的性能。其中，CIDEr更能代表语义的准确度，一个好的自动图像描述方法拥有更高的CIDEr值。而本申请

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：方玉明;朱旻炜;姜文晖;
专利申请人：方玉明;

上一篇：一种塑料袋快递包裹的拆除装置
下一篇：一种融合双重分词和迭代反馈的自动应答方法