掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度注意力融合的图像描述生成方法

文献发布时间:2023-06-19 18:35:48


一种基于深度注意力融合的图像描述生成方法

技术领域

本发明属于计算机视觉与NLP的交叉技术领域,具体涉及一种基于深度注意力融合的图像描述生成方法,能够为图像生成高准确度的描述。

背景技术

图像描述是一项新兴的研究任务。在过去的二十年中,自然语言处理(NLP)和计算机视觉(CV)领域在分析和生成文本以及图像理解方面取得了巨大的进步。虽然这两个领域都有一套基于机器学习和人工智能的方法,但是它们在过去的研究中是分开的,并且在科学界的交互并不多。然而近年来,随着人工智能领域的进步和深度学习模型的发展,学者们对语言和视觉信息的结合问题产生了越来越多的兴趣。与此同时,网络上出现了大量文字和视觉信息结合的数据,比如:带有标签的照片,报纸插图,以及社交媒体上的多模态信息。这些数据的出现,更加使得基于深度学习的图像描述模型受到越来越多的关注。

当前,基于神经网络的编码器-解码器框架成为图像描述的主流选择。例如由卷积编码器和长短期记忆网络解码器组成的端到端框架。许多用于图像描述的早期神经模型例如m-RNN、多模态神经语言模型、CNN+LSTM、Show and Tell模型等使用表示整个图像的单个特征向量对视觉信息进行编码,因此没有利用有关实体及其空间关系的信息。具有领先效果的方法大都是基于注意力机制的图像描述方法,试图基于图像中的不同区域预测描述中的单词。由于视觉注意力信息通常来自卷积神经网络的较高卷积层,因此空间定位受到限制,并且通常在语义上没有关联。这类问题较好的解决方案是通过将“自下而上”的注意力模型与“自上而下”的语言生成模型相结合,并利用图像中提取到的物体,生成效果较好的图像描述。该方法效果良好,说明结合目标检测和注意力机制有助于提高图像描述结果。

为了进一步增强编码-解码过程中视觉信息与生成词之间的相关性,研究者探索了视觉注意机制。如今,大多数图像描述方法都是基于注意力增强型编码器-解码器架构设计。深度自注意力变换(Transformer)体系结构的提出为多种任务(例如翻译,文本生成和语言理解)的性能带来了显著的改进。例如,通过采用自下而上的方法来改进Transformer编码器,使用位置编码对输入数据进行重新融合,将其应用于描述文本中的已解码标记,通过这种方式加入一定的空间信息。还比如,通过上下文感知辅助指导(CAAG)机制,以指导描述模型感知全局上下文,引入语义注意力,选择性地在全局文字生成中提取有用信息,以完成当前时刻的文字预测。文本生成技术的改良大都是为语言结构方面的改善,并引入一定的空间和图像信息,但是在编解码器阶段图像与文字特征的对应关系并未能很好地建模,使得生成描述中图像关系、图像中存在的实体出现缺少的情况。

发明内容

为克服当前图像描述中存在的图像与文字特征的对应关系不充分问题,本发明提供一种基于深度注意力融合的图像描述生成方法。

本发明首先采用常见的目标检测模型Faster R-CNN提取图像中包含的实体,之后依靠基于深度自注意力变换的编码器与长短期记忆网络的解码器生成图像描述。具体的,利用深度自注意力变换网络对图像中提取到的所有实体进行层级的深度编码,在解码过程中,利用相同层级的长短期记忆网络,在每层的输出与编码器的相同层进行注意力融合,实现图像特征与文本特征的多层特征融合。整个发明为两阶段的图像描述方法,较好地解决了生成描述中图像中实体的丢失问题。

本发明解决其技术问题所采用的技术方案是:

一种基于深度注意力融合的图像描述生成方法,其步骤包括:

1)图像预处理阶段,使用常见的目标检测模型Faster R-CNN提取图像中包含的实体,并使用特征提取残差网络VGG19提取实体的图像特征。

2)基于注意力机制的图像特征编码网络,所述图像特征编码网络包含用于图像特征提取的基于自注意力变换(Transformer)的注意力网络,用于在多个层级多个深度提取实实体间关系的特征(即多层深度特征);

3)基于长短期记忆模型的图像描述解码网络,所述图像描述解码网络基于长短期记忆模型以及注意力机制,其层级数量与图像特征编码网络相同,在每一层接收图像特征编码网络相同层的输出特征,目的是使用相同层级的图像特征生成文本特征,用于实现图像特征与文本特征的多层融合;

4)自我批判的强化学习策略,所述强化学习策略采用常用的SCST算法,使用自我批判的强化学习方法来优化整个图像描述生成网络。

5)利用各个图像训练整个图像描述生成网络,通过交叉熵函数计算输出描述信息中每个单词与实际值之间的误差,从而优化该网络,并使用强化学习的训练策略进行联合训练,最终得到整个基于深度注意力融合的图像描述生成网络;

6)将待生成描述的图像输入训练后的图像描述生成网络,为该图像生成恰当的文字描述。

进一步的,所述阶段1)图像预处理阶段,使用目标检测模型Faster R-CNN以及VGG19提取图像中实体的特征,该阶段的目标检测模型以及VGG19不参与整个方法的训练阶段,该检测模型首先用ILSVRC 20XX数据集进行预训练,预训练是进行有监督的分类的训练。然后在PASCAL VOC样本上进行特定调优,是一项有研究基础、达成共识的图像预处理方法。该阶段的输出为图像中各实体拼接像素点的横纵坐标,经过VGG19得到特征输出,以及整个图像经过VGG19后提取到的特征。

进一步的,所述阶段2)基于注意力机制的图像特征编码网络将VGG19提取过的图像特征整合成向量作为输入,经过三层自注意力变换层,在每一自注意力变换层通过将上一层输入的各个向量经过自注意力融合,得到与输入特征向量数量相同的层级输出特征。

进一步的,所述阶段3)基于长短期记忆模型的图像描述解码网络的总输入为上一个时期的预测文本,在每层的输出与编码网络相同层级的输出进行加权融合,权重为两个输出的加权和,LSTM每个时期的输出与同层图像特征经过注意力机制融合,最终层通过交叉熵函数计算输出描述信息中每个单词与实际值之间的误差,获得最终的单词输出。

进一步的,所述阶段4)该训练过程经过强化学习自我批判算法(SCST)下进行优化,所述SCST算法采用贪婪搜索的解码结果作为基准,所述SCST算法的训练策略抛弃自行设计一个基线的想法,通过平衡训练和测试这种自批判的算法,调整系统的性能参数。

进一步的,所述基于注意力机制的图像特征编码网络中的自注意力变换层有三层,每个层由两个子层组成,分别是多头自注意力机制和全卷积前向网络。其中每个子层都加残差连接和正则化,因此可以将子层的输出表示为公式:

sub_layer_output=LayerNorm(x+(SubLayer(x))

所述多头自注意力机制(multi-head attention)通过h个不同的线性变换对注意力机制中的查询向量Q,键向量K,值向量V进行投影,最后将不同的注意力结果拼接起来:

MultiHead(Q,K,V)=Concat(head

所述查询向量Q,键向量K,值向量V的注意力机制由以下公式计算:

所述全卷积前向网络将多头自注意力机制子层的输出通过全卷积前向网络编码特征,经过上述残差连接和正则化,作为整个单层自注意力变换层的输出。

其中d

进一步的,基于长短期记忆模型的图像描述解码网络LSTM的输出同样使用上述注意力机制对其进行特征融合,该LSTM的输出作为查询向量Q与值向量V,每层编码器的输出作为键向量K,经过此注意力融合得到该层的输出。即将第i层LSTM的输出作为查询向量Q与值向量V,第i层自注意力变换层的输出作为键向量K,采用注意力对查询向量Q、值向量V和键向量K进行融合作为第i层LSTM的输出(即第i层LSTM的预测文本)。

本发明一种基于深度注意力融合的图像描述生成方法主要包括以下步骤:

1)将图像描述的数据集MSCOCO,重塑为225*225大小,通过目标检测网络和VGG19提取各个图像的特征作为图像预处理结果;

2)基于注意力机制的图像特征编码网络,将预处理图像得到的特征经过该编码网络得到图像的多层深度特征;

3)基于长短期记忆模型的图像描述解码网络,将上一时期的预测文字与编码器同层特征作为输入,得到该时期的预测文本;

4)对输出结果在强化学习自我批判算法(SCST)下进行优化,生成强化学习的奖励值;

5)根据奖励值使用强化学习的训练策略进行联合优化和训练;

6)将待描述图像输入训练后的生成网络,生成符合该图像的描述。

进一步的,步骤1)所述图像预处理阶段,首先通过Faster R-CNN提取图像中的实体,首先使用一组基础的卷积+线性整流函数+池化(conv+relu+pooling)层提取图像的特征图。该特征图经过区域提议网络(RPN)用于生成提议区域,之后经过Roi Pooling层,该层收集输入的图像特征(即conv+relu+pooling之后得到的特征图)和提议区域送入后续全连接层判定目标类别,之后进行精确分类,再次经过边框回归获得检测框最终的精确位置。之后将得到的输出目标实体区域拼接其坐标信息,经过卷积网络VGG19得到每个目标实体区域的图像特征。同样使用VGG19得到整个图像的全局图像特征。所述VGG19将图像以及图像中的实体输入为I,将图像归一化到224*224,使用预训练的VGG19中第五层卷积所输出的特征,得到512维的图像特征{a

进一步的,步骤2)基于注意力机制的图像特征编码网络,将预处理图像得到的特征经过该编码网络得到图像的多层深度特征。所述图像特征编码网络主要包含用于图像特征融合的三层自注意力变换层。所述图像特征编码网络的过程输入为512维图像特征向量{a

sub_layer_output=LayerNorm(x+(SubLayer(x))

所述多头自注意力机制(multi-head attention)通过h个不同的线性变换对注意力机制中的查询向量Q,键向量K,值向量V进行投影,最后将h个不同的注意力结果拼接起来:

MultiHead(Q,K,V)=Concat(head

所述查询向量Q,键向量K,值向量V的注意力机制由以下公式计算:

其中d

进一步的步骤3)使用长短期记忆模型(LSTM)的图像描述解码网络构造解码器,使用三层长短期记忆网络,构建LSTM单元,其中输入门、遗忘门、输出门、记忆单元和输出依次为i

f

i

o

h

在上述公式中,t表示第t个时间步骤,其大小跟句子长度有关。在每一层的{h

x

α=W

其中,W为可学习参数,x

进一步的,最终层经过一层全连接,通过交叉熵函数计算输出描述信息中每个单词与实际值之间的误差,从而优化该网络,最终得到整个基于深度注意力融合的图像描述生成模型,总体通过强化学习的训练策略自我批判算法(SCST)下进行优化,并使用强化学习的训练策略进行联合训练。

本发明的有益效果是,本发明设计了一种基于深度注意力融合的图像描述生成方法,为图像生成的描述具有高保真度和高CIDEr的结果。与现有技术相比,本发明的优点在于:

1、采用多级别的自注意力变换层的编码器,与多级别的长短期记忆网络解码器相融合,鼓励高层层级的编解码器可以学到偏向文字特征的知识,底层层级的编解码器可以从图像特征提取知识,将图像特征与文字特征在不同层级上进行融合。

2、图像描述的编码模型采用注意力机制进行图像的编码,并引入了代表空间位置关系的坐标特征,在不同层级提取图像特征,得到更加符合图像内容的描述。

3、图像描述的解码模型采用结合注意力机制的长短期记忆网络,关注到句子的整体结构的同时,融合了不同级别的图像特征,与仅仅使用自注意力变换进行解码的方法相比更加关注生成描述的语法规则,使其更为流畅合理。

4、整个过程采用强化学习与对抗网络联合训练的方式,较大程度的提高了生成描述的准确度。

附图说明

图1为一种基于深度注意力融合的图像描述生成方法框架图。

具体实施方式

下面通过具体实例和附图,对本发明做进一步的详细说明。本发明的一种基于深度注意力融合的图像描述生成方法流程如图1所示,主要分为训练阶段和测试阶段两个阶段。

训练阶段分为两个阶段,其步骤如下:

1)第一阶段为图像的预处理阶段,使用Faster R-CNN对图像中存在的实体进行检测和提取,并提取实体的图像特征。

该步骤1)的处理过程为:预处理阶段首先输入为MSCOCO数据集的图像,并使用预先训练好的Faster R-CNN目标检测网络对图像中存在的实体进行检测和提取,之后对检测到的实体拼接其各个像素的横纵坐标,并使用VGG19提取图像特征。VGG19将图像以及图像中的实体输入为I,将图像归一化到224*224,使用预训练的VGG16中第五层卷积所输出的特征,得到512维的图像特征{a

2)基于深度注意力融合的图像描述生成方法,架构包括两个网络,基于注意力机制的图像特征编码网络和基于长短期记忆模型的图像描述解码网络,并最终使用强化学习自我批判算法(SCST)进行优化。

该步骤2)的生成网络改进深度自注意力变换的思想,在描述生成的过程中引入注意力机制。在使用基于卷积神经网络(CNN)的VGG19图像特征提取网络之后,得到的预处理结果作为该阶段的总体输入,该图像特征引入深度自注意力网络进行图像特征的编码,并加入长短期记忆网络对编码特征解码成文字描述。所述图像编码网络的编码过程输入为该512维图像特征{a

sub_layer_output=LayerNorm(x+(SubLayer(x))

所述多头自注意力机(multi-head attention)通过h个不同的线性变换对注意力机制中的查询向量Q,键向量K,值向量V进行投影,最后将不同的注意力结果拼接起来:

MultiHead(Q,K,V)=Concat(head

所述查询向量Q,键向量K,值向量V的注意力机制由以下公示计算:

其中d

所述基于长短期记忆模型的图像描述解码网络采用长短期记忆模型LSTM,其每个时期的输出与图像特征经过注意力机制在各层进行互注意力融合,之后经过全连接网络,通过交叉熵函数计算输出描述信息中每个单词与实际值之间的误差,并通过回传该误差梯度优化整体的图像描述网络。该长短期记忆模型同样使用3层LSTM,与编码器的自注意力变换模型做匹配融合。在每一层的{h

x

α=W

其中,W为可学习参数,x

3)最终通过自我批判(SCST)的强化学习算法策略进行联合迭代优化。考虑到希望测定获得描述的独特性与保真度,因此使用BLEU和CIDEr作为最终的评价标准。

测试阶段的步骤如下:

1)将测试图像输入训练好的基于注意力机制的图像描述生成网络中,输出对应该测试图像的描述。

2)对该描述与标注的匹配描述进行BLEU以及CIDEr标准的计算和测量,作为最终输出描述的结果评价。

本发明涉及一种基于深度注意力融合的图像描述生成方法,其测试环境及实验结果为:

(1)测试环境:

系统环境:ubuntu16.04;

硬件环境:内存:16GB,GPU:TITIANXP,硬盘:1TB;

(2)实验数据:

训练数据:

使用MSCOCO数据集分别进行训练和测试,训练到模型稳定,效果不再提升。

测试数据:MSCOCO的测试数据集

评估方法:在线评估

(3)实验结果:

本发明实验结果与传统自注意力变换方法对比,传统自注意力变换方法的编码器为自注意力变换模型,且其解码器只引入编码器的最后一层输出进行解码。测试对比结果如下面表1所示:

表1.本发明的测试结果对比

以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

相关技术
  • 一种基于注意力融合的图像描述生成方法
  • 一种基于深度注意力机制的图像描述生成方法
技术分类

06120115621880