导航：首页> 计算；推算；计数>一种基于内容选择和引导机制的图像描述文本生成方法

一种基于内容选择和引导机制的图像描述文本生成方法

文献发布时间：2023-06-19 16:06:26

技术领域

本发明属于计算机视觉和自然语言处理技术领域，涉及一种图像描述文本生成方法，特别涉及一种基于内容选择和引导机制的图像描述文本生成方法。

背景技术

图像描述文本生成是一项计算机视觉图像理解领域和自然语言生成处理领域的交叉任务，该任务的目标是通过算法理解图像，并根据输入图像的信息，自动生成对于图像的描述性文本。该方法可以实现图像到文本信息的跨模态转化，可以辅助视觉障碍人士理解图像内容。同时，可以应用到增强图片语义检索等领域。因此图像描述文本生成领域成为了一个具有重大研究价值和应用前景的方向。

图像到长文本的跨模态生成通常采用编码-解码框架，首先利用编码器提取图像的一系列局部区域特征再对得到的视觉特征进行非线性变换以及最大池化操作，将视觉区域特征矩阵转换为包含图像全局语义信息的一维特征向量；最后在文本生成阶段，使用图像全局语义特征向量作为解码器输入，将解码器隐层的状态向量通过全连接层映射到整个词典中，以映射概率最大的词作为生成结果，并以时序的方式生成完整的句子。

随着计算机视觉和自然语言处理领域的大力发展，越来越多的国内外学者开始投入到图像描述文本生成方法的研究。文献[Vinyals O,Toshev A,Bengio S,et al.Showand Tell:A Neural Image Caption Generator[J].IEEE,2015.]借鉴了机器翻译的思想，采用Encoder-Decoder结构，将机器翻译里原来使用的RNN编码器变为CNN编码器，通过CNN提取图像特征，再将特征输入LSTM解码器中生成描述文本。文献[Xu K,Ba J,Kiros R,etal.Show,Attend and Tell:Neural Image Caption Generation with Visual Attention[J].Computer Science,2015:2048-2057.]将注意力机制引入到图像描述中，将文本中具体的单词对应到图像中的某个区域，以增强文本生成的准确性。[Long C,Zhang H,Xiao J,et al.SCA-CNN:Spatial and Channel-Wise Attention in Convolutional Networksfor Image Captioning[J].IEEE,2016.]从CNN编码器入手，分析了其空间性、多通道和多层级的特性，分两部分改进了模型中作为编码器的CNN结构：对每层添加空间注意力机制和通道注意力得到了更好的文本生成效果。[Liang X,Hu Z,Zhang H,et al.RecurrentTopic-Transition GAN for Visual Paragraph Generation[C]//2017IEEEInternational Conference on Computer Vision(ICCV).IEEE,2017.]将生成对抗网络引入图像到文本生成中，设计了两个判别网络(语句判别器和主题判别器)，并斯坦福数据集上进行了实验，实验结果证实了生成对抗网络用在图像到文本的跨模态生成中的有效性，但发现了生成对抗网络存在的问题：搜索空间大，训练难以收敛。

虽然对于图像文本描述生成的研究已经取得了巨大的进展，然而绝大多数方法仅仅使用的图像的抽象视觉特征，该特征是一个抽象的高维特征向量，忽略了图像中包含的语义信息特征和几何信息特征，且缺乏特征的选择和引导机制，从而导致文本生成的准确性较低。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于内容选择和引导机制的图像描述文本生成方法，以建模图像和文本之间的潜在对齐关系，提高图像描述文本生成的准确性。

为了实现上述目的，本发明采用的技术方案是：

一种基于内容选择和引导机制的图像描述文本生成方法，包括如下步骤：

步骤1，构建模型数据集；

步骤2，提取图像视觉信息特征；

步骤3，提取图像语义信息特征和图像空间几何信息特征；

步骤4，构建特征融合网络，将图像视觉信息特征、图像语义信息特征和图像空间几何信息特征有效融合；

步骤5，设置内容选择和引导机制，对特征进行筛选，增强有效信息特征，筛除冗余信息特征，并将有效特征信息准确引导至文本生成模型；

步骤6，构建文本生成模型，将编码特征以时序的方式生成描述文本。

在一个实施例中，所述模型数据集为MSCOCO数据集中的图像描述数据集，并通过保留出现设定次数以上的对象、属性和关系来过滤数据，过滤后剩下的对象、属性和关系被分别用来训练目标检测器、属性分类器和关系分类器。

在一个实施例中，所述步骤2，使用Faster R-CNN模型框架进行图像视觉信息提取，并使用区域ROI池化后的特征作为图像视觉信息特征。

在一个实施例中，所述步骤3，图像语义信息包括：目标语义信息、关系语义信息和属性语义信息；对于每一张图像获得一组显式的语义信息特征。

在一个实施例中，所述步骤3，图像空间几何信息包括：单个目标的空间信息和两个目标之间的空间几何关系信息；构建一个5维的相对几何信息特征对所述单个目标的空间信息进行编码得到目标空间几何信息特征，目标的横纵坐标表示了目标所在的具体空间位置，而目标框的相对面积表示了目标的大小以及重要性因素；构建一个8维的空间几何信息特征对所述两个目标之间的空间几何关系信息进行编码得到关系空间几何信息特征。

在一个实施例中，所述步骤4，将同一目标的图像视觉信息特征、目标语义信息特征和目标空间几何信息特征进行融合得到融合目标信息特征，将同一目标的多个属性语义信息特征进行融合得到融合属性信息特征，将同一关系的关系语义信息特征和关系空间几何信息特征进行融合，得到融合关系信息特征。

与现有技术相比，本发明的有益效果是：

本发明在图像特征提取阶段，不仅仅关注了图像视觉特征，还显式的提取了图像中的目标、属性和关系语义信息，同时还辅助以目标和关系的几何信息特征，扩大了文本可描述的语义特征空间，提高了生成描述文本内容的丰富性。

本发明还提出了内容选择和引导机制，内容选择机制对目标信息特征、属性信息特征和关系信息特征进行筛选，增强有效信息特征的权重，筛除无效和冗余信息特征，得到了对于图像更加准确的表征信息。同时，内容引导机制生成引导信息，使得在时序生成文本的过程中，每生成一个单词都有显式的信息特征与之对应，提高了文本生成的准确性和流畅性。

附图说明

图1为本发明方法的整体流程图。

图2为本发明基于内容选择和引导机制的图像描述文本生成模型框框图。

图3为本发明中语义信息特征提取案例图。

图4为本发明中图像文本描述生成案例图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

参考图1和图2，本发明一种基于内容选择和引导机制的图像描述文本生成方法，主要包含以下五个阶段：特征提取阶段、特征融合阶段、内容选择阶段、内容引导阶段和文本生成阶段，具体包括如下步骤：

步骤1，构建模型数据集。

本发明数据集来自微软团队创建的MSCOCO数据集，该数据集包含图像的识别、分割和描述三部分数据信息，本实施例使用的是图像描述数据集，并在数据集上进行了数据预处理，由于MS-COCO数据集中的目标、属性和关系标注非常繁多，本实施例通过保留在训练集中出现设定次数以上的目标、属性和关系来过滤数据集。本实施例设定次数选择2000次，过滤后，剩下的305个目标、103个属性和64个关系被用来训练本发明的目标检测器、属性分类器和关系分类器。同时，本发明将MSCOCO数据集分成训练集、验证集和测试集三个部分。训练集中包含82783张图片和413915句文本描述，验证集中包含40504张图片和202520句文本描述，测试集中包含40775张图片和379249句文本描述。

本发明中，目标的定义为：图像中被描述的物体；属性的定义为：目标自身具有的属性，例如：颜色，状态等；关系的定义为：两个目标之间的关系，例如：动作，相对空间位置和介词关系等。

步骤2，提取图像视觉信息特征。

图像视觉信息特征的定义为：使用深度神经网络提取的区域高维特征向量。

本实施例使用深度残差网络ResNet作为图像视觉信息提取的骨干网络，深度残差网络使用残差结构使信息更容易在各层之间流动，包括在前向传播时提供特征重用，在反向传播时缓解梯度信号消失，有效解决了深度网络退化的问题。具体地，本发明使用FasterR-CNN模型框架进行图像视觉信息提取，并使用其区域ROI池化后的特征作为图像视觉信息特征，该特征为一个抽象的2048维的特征向量，使用f

步骤3，提取图像语义信息特征和图像空间几何信息特征。

本发明中，图像语义信息定义为：图像中目标、属性和关系通过模型获取的显式文字标注信息，包含：目标语义信息、关系语义信息和属性语义信息三类。目标语义信息定义为：图像中被描述目标物体的文字标注信息，属性语义信息定义为：目标自身所具有属性的文字标注信息，关系语义信息定义为：两目标之间关系的文字标注信息，如图3所示为图像语义信息特征提取案例图。

在图3所示案例中，左图为输入图像，右图为提取到的目标语义信息、属性语义信息和关系语义信息，例如，提取到的目标语义信息有：运动员和棒球棍等，棒球棍自身所具有的属性语义信息有：白色和木质，运动员和棒球棍两个目标之间的关系语义信息为挥动。

由于Faster R-CNN模型可以进行图像目标检测，所以本步骤直接使用区域ROI池化后的特征进行目标检测，得到目标语义信息特征。

同时，本实施例训练了一个属性分类器来预测每一个检测到的目标的属性，得到属性语义信息特征，该分类器由一个两层多层感知机网络和一个Softmax网络构成。

其次，本实施例使用MOTIFNET作为目标关系语义信息检测器，其主体原理为对检测到的目标进行两两关系匹配，同时预测两个目标之间的关系和关系的置信度，对高于设定置信度或排名靠前置信度的关系进行保留，得到关系语义信息特征。

最后，本实施例对于每一张图像获得一组显式的图像语义信息特征。

其中，目标语义信息特征用f

在提取到图像视觉信息和图像语义信息后，本发明还关注到了图像空间几何信息，其中也包含着重要的有效信息。

本发明中，图像空间几何信息的定义为：图像中包含的物理几何信息，例如：目标物体的位置和面积，两个目标之间的距离等。

图像空间几何信息包含两类：单个目标的空间信息和两个目标之间的空间几何关系信息。因为本发明使用模型Faster R-CNN作为目标检测器，所以可以使用模型中候选框的空间几何信息来表示目标的空间几何信息。

本发明中，单个目标的空间信息的定义为：单个目标所具有的物理几何信息，两个目标之间的空间几何关系信息的定义为：两个目标之间所具有的物理几何信息。

对于单个目标的空间几何信息，本实施例构建了一个5维的空间几何信息特征对其进行编码，计算公式定义如下：

其中，x

同时，对于单个目标的空间几何信息计算公式中每一维数据进行了归一化处理，以得到更加可信有效的空间几何信息。其中目标的横纵坐标表示了目标所在的具体空间位置，而目标框的相对面积表示了目标的大小以及重要性因素。在对图像进行分析可知，例如鸟类飞在空中，所以位置较多的在图片相对靠上的位置。同时，在一张图片中占据主体面积的目标应是模型文本生成描述的主体内容，所以本发明也关注的目标的相对面积信息。

对于目标之间的空间几何信息，本实施例构建了一个8维的空间几何信息特征对其进行编码，计算公式定义如下：

其中，x

同样，本实施例对目标之间的空间几何信息计算公式进行了归一化处理，以得到更加标准有效的空间几何信息。公文中，第一项是两个目标横坐标的相对差值，代表了横向相对平移；第二项是两个目标纵坐标的相对差值，代表了纵向相对平移；第三项代表了两个目标框宽度比值；第四项代表了两个目标框的高度比值；第五项代表了两个目标框的面积比值；第六项代表了两个目标框之间的交并比；第七项代表了两个目标框的中心对角线相对长度；第八项代表了两个目标之间的相对角度，该相对角度阈值为。本实施例通过以上八个角度两个目标之间的几何关系进行建模，通过该位置关系希望能够在已有的图像和语义信息的基础上，增强对于两个目标之间的关系表征，得到更加完善的关系信息，从而使解码器能够输出更加准确流畅的文本描述。

显然，步骤2和步骤3构成了图2所示的特征提取阶段。

步骤4，设计特征融合网络，将图像视觉信息特征、图像语义信息特征和图像空间几何信息特征有效融合。

通过步骤2和步骤3，本发明得到了目标的图像视觉信息特征f

具体地，本发明将同一目标的图像视觉信息特征、目标语义信息特征和目标空间几何信息特征进行融合得到融合目标信息特征，将同一目标的多个属性语义信息特征进行融合得到融合属性信息特征，将同一关系的关系语义信息特征和关系空间几何信息特征进行融合，得到融合关系信息特征。

本发明融合目标信息特征、融合属性信息特征和融合关系信息特征分别使用

式中，

通过上述特征融合操作后，得到了融合后的统一尺寸的特征，之后需要对特征进行进一步的编码，本实施例使用多层感知机网络对得到的特征加入非线性成分，以达到目标信息特征、属性信息特征和关系信息特征的交叉信息感知嵌入，得到更完善的特征信息表征。

特征编码后的目标信息特征、属性信息特征和关系信息特征分别用

式中，

在特征编码计算公式中，引入了残差网络的思想，在使用多层感知机网络加入非线性映射得到的高维抽象特征时，不会丢失底层原始特征信息，提升了特征编码的有效性，将v

步骤4体现了图2中所示的特征融合阶段。

步骤5，设计内容选择和引导机制，对特征进行筛选，增强有效特征信息，筛除冗余特征信息，并将有效特征信息准确引导至文本生成模型。

在步骤4中得到了三类信息特征，即目标信息特征、属性信息特征和关系信息特征，为了使在生成每一个字时，都能有显式的信息特征与之对应并引导文本生成，使文本生成的更加准确和流畅。本实施例设计了内容选择机制和内容引导机制，使编码完善的目标信息特征、属性信息特征和关系信息特征有效的嵌入到文本生成的时序过程中。

首先，时序生成每一个字时，需要增强重要性高的信息特征，抑制重要性低的信息特征。所以内容选择机制需要动态地在多个目标、属性和关系中筛选重要的目标信息特征、属性信息特征和关系信息特征。本实施例使用注意力机制进行在每一类信息特征内进行内容选择。注意力机制的计算公式定义如下：

式中，

本实施例将上述注意力机制应用于内容选择和内容引导，内容选择定义为

用该公式可以对目标信息特征、属性信息特征和关系信息特征分别进行筛选，内容选择计算公式定义如下：

然后本实施例通过内容引导机制，将注意力LSTM在每个时刻产生的隐藏层状态值作为引导向量，引导向量表示了在该时刻生成模型期望得到的信息特征，即该时刻是应该生成目标、属性和关系中哪一类信息特征所对应的单词，从而动态调整生成模型的输入，引导输入信息特征与期待输出结果的对齐，使输入特征更加准确，从而达到更好的生成文本效果，内容引导机制计算公式定义为：

将该动态的上下文特征向量c

步骤5体现了图2所示的内容选择阶段和内容引导阶段。

步骤6，设计文本生成模型，将编码特征以时序的方式生成描述文本。

本实施例使用双层的长短时记忆网络(LSTM)作为文本生成模型，第一层为注意力LSTM层，用于生成该时刻的引导向量作为内容选择和引导机制注意力模型的查询向量，引导生成上下文特征向量c

式中，

第二层为文本生成LSTM层，接受输入特征以时序的方式在每一刻生成一个隐藏层输出，文本生成LSTM层的计算公式定义如下：

该文本生成LSTM层的隐藏层状态

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杜友田;陈中奇;沈逸如;陈思源;张新明;
专利申请人：西安交通大学;

上一篇：基于人像的卡通形象生成方法、装置、设备及存储介质
下一篇：一种模块化切割平台