掌桥专利:专业的专利平台
掌桥专利
首页

基于结构化多模态融合网络的文本指导图像分割方法

文献发布时间:2023-06-19 18:29:06


基于结构化多模态融合网络的文本指导图像分割方法

技术领域

本发明属于计算机视觉与自然语言处理的交叉技术领域,涉及基于结构化多模态融合网络的文本指导图像分割方法,以探索多模态融合结构协同建模高质量全局多模态上下文为出发点。

背景技术

随着人工智能时代的到来,人类与计算机、智能机器之间的交互需求越来越多。如何让机器能够理解复杂的自然语言、与人类有相同视角,观察到人类观察的世界、按照人类意图做出相应操作的问题已经成为业界关注的一大热门话题。图像分割是计算机视觉的传统研究领域却一直备受人们关注,近年来在自动驾驶、人机交互、虚拟现实、医学图像等各个领域都有着广泛应用,因此将自然语言与图像处理相结合能够促进人机交互的发展,实现机器与人类的无障碍沟通。

基于文本的图像分割是分割任务中比较贴合实际应用需求的一个研究分支,该任务需要对计算机视觉和自然语言处理全面理解以正确分割出文本描述的图像中的特定对象。与传统的将每个像素分类为预定义类别的语义分割任务相比,基于文本的图像分割不局限于预定义的类别,因此更具挑战性。此外,由于文本可能包含不同的语义内容,如实体(如“人”、“屋”)、属性(如“大的”、“白的”)、关系(如“在…右”、“在…底部”),因此基于文本的图像分割更适合复杂场景,如交互式图像编辑和文本驱动的人机交互。近年来,基于文本的图像分割引起了研究者的广泛关注,一些方法也取得了显著的成绩。然而,在这项任务中仍有两大挑战没有得到很好的解决。一个主要的挑战是模型应该如何理解和对齐视觉和语言特征,使得模型能够在复杂的视觉和语义场景中分辨出文本描述的对象。另一个挑战是模型如何捕捉更多信息以提高识别出的对象的分割掩码质量。现有的基于文本的图像分割方法曾基于单个多模态融合结构(如多模态树、多模态图、跨膜态Transformer)对全局多模态上下文进行建模,没有探索过多个多模态融合结构协同建模高质量全局多模态上下文。在我们的研究中发现对多模态融合结构内部和融合结构之间的协同关系精细设计有利于提高模型的鲁棒性,生成更加精确的分割掩码。

发明内容

为了克服上述现有技术的缺点,本发明提供一个基于结构化多模态融合网络的文本指导图像分割方法。该方法通过多个多模态融合结构协同建模全局多模态上下文信息以分辨出图像中文本描述的物体,并进一步对齐高层次多模态特征和低层次视觉特征以补充被分辨出物体的视觉细节信息,从而有效的提高分割结果地准确性。

为了实现上述目的,本发明采用的技术方案是:

基于结构化多模态融合网络的文本指导图像分割方法,其包括步骤:

(1)特征提取:

对输入的RGB图片和自然语言文本进行特征提取。其中RGB图片采用卷积神经网络提取图片中的视觉和语义特征,由于该方法属于图像分割分支,因此采用deeplab语义分割模型预训练参数作为卷积神经网络的初始参数,使用deeplab预训练参数能有效的减少网络训练时间,提高网络的泛化能力。对于自然语言文本,使用预训练的GloVe词嵌入模型将每个单词表示为向量,进一步的将该向量输入到双向LSTM长短时记忆网络中,将双向LSTM输出的隐藏态作为整个自然语言文本的向量表示,该过程是将低秩词向量输入LSTM经过多次循环最终得到的隐藏态作为整句话的向量表示。

(2)渐进的多模态融合树模块构建:

由于基于文本的图像分割任务需要根据语言对图像进行全局推理,建模全局的多模态上下文信息,因此构建了一棵多模态树去进行全局推理、聚合全局的多模态上下文信息。首先利用依赖解析器将文本解析为依赖树,此时每个树节点代表一个单词,然后将步骤(1)中高层次的视觉特征和语言特征作为依赖树的输入,在每个树节点上利用提出的渐进多模态融合模块将每个树节点对应的单词特征和高层次视觉特征进行融合,形成单词特定的多模态特征。为了获取全局的上下文信息,我们进一步的沿着树结构自下而上的更新节点之间的信息,即利用子节点更新父节点的信息,直至将根节点状态更新,节点之间的信息交换是由门控装置完成。此时多模态树根节点的特征具有全局的上下文信息。

(3)跨膜态融合Transformer模块构建:

为了进一步提升模型的鲁棒性获得更加精细的多模态特征,我们设计了一个基于Transformer的模块以在步骤(2)的多模态树建模的基础上进一步建模多模态特征和语言特征之间更深层次的交互。跨膜态融合Transformer包括两个线性映射层、六个具有位置编码的Transformer编码器层以及一个噪声滤波头。

在跨膜态融合Transformer模块中,我们首先处理多模态特征和语言特征,将两个特征分别送入到线性映射层中得到新的特征映射,然后将处理后的特征和一个特殊的可学习特征提供给Transformer编码层去建模更高质量的全局多模态上下文。进一步的为了获得更加精细的多模态特征,在噪声过滤头中,包含丰富上下文信息的特殊特征过滤与文本描述物体无关的噪声,高亮文本描述的物体所在的空间区域。

(4)多层次渐进融合细化模块构建:

通过构建步骤(2)的多模态融合树与步骤(3)的跨膜态融合Transformer,视觉和文本两种模态特征被精确对齐,生成了精细的多模态特征,这个多模态特征高亮了文本描述的物体所在的空间区域。为了改进分割掩码的细节、生成精确的预测掩码,我们设计了一种多层次渐进融合细化模块,该模块将低层次视觉特征的细节信息以渐进融合的方式补充给高层次多模态特征,使得高层语义特征拥有更多的局部细节。最后模型将这个具有充足局部和全局信息的特征来预测最终的分割掩码。

与现有技术相比,本发明能够使基于文本的图像分割方法在复杂的视觉和语义场景中精准的识别自然语言表达所描述的物体,将文本描述的物体与其他相似的物体区分开。本发明的方法可以应用于人机交互等各个领域。

附图说明

图1为本发明的整体架构图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

图1给出本发明的基于文本的图像分割方法框架设计,主要过程如下:

对于视觉特征获取,首先将所有图片大小均调整为320×320,用视觉特征提取网络提取四阶段的视觉特征V

V=ConvBN([Down(V

其中Down(·)表示下采样操作,ConvBN(·)表示连接着BatchNorm层的1x1卷积层,[;]表示沿着通道轴的连接操作。

对于文本特征获取,采用预训练的GloVe词嵌入模型将每个单词表示为向量并进一步的通过双向LSTM长短时记忆网络得到句子的向量表示L。LSTM文本最长单词数取20,长短时记忆网络的具体计算过程如公式所示:

h

其中h

为了建模全局的上下文信息,首先构建一颗渐进的多模态融合树。具体的,利用依赖解析器将文本解析为依赖树,每个树节点对应一个单词,将双向LSTM输出的单词特征与依赖树进行结合则每个树节点对应一个单词特征。在每个树节点利用提出的渐进多模态融合模块去融合高层次视觉特征V和树节点i对应的单词特征Li

M

其中

为了建模全局的上下文信息,我们沿着树结构自下而上的利用门控装置GRU更新节点之间的信息直到根节点特征信息完成更新。此时根结点特征具有初步的全局上下文信息。

为了建模更高质量的多模态上下文,将多模态树根节点的多模态特征与语言特征送入到提出的跨膜态融合Transformer中建模元素之间的直接交互,高亮文本描述的空间区域,抑制非文本描述的空间区域信号响应。具体的,首先将多模态特征和语言特征分别送入到线性映射层中获得多模态嵌入t

其中N

将联合嵌入送入到Transformer编码器中进行推理,得到推理结果多模态嵌入t′

M

其中M

为了生成精确的分割掩码,在获得具有全局上下文信息的精细多模态特征M

M

V

M

其中Upsample为上采样操作,Conv

本发明使用多模态树和跨模态Transformer联合建模多模态上下文信息。最终将精细的具有全局上下文信息的多模态特征与低层次视觉细节特征整合获取具有高层次语义与低层次视觉细节的特征,最终将该特征送入到堆叠的卷积层,经过sigmoid激活函数逐像素分类以生成最终分割结果。

实施例

在本实施例中,在GTX 2080 12G显卡上,采用深度学习框架PyTorch。

数据集:实验评估是在标准公开数据集RefCOCO上进行的。该数据集包括19994张图片,142209句自然语言文本,RefCOCO是基于文本的图像分割任务最常用的数据集之一。

消融实验:为证明基于结构化多模态融合网络的文本指导图像分割方法中各个步骤的有效性,通过在RefCOCO数据集上测试IoU指标。结果如表1所示。消融实验证明本发明的方法能够有效提高结果的准确度。

表1不同步骤组合消融实验的分割结果

实验结果可以证明本发明的有效性。相比于现有技术,本发明能够从复杂的视觉和语义上下文中将文本描述的物体精准的识别出,并通过整合高层次语义和低层次视觉细节信息从而将文本描述的物体与相似的物体明显区分开,方法具有较强的鲁棒性。

技术分类

06120115584626