掌桥专利:专业的专利平台
掌桥专利
首页

一种基于跨模态对偶图对齐的参考图像分割方法

文献发布时间:2023-06-19 18:37:28


一种基于跨模态对偶图对齐的参考图像分割方法

技术领域

本发明属于多模态图像分割领域,以文本作为参考,从而生成对应图像中与文本描述最相关的目标的掩膜。该方法通过所提出的对偶图模块与层次化交互模块,提取显式的、详尽的跨模态对齐信息,根据获得的跨模态信息获得良好的分割结果。

背景技术

随着计算机视觉领域的不断发展,许多单模态的图像分割网络已经被陆续提出,其在自动驾驶等领域已经取得了不小的成就。然而,对于其他应用,例如:基于文本的图像编辑、人机交互等,单模态的图像分割无法满足其需求。基于多模态的图像分割方法在实际生活中有着更为广泛的应用与更重要的意义。

在多模态图像分割中,基于文本的参考图像分割是一个受关注的话题。该任务的挑战性在于:一方面,模型需要充分理解两种模态各自的成分和上下文信息;另一方面,还需要模型准确的对齐跨模态的异质信息。所以,在参考图像分割任务中,获取特定模态的初始特征以及进行跨模态融合是十分重要的。

在获取特定模态的初始特征方面,很多优秀的方法已经被提出。对于视觉信息,人们通常使用基于CNN的编码器或者基于视觉Transformer的编码器来提取输入图像对应的视觉特征;对于文本信息,目前主流的方法是使用基于RNN的编码器或者基于Transformer的编码器来提取输入文本对应的文本特征。在跨模态信息融合方面,目前的方法主要采取基于拼接的方法、基于注意力机制的方法,有些工作还会引入句子的句法结构信息来增强文本特征的表示能力,这些跨模态融合方法难以捕获跨模态结构上的层次化关联。此外,由于两种模态的数据风格并不统一,且视觉、文本模态的编码器具有明显不同的结构特点。所以提取出的不同模态的特征具有完全不同的潜在表征空间,如果直接进行跨模态融合,则很难得到准确的跨模态对齐信息。因此,基于对偶图来形成统一的表征结构,并且对跨模态特征进行层次化交互是十分有意义的。

现有技术中发表于计算机视觉顶级会议ECCV2020上的论文:“LinguisticStructure Guided Context Modelling for Refering Image Segmentation”,这篇论文中,作者对文本信息构建了图神经网络,以更好地获取句子中词与词之间的上下文关系。然而,这篇文献只对文本这一单一模态构建了图结构,对于视觉模态,还是通过编码器来提取视觉初始特征,并没有通过构建相同的图结构来实现表征空间的统一。所以在跨模态融合时,两种模态的特征仍处于不同的潜在表征空间,这为捕获模态间对齐信息造成了误差。

发明内容

本发明的目的在于解决以下技术问题:

其一:现有的参考图像分割方法通常使用结构有明显差异的视觉、文本编码器,且输入各自编码器的不同模态的数据本就有着不统一的风格。这导致了提取出的视觉、文本特征具有完全不同的潜在表征空间,一定程度上阻碍了准确的跨模态对齐。针对这项问题,本发明设计了对偶图模块,通过在不同模态内构建图结构,经过图神经网络推理过程中的节点间的信息传播与聚集,将具有不同潜在表征空间的视觉、文本特征映射至统一的图表征空间,这有利于模型捕获显式的、准确的跨模态对齐信息,有效地提升了模态融合的效果。

其二:在现有的参考图像分割方法中,对来自不同模态的全局表征或者异构上下文信息,通常使用基于拼接、注意力机制、句法结构信息引入的方法来获取跨模态的相关信息,这些融合方式对于跨模态相关性的捕获不够全面,因为其忽略了对跨模态的层次化关联的捕获。在本发明中,通过对不同模态的特征进行实体级与图级交互,充分的捕获了跨模态的层次化关联信息,有效地提升了模型的分割性能。

本发明技术方案为:一种基于跨模态对偶图对齐的参考图像分割方法,该方法包括:

步骤1:为了进一步增强文本信息以及促进后续对句子长距离上下文的捕获,首先对输入的文本进行预处理;预处理包括单词词性标注以及基于依赖解析树的方法获取句法结构;

使用现有开源的自然语言处理依赖库:SpaCy来实现,对于单词词性标注,将单词词性类别缩减为7类:名词、形容词、动词、介词、副词、其他词性以及补零位置,并且使用独热编码去表示这7类词性;

采用依赖解析树的方法获得了句子中词与词之间的从属关系,为后续构建图结构做准备;

步骤2:将图像I与文本表达式S分别输入各自模态的编码器,得到4个尺度视觉特征V

L

其中,⊙表示矩阵元素级相乘操作,Conv表示卷积层,ReLU代表激活函数,L

步骤3:对于最低级别的视觉特征V

首先,将从文本编码器中得来的文本初始特征L经过一个线性映射层与Softmax计算函数,得到每个单词特征对应的权重ω;根据权重,对文本特征L中,每一个单词对应的特征向量作加权和操作,得到句子的整体特征向量h

M

其中,Tile表示平铺操作,[;]表示拼接操作,Conv表示卷积层;

步骤4:对于较高级的视觉特征V

首先是提取实体,将融入了词性信息的文本特征L

步骤5:经过上述步骤后,获得了不同尺度的多模态特征M

其中,Upsample代表上采样操作,[;]表示拼接操作,Conv表示卷积层;

步骤6:将Y

其中,下标i,j表示预测结果和真实值的像素位置;H与W表示真实图像掩码的尺寸。

进一步的,为了增强模型的多层感知能力,额外设置一系列辅助损失;具体方法为:

将每一个尺度下的多模态特征M

最终的损失L

其中,λ、λ

进一步的,所述步骤4中对偶图模块分为两个分支:文本图分支与视觉图分支;

在文本图分支中,将词性感知后的文本特征L

其中,

在视觉图分支中,将融入了绝对位置信息后的视觉特征视作诗句节点,记作V

其中,

进一步的,所述步骤4中层次化交互模块是基于注意力机制而实现的,使用两个相同的上述模块,分别实现实体级、图级交互;将输入的视觉特征与文本特征分别记作V与L,将它们分别通过1×1卷积得到V

M

其中,M

L

M=ReLU(Conv(L

其中,T表示转置操作,Conv表示卷积层,⊙表示矩阵元素级相乘操作,ReLU代表激活函数,V

本发明中,创新地提出了对偶图模块以及层次化交互模块。对偶图模块通过分别对视觉模态与文本模态分别构建图结构,并且利用图卷积网络进行图推理,在捕获模态内长距离上下文关系的同时,将视觉与文本模态处于不同潜在表征结构的特征映射至一个基于图的统一的潜在表征结构中,这有利于后续捕获模态间显式的对齐信息,降低跨模态融合的误差。层次化交互模块方面,将其用于实体级交互与图级交互,这有利于捕获充分的跨模态相关性。得益于提出的对偶图模块以及层次化交互模块,一方面,本发明方法在客观指标上相较于目前其他高性能方法有着很高的增益;另一方面,本发明方法能够根据输入的图像与文本,得到高质量的分割掩码。

附图说明

图1为本发明“部分-统一-整体”范式示意图;

图2为本发明基于跨模态对偶图对齐的参考图像分割方法;

图3为本发明对偶图模块的示意图;

图4为本发明层次化交互模块的示意图;

图5为本发明参考图像分割可视化结果示意图。

具体实施方式

本发明提出了一种基于跨模态对偶图对齐的参考图像分割方法。现有的方法大多采用一种“部分-整体”的范式,即首先使用各自模态的编码器,分别提取视觉与文本特征,再采取多模态融合策略,获取整体的多模态特征。与“部分-整体”范式不同,本发明创新性的提出了“部分-统一-整体”的范式,即将提取得到的视觉与文本特征先映射至一个统一的潜在表征结构,再进行跨模态融合。这有利于模型提取的显式对齐信息,可以有效增强最终的分割效果。“部分-统一-整体”范式如图1所示;

为了实现上述“部分-统一-整体”范式,本发明首先使用两个深度编码器,分别对输入的图像与文本提取初始特征;接着,使用了对偶图模块对视觉与文本模态分别构建图结构,并使用图卷积网络(GCN)分别进行图推理,充分进行节点信息的传播与聚集,在此过程中对不同模态的异质数据形成了统一的表示结构;然后,为了充分提取跨模态的互相关信息,采用基于注意力机制的层次化交互模块,并且将其应用于实体级、图级层次化交互;最后,通过一个由高到低的路径整合多尺度特征,并且通过卷积层输出最终的预测掩码。图2展示了本发明提出方法的整体网路架构;

图2中,V

将本方法在公开的参考图像分割数据集RefCOCO上,进行了实验评估,并且与目前其他主流参考图像分割方法相比较。如表1所示,对比目前高性能的ReSTR方法,以分割交并比(IoU)为评估指标,本发明方法在RefCOCO数据集的验证集上提升了3.11%,在测试集A上提升了2.99%、在测试集B上提升了2.44%。此外,本发明还对模型预测的掩码进行了可视化,并将它们与真实掩码比较,比较结果如图5所示。结果显示,本发明的模型可以生成高质量的图像分割掩码。

表1本研究方法在RefCOCO数据集上客观性能评估表

相关技术
  • 一种基于模态间关系对齐的跨模态行人检索模型、方法、以及计算机设备
  • 一种基于对称自适应网络的跨模态医学图像分割方法
技术分类

06120115632164