掌桥专利:专业的专利平台
掌桥专利
首页

多模特征信息的获取方法及系统、电子设备及存储介质

文献发布时间:2024-04-18 20:01:23


多模特征信息的获取方法及系统、电子设备及存储介质

技术领域

本发明涉及计算机技术领域,尤其涉及一种多模特征信息的获取方法、一种多模特征信息的获取系统、一种电子设备以及一种存储介质。

背景技术

相关技术中,尽管在RGB-D(Red Green Blue-Depth Map,深度图像)分割方面,特征级融合方法已经取得了显著的进展,但仍存在一个尚未解决的潜在挑战。大部分方法将深度和RGB(Red Green Blue,彩色系统)图像视为完美校准的,直接使用设计的网络融合提取的RGB和深度特征。然而,由于硬件限制,深度图像总是受到噪声的影响。例如,不同的物体材料和有限的测量范围可能导致深度测量不准确。而RGB图像可能会因为相机和环境原因出现图像退化问题,例如曝光不足和过曝。因此,与单模态特征相比,直接融合噪声深度和RGB特征可能会降低特征表示能力。

发明内容

有鉴于此,本发明提供一种多模特征信息的获取方法、一种多模特征信息的获取系统、一种电子设备以及一种存储介质。

具体地,本发明是通过如下技术方案实现的:

根据本发明的第一方面,提供一种多模特征信息的获取方法,其中,包括:通过卷积神经网络和激活函数对至少两个第一模态特征信息进行全局校准,得到至少两个第二模态特征信息,其中,至少两个第一模态特征信息为通过多层感知机对至少两个第三模态特征信息进行自校准得到,至少两个第三模态特征信息对应至少两个模态图像;通过注意力机制对至少两个第一模态特征信息进行局部校准,得到至少两个第四模态特征信息;对至少两个第二模态特征信息、至少两个第三模态特征信息以及至少两个第四模态特征信息进行处理得到至少两个第五模态特征信息;对至少两个第五模态特征信息的位置特征信息和纹理特征信息进行融合得到多模特征信息。

本发明提供的多模特征信息的获取方法,包括在多模图像中获取至少两个模态图像,然后在至少两个模态图像中的每个模态图像中获取第三模态特征信息,从而得到至少两个第三模态特征信息,第三模态特征信息指的是每个模态图像中的所包含的信息。进一步地,利用多层感知机对至少两个第三模态特征信息进行自校准,得到至少两个第一模态特征信息,通过对至少两个第三模态特征信息进行自校准,可以减少外部环境的影响。进一步地,分别从全局和局部的视角利用至少两个第一模态特征信息的互补性来校准至少两个第一模态特征信息,具体地,通过卷积神经网络和激活函数(Sigmoid函数)来对至少两个第一模态特征信息中的每一个第一模态特征信息进行全局校准,得到至少两个第二模态特征信息;通过注意力机制对至少两个第一模态特征信息中的每一个第一模态特征信息进行局部校准,得到至少两个第四模态特征信息,然后根据对应的关系将至少两个第二模态特征信息、至少两个第三模态特征信息以及至少两个第四模态特征信息进行求和处理,从而得到至少两个第五模态特征信息,通过对至少两个第一模态特征信息进行全局和局部的校准,从而提高了获取的多模特征信息的质量。进一步地,对至少两个第五模态特征信息中的每个第五模态特征信息的位置特征信息和纹理特征信息进行融合,得到融合后的位置特征信息和纹理特征信息,然后将融合后的位置特征信息和纹理特征信息再进行融合,从而得到了本发明想要获取的多模特征信息,其中,位置特征信息提供的是几何位置,纹理特征信息提供的是纹理信息,通过将至少两个第五模态特征信息在位置特征信息和纹理特征信息两个层级进行融合,从而可以提高获取的多模特征信息的表达能力。

本发明首先从全局和局部视角分别校准了多模图像的特征,提高了提取的多模特征的质量,然后,从位置特征信息和纹理特征信息两个层级实现了对多模特征信息的融合,提高了融合后得到的多模特征的表达能力,进一步地,将获取到的多模特征信息用于多模图像语义分割时,可以大幅度提高多模图像分割的准确率。

在一些实施例中,通过多层感知机对至少两个第三模态特征信息进行自校准的步骤,包括:对至少两个第三模态特征信息进行池化操作;根据多层感知机和池化后的至少两个第三模态特征信息,得到至少两个通道注意力的权重;根据至少两个通道注意力的权重分别对至少两个第三模态特征信息进行自校准,得到至少两个第一模态特征信息。

在该实施例中,在对至少两个第三模态特征信息进行自校准,也就是使用通道注意力对每个第三模态特征信息进行自校准,其中,方法为:首先对至少两个第三模态特征信息中的每一个第三模态特征信息进行池化操作,然后根据多层感知机分别对池化后的第三模态特征信息进行处理,确定至少两个通道注意力的权重,具体地,对至少两个第三模态特征信息中的每个第三模态特征信息在空间维度使用平均池化和最大池化获取至少两个通道级的统计信息,然后使用多层感知机分别对至少两个通道级的统计信息进行处理,得到至少两个通道注意力的权重,进一步地,在得到至少两个通道注意力的权重后,利用至少两个通道注意力的权重分别对与通道注意力的权重对应的第三模态特征信息在通道维度上进行乘法处理就实现了第三模态特征信息的自校准,通过对至少两个第三模态特征信息中的每个第三模态特征信息进行自校准,实现了模态特征信息自身在通道维度上的调整。

在一些实施例中,通过卷积神经网络和激活函数对至少两个第一模态特征信息进行全局校准,得到至少两个第二模态特征信息的步骤,包括:对至少两个第一模态特征信息进行池化操作;将池化后的至少两个第一模态特征信息基于至少两个第一模态特征信息之间的互补关系进行拼接,得到全局特征信息;根据全局特征信息、卷积神经网络以及激活函数得到第一校准权重;根据第一校准权重对至少两个第一模态特征信息进行校准,得到至少两个第二模态特征信息。

在该实施例中,使用全局校准方法来建模不同模态全局依赖并基于这种依赖对模态特征信息在空间维度进行校准,自校准不能利用多个模态特征信息之间的互补性,因此,基于多个模态特征信息之间的互补性提出了对至少两个第一模态特征信息进行全局特征校准。首先,对至少两个第一模态特征信息进行池化操作,并将根据至少两个第一模态特征信息之间的互补关系将对池化后的至少两个第一模态特征信息进行拼接操作,从而得到全局特征信息。具体地,首先在自校准后的至少两个第一模态特征信息的通道维度使用最大池化和平均池化,然后将两种池化后的至少两个第一模态特征信息进行拼接操作,从而得到了全局特征信息。进一步地,在得到全局特征信息后,对全局特征信息使用卷积神经网络和激活函数(Sigmoid函数)获得至少两个通道维度融合权重即至少两个第一校准权重,最后,使用至少两个第一校准权重分别与第一校准权重对应的至少两个第一模态特征信息中的第一模态特征信息进行校准,从而得到至少两个所述第二模态特征信息。通过对至少两个第一模态特征信息进行全局校准,从而提供了多模特征信息的质量。

在一些实施例中,通过注意力机制对至少两个第一模态特征信息进行局部校准,得到至少两个第四模态特征信息的步骤,包括:获取至少两个像素特征信息,其中,至少两个像素特征信息对应至少两个模态图像;根据注意力机制对至少两个像素特征信息进行处理,得到第二校准权重;根据第二校准权重对至少两个第一模态特征信息进行校准,得到至少两个第四模态特征信息。

在该实施例中,采用一种空间不变的核方法来对模态特征信息在像素特征信息的局部位置进行局部的特征校准,局部校准是在空间温度上对一个像素点特征周围的8个像素点的特征进行校准,具体地,首先分别获取相同坐标下的至少两个模态图像,然后对至少两个模态图像中的每个模态图像进行处理,得到至少两个像素特征信息,其中,像素特征信息是模态图像遍历的局部特征。最后使用注意力机制对至少两个像素特征信息进行处理,获得至少两个局部校准权重即第二校准权重,进一步地,使用至少两个第二校准权重分别对至少两个第一模态特征信息中与第二校准权重对应的第一模态特征信息进行校准,得到至少两个第四模态特征信息。最后对三个维度校准以后的模态特征求和得到最终校准好的模态特征信息,即根据对应关系,对至少两个第二模态特征信息、至少两个第三模态特征信息以及至少两个第四模态特征信息进行处理得到至少两个第五模态特征信息。

在一些实施例中,对至少两个第五模态特征信息的位置特征信息和纹理特征信息进行融合,得到多模特征信息的步骤之前,包括:获取第一卷积神经网络和第二卷积神经网络;根据第一卷积神经网络和至少两个第五模态特征信息得到至少两个第五模态特征信息的位置特征信息;根据第二卷积神经网络和至少两个第五模态特征信息得到至少两个第五模态特征信息的纹理特征信息。

在该实施例中,在对调整后的模态特征信息在位置特征信息和纹理特征信息两个层级进行融合的步骤,之前还需要分别来平衡至少两个第五模态特征信息中每个第五模态特征的位置特征信息和纹理特征信息。具体地,可以分别使用两个特殊的卷积神经网络即第一卷积神经网络和第二卷积神经网络来处理得到每个第五模态特征信息的位置特征信息和纹理特征信息。即,可以通过第一卷积神经网络分别对至少两个第五模态特征信息进行处理,从而得到每个第五模态特征信息的位置特征信息,通过第二卷积神经网络分别对至少两个第五模态特征信息进行处理,从而得到每个第五模态特征信息的纹理特征信息。

在一些实施例中,对至少两个第五模态特征信息的位置特征信息和纹理特征信息进行融合,得到多模特征信息的步骤,包括:通过门控函数对至少两个第五模态特征信息的位置特征信息进行处理;通过门控函数对至少两个第五模态特征信息的纹理特征信息进行处理;通过门控函数对处理后的至少两个第五模态特征信息的位置特征信息和处理后的至少两个第五模态特征信息的纹理特征信息进行融合,得到多模特征信息。

在该实施例中,对调整后的模态特征信息在位置特征信息和纹理特征信息两个层级进行融合时,可以使用门控函数对模态特征信息的位置特征信息和纹理特征信息进行融合,从而得到最终的多模特征信息。具体地,首先使用两个门控函数分别将每个第五模态特征信息的位置特征信息和每个第五模态特征信息的纹理特征信息进行融合。最后,再一次使用门控函数将融合后的至少两个第五模态特征信息的位置特征信息和融合后的至少两个第五模态特征信息的纹理特征信息进行融合,从而得到了最终的多模特征信息。

在一些实施例中,至少两个第四模态特征信息包括:颜色特征信息和深度特征信息。

在该实施例中,多模图像可以为RGB-D图像,对于RGB-D图像来说,是由彩色图像和深度图像组合而成的,因此,在至少两个第四模态特征信息可以包括颜色特征信息和深度特征信息,其中,颜色特征信息指的是彩色图像上的特征信息,深度特征信息指的是深度图像上的特征信息。通过从全局和局部的视角利用多模特征的互补性来校准颜色特征信息和深度特征信息。然后,通过提取和融合基本特征和形状特征来融合校准后的颜色特征信息和深度特征信息,其中基本特征提供几何位置,而形状特征提供纹理信息。所提出的特征校准和融合网络可以插入到基于视觉变换的双流骨干网络中,用于RGB-D语义分割。通过插入提出的特征校准和融合网络,可以大幅提高对RGB-D图像的分割准确率。

根据本发明的第二方面,提供一种多模特征信息的获取系统,包括第一校准模块,第一校准模块用于通过卷积神经网络和激活函数对至少两个第一模态特征信息进行全局校准,得到至少两个第二模态特征信息;其中,至少两个第一模态特征信息为通过多层感知机对至少两个第三模态特征信息进行自校准得到,至少两个第三模态特征信息对应至少两个模态图像;第二校准模块,第二校准模块用于通过注意力机制对至少两个第一模态特征信息进行局部校准,得到至少两个第四模态特征信息;处理模块,处理模块用于对至少两个第二模态特征信息、至少两个第三模态特征信息以及至少两个第四模态特征信息进行处理得到至少两个第五模态特征信息;融合模块,融合模块用于对至少两个第五模态特征信息的位置特征信息和纹理特征信息进行融合,得到多模特征信息。

本发明提供的多模特征信息的获取系统,包括第一校准模块、第二校准模块、处理模块以及融合模块。其中,首先在多模图像中获取至少两个模态图像,然后在至少两个模态图像中的每个模态图像中获取第三模态特征信息,从而得到至少两个第三模态特征信息,第三模态特征信息指的是每个模态图像中的所包含的信息。进一步地,利用多层感知机对至少两个第三模态特征信息进行自校准,得到至少两个第一模态特征信息,通过对至少两个第三模态特征信息进行自校准,可以减少外部环境的影响。进一步地,分别从全局和局部的视角利用至少两个第一模态特征信息的互补性来校准至少两个第一模态特征信息,具体地,第一校准模块通过卷积神经网络和激活函数(Sigmoid函数)来对至少两个第一模态特征信息中的每一个第一模态特征信息进行全局校准,得到至少两个第二模态特征信息;第二校准模块通过注意力机制对至少两个第一模态特征信息中的每一个第一模态特征信息进行局部校准,得到至少两个第四模态特征信息,然后处理模块根据对应的关系将至少两个第二模态特征信息、至少两个第三模态特征信息以及至少两个第四模态特征信息进行求和处理,从而得到至少两个第五模态特征信息,通过对至少两个第一模态特征信息进行全局和局部的校准,从而提高了获取的多模特征信息的质量。进一步地,融合模块对至少两个第五模态特征信息中的每个第五模态特征信息的位置特征信息和纹理特征信息进行融合,得到融合后的位置特征信息和纹理特征信息,然后将融合后的位置特征信息和纹理特征信息再进行融合,从而得到了本发明想要获取的多模特征信息,其中,位置特征信息提供的是几何位置,纹理特征信息提供的是纹理信息,通过将至少两个第五模态特征信息在位置特征信息和纹理特征信息两个层级进行融合,从而可以提高获取的多模特征信息的表达能力。

根据本发明的第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现第一方面或第一方面的任意可能的实现方式中的多模特征信息的获取方法的步骤。

根据本发明的第四方面,提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面或第一方面的任意可能的实现方式中的多模特征信息的获取方法的步骤。

本发明提供的技术方案至少带来以下有益效果:

本发明从全局和局部视角分别校准了多模图像的多个模态特征信息,从而提高了提取的多模特征信息的质量;进一步地,通过从基本特征和形状特征两个层级实现了对多模特征信息的融合,提高了融合后的多模特征信息的表达能力;进一步地,再将上述特征校准和特征融合模块插入到RGB-D分割算法以后,还可以实现对分割结果的提升。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多模特征信息的获取方法的流程示意图之一;

图2为本发明实施例提供的多模特征信息的获取方法的流程示意图之二;

图3为本发明实施例提供的多模特征信息的获取方法的流程示意图之三;

图4为本发明实施例提供的多模特征信息的获取方法的流程示意图之四;

图5为本发明实施例提供的多模特征信息的获取方法的流程示意图之五;

图6为本发明实施例提供的多模特征信息的获取方法的流程示意图之六;

图7为本发明实施例提供的多模特征信息的获取方法的整体框架图之一;

图8为本发明实施例提供的多模特征信息的获取方法的整体框架图之二;

图9为本发明实施例提供的多模特征信息的获取系统的结构框图;

图10为本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的多模特征信息的获取方法的流程示意图之一。该方法可以包括如下步骤:

S102:通过卷积神经网络和激活函数对至少两个第一模态特征信息进行全局校准,得到至少两个第二模态特征信息,其中,至少两个第一模态特征信息为通过多层感知机对至少两个第三模态特征信息进行自校准得到,至少两个第三模态特征信息对应至少两个模态图像;

S104:通过注意力机制对至少两个第一模态特征信息进行局部校准,得到至少两个第四模态特征信息;

S106:对至少两个第二模态特征信息、至少两个第三模态特征信息以及至少两个第四模态特征信息进行处理得到至少两个第五模态特征信息;

S108:对至少两个第五模态特征信息的位置特征信息和纹理特征信息进行融合得到多模特征信息。

本发明提供的多模特征信息的获取方法,包括在多模图像中获取至少两个模态图像,然后在至少两个模态图像中的每个模态图像中获取第三模态特征信息,从而得到至少两个第三模态特征信息,第三模态特征信息指的是每个模态图像中的所包含的信息。进一步地,利用多层感知机对至少两个第三模态特征信息进行自校准,得到至少两个第一模态特征信息,通过对至少两个第三模态特征信息进行自校准,可以减少外部环境的影响。进一步地,分别从全局和局部的视角利用至少两个第一模态特征信息的互补性来校准至少两个第一模态特征信息,具体地,通过卷积神经网络和激活函数(Sigmoid函数)来对至少两个第一模态特征信息中的每一个第一模态特征信息进行全局校准,得到至少两个第二模态特征信息;通过注意力机制对至少两个第一模态特征信息中的每一个第一模态特征信息进行局部校准,得到至少两个第四模态特征信息,然后根据对应的关系将至少两个第二模态特征信息、至少两个第三模态特征信息以及至少两个第四模态特征信息进行求和处理,从而得到至少两个第五模态特征信息,通过对至少两个第一模态特征信息进行全局和局部的校准,从而提高了获取的多模特征信息的质量。进一步地,对至少两个第五模态特征信息中的每个第五模态特征信息的位置特征信息和纹理特征信息进行融合,得到融合后的位置特征信息和纹理特征信息,然后将融合后的位置特征信息和纹理特征信息再进行融合,从而得到了本发明想要获取的多模特征信息,其中,位置特征信息提供的是几何位置,纹理特征信息提供的是纹理信息,通过将至少两个第五模态特征信息在位置特征信息和纹理特征信息两个层级进行融合,从而可以提高获取的多模特征信息的表达能力。

本发明首先从全局和局部视角分别校准了多模图像的特征,提高了提取的多模特征的质量,然后,从位置特征信息和纹理特征信息两个层级实现了对多模特征信息的融合,提高了融合后得到的多模特征的表达能力,进一步地,将获取到的多模特征信息用于多模图像语义分割时,可以大幅度提高多模图像分割的准确率。

图2为本发明实施例提供的多模特征信息的获取方法的流程示意图之二;其中,通过多层感知机对至少两个第三模态特征信息进行自校准的步骤,包括:

S202:对至少两个第三模态特征信息进行池化操作;

S204:根据多层感知机和池化后的至少两个第三模态特征信息,得到至少两个通道注意力的权重;

S206:根据至少两个通道注意力的权重分别对至少两个第三模态特征信息进行自校准,得到至少两个第一模态特征信息。

在该实施例中,在对至少两个第三模态特征信息进行自校准,也就是使用通道注意力对每个第三模态特征信息进行自校准,其中,方法为:首先对至少两个第三模态特征信息中的每一个第三模态特征信息进行池化操作,然后根据多层感知机分别对池化后的第三模态特征信息进行处理,确定至少两个通道注意力的权重,具体地,对至少两个第三模态特征信息中的每个第三模态特征信息在空间维度使用平均池化和最大池化获取至少两个通道级的统计信息,然后使用多层感知机分别对至少两个通道级的统计信息进行处理,得到至少两个通道注意力的权重,进一步地,在得到至少两个通道注意力的权重后,利用至少两个通道注意力的权重分别对与通道注意力的权重对应的第三模态特征信息在通道维度上进行乘法处理就实现了第三模态特征信息的自校准,通过对至少两个第三模态特征信息中的每个第三模态特征信息进行自校准,实现了模态特征信息自身在通道维度上的调整。

其中,公式为:

S

S

X

Y

其中

图3为本发明实施例提供的多模特征信息的获取方法的流程示意图之三;其中,通过卷积神经网络和激活函数对至少两个第一模态特征信息进行全局校准,得到至少两个第二模态特征信息的步骤,包括:

S302:对至少两个第一模态特征信息进行池化操作;

S304:将池化后的至少两个第一模态特征信息基于至少两个第一模态特征信息之间的互补关系进行拼接,得到全局特征信息;

S306:根据全局特征信息、卷积神经网络以及激活函数得到第一校准权重;

S308:根据第一校准权重对至少两个第一模态特征信息进行校准,得到至少两个第二模态特征信息。

在该实施例中,使用全局校准方法来建模不同模态全局依赖并基于这种依赖对模态特征信息在空间维度进行校准,自校准不能利用多个模态特征信息之间的互补性,因此,基于多个模态特征信息之间的互补性提出了对至少两个第一模态特征信息进行全局特征校准。首先,对至少两个第一模态特征信息进行池化操作,并将根据至少两个第一模态特征信息之间的互补关系将对池化后的至少两个第一模态特征信息进行拼接操作,从而得到全局特征信息。具体地,首先在自校准后的至少两个第一模态特征信息的通道维度使用最大池化和平均池化,然后将两种池化后的至少两个第一模态特征信息进行拼接操作,从而得到了全局特征信息。进一步地,在得到全局特征信息后,对全局特征信息使用卷积神经网络和激活函数(Sigmoid函数)获得至少两个通道维度融合权重即至少两个第一校准权重,最后,使用至少两个第一校准权重分别与第一校准权重对应的至少两个第一模态特征信息中的第一模态特征信息进行校准,从而得到至少两个所述第二模态特征信息。通过对至少两个第一模态特征信息进行全局校准,从而提高了多模特征信息的质量。

其中,具体公式如下:

Z=Concat(Avg(X

L

X

Y

其中,Concat表示拼接操作,Z是全局特征信息,AVG和MAX分别表示平均池化和最大池化,X

图4为本发明实施例提供的多模特征信息的获取方法的流程示意图之四;其中,通过注意力机制对至少两个第一模态特征信息进行局部校准,得到至少两个第四模态特征信息的步骤,包括:

S402:获取至少两个像素特征信息,其中,至少两个像素特征信息对应至少两个模态图像;

S404:根据注意力机制对至少两个像素特征信息进行处理,得到第二校准权重;

S406:根据第二校准权重对至少两个第一模态特征信息进行校准,得到至少两个第四模态特征信息。

在该实施例中,采用一种空间不变的核方法来对模态特征信息在像素特征信息的局部位置进行局部的特征校准,局部校准是在空间温度上对一个像素点特征周围的8个像素点的特征进行校准,具体地,首先分别获取相同坐标下的至少两个模态图像,然后对至少两个模态图像中的每个模态图像进行处理,得到至少两个像素特征信息,其中,像素特征信息是模态图像遍历的局部特征。最后使用注意力机制对至少两个像素特征信息进行处理,获得至少两个局部校准权重即第二校准权重,进一步地,使用至少两个第二校准权重分别对至少两个第一模态特征信息中与第二校准权重对应的第一模态特征信息进行校准,得到至少两个第四模态特征信息。

其中具体公式如下:

H

X

Y

其中,Att表示注意力机制,

进一步地,对三个维度校准以后的模态特征求和得到最终校准好的模态特征信息,即根据对应关系,对至少两个第二模态特征信息、至少两个第三模态特征信息以及至少两个第四模态特征信息进行处理得到至少两个第五模态特征信息。

其公式如下:

X

Y

其中,

图5为本发明实施例提供的多模特征信息的获取方法的流程示意图之五;其中,对至少两个第五模态特征信息的位置特征信息和纹理特征信息进行融合,得到多模特征信息的步骤之前,包括:

S502:获取第一卷积神经网络和第二卷积神经网络;

S504:根据第一卷积神经网络和至少两个第五模态特征信息得到至少两个第五模态特征信息的位置特征信息;

S506:根据第二卷积神经网络和至少两个第五模态特征信息得到至少两个第五模态特征信息的纹理特征信息。

在该实施例中,在对调整后的模态特征信息在位置特征信息和纹理特征信息两个层级进行融合的步骤,之前还需要分别来平衡至少两个第五模态特征信息中每个第五模态特征的位置特征信息和纹理特征信息。具体地,可以分别使用两个特殊的卷积神经网络即第一卷积神经网络和第二卷积神经网络来处理得到每个第五模态特征信息的位置特征信息和纹理特征信息。即,可以通过第一卷积神经网络分别对至少两个第五模态特征信息进行处理,从而得到每个第五模态特征信息的位置特征信息,通过第二卷积神经网络分别对至少两个第五模态特征信息进行处理,从而得到每个第五模态特征信息的纹理特征信息。

其具体公式如下:

X

X

Y

Y

其中,X

图6为本发明实施例提供的多模特征信息的获取方法的流程示意图之六;其中,对至少两个第五模态特征信息的位置特征信息和纹理特征信息进行融合,得到多模特征信息的步骤,包括:

S602:通过门控函数对至少两个第五模态特征信息的位置特征信息进行处理;

S604:通过门控函数对至少两个第五模态特征信息的纹理特征信息进行处理;

S606:通过门控函数对处理后的至少两个第五模态特征信息的位置特征信息和处理后的至少两个第五模态特征信息的纹理特征信息进行融合,得到多模特征信息。

在该实施例中,对调整后的模态特征信息在位置特征信息和纹理特征信息两个层级进行融合时,可以使用门控函数对模态特征信息的位置特征信息和纹理特征信息进行融合,从而得到最终的多模特征信息。具体地,首先使用两个门控函数分别将每个第五模态特征信息的位置特征信息和每个第五模态特征信息的纹理特征信息进行融合。最后,再一次使用门控函数将融合后的至少两个第五模态特征信息的位置特征信息和融合后的至少两个第五模态特征信息的纹理特征信息进行融合,从而得到了最终的多模特征信息。

其具体公式如下:

XY

XY

XY=Gated(XY

其中,Gated表示门控函数,X

进一步地,至少两个第四模态特征信息包括:颜色特征信息和深度特征信息。

在该实施例中,多模图像可以为RGB-D图像,对于RGB-D图像来说,是由彩色图像和深度图像组合而成的,因此,在至少两个第四模态特征信息可以包括颜色特征信息和深度特征信息,其中,颜色特征信息指的是彩色图像上的特征信息,深度特征信息指的是深度图像上的特征信息。通过从全局和局部的视角利用多模特征的互补性来校准颜色特征信息和深度特征信息。然后,通过提取和融合基本特征和形状特征来融合校准后的颜色特征信息和深度特征信息,其中基本特征提供几何位置,而形状特征提供纹理信息。所提出的特征校准和融合网络可以插入到基于视觉变换的双流骨干网络中,用于RGB-D语义分割。通过插入提出的特征校准和融合网络,可以大幅提高对RGB-D图像的分割准确率。

图7为本发明实施例提供的多模特征信息的获取方法的整体框架图之一;如图7所示,当至少两个第四模态特征信息为颜色特征信息即光学特征信息和深度特征信息时,首先对光学特征信息和深度特征信息输入至多模校准模块。在多模校准模块中,会利用不同模态图像间的互补性来相互校准,即从全局和局部视角分别校准光学特征信息和深度特征信息,从而提高了提取的多模特征信息的质量,进一步地,将校准后的光学特征信息和深度特征信息输入至多模融合模块,多模融合模块将校准后的光学特征信息和深度特征信息分别在位置特征信息和纹理特征信息这两个层次进行融合,得到多模特征信息,从而提高了融合后的多模特征信息的表达能力,最后将融合后的多模特征信息进行结果检测,具体地,可以将多模特征信息校准和融合网络插入到基于视觉变换的双流骨干网络中,进行RGB-D语义分割。通过得到的检测结果可以发现本发明所提出的多模特征信息校准和融合网络,可以大幅提高对RGB-D图像的分割准确率。

图8为本发明实施例提供的多模特征信息的获取方法的整体框架图之二;如图8所示,当至少两个第四模态特征信息为颜色特征信息即光学特征信息和深度特征信息时,首先对光学特征信息和深度特征信息分别进行自校准,其中,自校准的方法可以为通过对应的通道注意力分别光学特征信息和深度特征信息进行自校准,从而实现了光学特征信息和深度特征信息自身在通道维度的调整。但是自校准不能利用多模特征之间的互补性,因此基于多模特征之间的互补性提出全局特征校准。即,自校准后的光学特征信息和深度特征信息还需要进行多模全局校准,具体地,首先,在自校准的光学特征信息和深度特征信息的通道维度使用最大池化和平均池化并拼接池化后的光学特征信息和深度特征信息得到全局校准输入,然后对全局校准输入使用卷积层和Sigmoid函数获得对应的全局校准权重,最后使用对应的全局校准权重分别对光学特征信息和深度特征信息进行校准。进一步地,在对光学特征信息和深度特征信息进行多模全局校准后,还需要对其进行多模局部校准,局部特征校准在空间维度对一个像素点特征周围的8个像素点的特征进行校准。具体地,分别取相同坐标下的光学图像和深度图像,使用注意力机制获得对应的局部校准权重,然后使用对应的局部校准权重分别对光学特征信息和深度特征信息进行局部校准,进一步地,获取最终校准后的光学特征信息和深度特征信息,具体地,将自校准前的光学特征信息、全局校准后的光学特征信息以及局部校准后的光学特征信息进行相加,从而得到最终校准后的光学特征信息,将自校准前的深度特征信息、全局校准后的深度特征信息以及局部校准后的深度特征信息进行相加,从而得到最终校准后的深度特征信息。通过从全局和局部视角分别校准了多模图像的特征,提高了提取的多模特征的质量。进一步地,对最终校准后的深度特征信息和光学特征信息进行基-形特征平衡,具体地,首先通过两个特殊的卷积神经网络分别获取得到光学特征信息的位置特征信息和纹理特征信息,然后进行多模特征融合,具体地,将光学特征信息的位置特征信息和深度特征信息的位置特征信息进行融合,得到多模特征信息的位置特征信息,将光学特征信息的纹理特征信息和深度特征信息的纹理特征信息进行融合得到多模特征信息的纹理特征信息,最后将多模特征信息的位置特征信息和多模特征信息的纹理特征信息进行融合,从而得到完整的多模特征信息即融合特征。本发明先利用不同模态图像间的互补性来相互校准,然后设计一个多层级融合方法分别在位置特征和纹理特征这两个层级来融合多模特征。通过本发明提供的方法,融合后特征的表达能力得到增强,RGB-D图像分割的结果也得到了明显的提升。

进一步地,将本发明嵌入在双分支图像分割网络上,并在两个RGB-D融合分割数据集,也就是NYUDv2和SUN-RGBD上进行了实验。这其中,NYUDv2包含1449对RGB-D图像对,我们保持业界的常用设置,将795个样本设置为训练集,将剩下的654个样本作为测试集。SUNRGBD是一个大尺度的数据集,包含10335个RGB-D图像对,我们同样使用常规的分法将5285个样本作为训练集,将剩下的5050个样本作为测试机。最终在这两个数据集上的实验结果如表1和表2所示。实验结果表明本文方法较业界现有方法效果更好,证明了本文提出的方法在RGB-D语义分割任务的效果。

表1

表2

续表2

表1和表2是分别是在不同的数据集上采用不同的RGB-D多模融合图像分割的方法得到的数据,其中,骨干网络是RGB-D多模融合分割的一个基本组件,一般用来提取RGB图像和深度图像的特征,因为不同骨干网络的特征提取能力不同,因此不同的算法往往不会采用固定的骨干网络,因此有的方位用的骨干网络相同,有的方法用到骨干网络不相同。进一步地,PixAcc、mAcc和mIoU分别是图像分割的三个不同的指标,分别表示像素准确率、平均准确率和平均交并比。方法同时出现在两个表格中说明该方法同时在两个不同的数据集上进行了验证。通过比较可以看出本发明具有一定的优越性。具体地,在表1中,在NYUDv2数据集上,本发明在PixAcc、mAcc和mIoU这三个指标上都超过了业界最佳方法,分别是CEN、CEN和Omnivore。在表2中,在SUN RGBD数据集上,本发明也同样在PixAcc、mAcc和mIoU这三个指标上都超过了业界最佳方法,也就是CEN、CEN和UCTNet。综上,本发明提出了一种新型的具有极佳表现的RGB-D图像分割方法。

图9为本发明实施例提供的多模特征信息的获取系统的结构框图;其中,多模特征信息的获取系统90包括:

第一校准模块902,用于通过卷积神经网络和激活函数对至少两个第一模态特征信息进行全局校准,得到至少两个第二模态特征信息;其中,至少两个第一模态特征信息为通过多层感知机对至少两个第三模态特征信息进行自校准得到,至少两个第三模态特征信息对应至少两个模态图像;

第二校准模块904,用于通过注意力机制对至少两个第一模态特征信息进行局部校准,得到至少两个第四模态特征信息;

处理模块906,用于对至少两个第二模态特征信息、至少两个第三模态特征信息以及至少两个第四模态特征信息进行处理得到至少两个第五模态特征信息;

融合模块908,用于对至少两个第五模态特征信息的位置特征信息和纹理特征信息进行融合,得到多模特征信息。

本发明提供的多模特征信息的获取系统90,包括第一校准模块902、第二校准模块904、处理模块906以及融合模块908。其中,首先在多模图像中获取至少两个模态图像,然后在至少两个模态图像中的每个模态图像中获取第三模态特征信息,从而得到至少两个第三模态特征信息,第三模态特征信息指的是每个模态图像中的所包含的信息。进一步地,利用多层感知机对至少两个第三模态特征信息进行自校准,得到至少两个第一模态特征信息,通过对至少两个第三模态特征信息进行自校准,可以减少外部环境的影响。进一步地,分别从全局和局部的视角利用至少两个第一模态特征信息的互补性来校准至少两个第一模态特征信息,具体地,第一校准模块902通过卷积神经网络和激活函数(Sigmoid函数)来对至少两个第一模态特征信息中的每一个第一模态特征信息进行全局校准,得到至少两个第二模态特征信息;第二校准模块904通过注意力机制对至少两个第一模态特征信息中的每一个第一模态特征信息进行局部校准,得到至少两个第四模态特征信息,然后处理模块906根据对应的关系将至少两个第二模态特征信息、至少两个第三模态特征信息以及至少两个第四模态特征信息进行求和处理,从而得到至少两个第五模态特征信息,通过对至少两个第一模态特征信息进行全局和局部的校准,从而提高了获取的多模特征信息的质量。进一步地,融合模块908对至少两个第五模态特征信息中的每个第五模态特征信息的位置特征信息和纹理特征信息进行融合,得到融合后的位置特征信息和纹理特征信息,然后将融合后的位置特征信息和纹理特征信息再进行融合,从而得到了本发明想要获取的多模特征信息,其中,位置特征信息提供的是几何位置,纹理特征信息提供的是纹理信息,通过将至少两个第五模态特征信息在位置特征信息和纹理特征信息两个层级进行融合,从而可以提高获取的多模特征信息的表达能力。

进一步地,通过多层感知机对至少两个第三模态特征信息进行自校准的步骤,包括:对至少两个第三模态特征信息进行池化操作;根据多层感知机和池化后的至少两个第三模态特征信息,得到至少两个通道注意力的权重;根据至少两个通道注意力的权重分别对至少两个第三模态特征信息进行自校准,得到至少两个第一模态特征信息。

在该实施例中,在对至少两个第三模态特征信息进行自校准,也就是使用通道注意力对每个第三模态特征信息进行自校准,其中,方法为:首先对至少两个第三模态特征信息中的每一个第三模态特征信息进行池化操作,然后根据多层感知机分别对池化后的第三模态特征信息进行处理,确定至少两个通道注意力的权重,具体地,对至少两个第三模态特征信息中的每个第三模态特征信息在空间维度使用平均池化和最大池化获取至少两个通道级的统计信息,然后使用多层感知机分别对至少两个通道级的统计信息进行处理,得到至少两个通道注意力的权重,进一步地,在得到至少两个通道注意力的权重后,利用至少两个通道注意力的权重分别对与通道注意力的权重对应的第三模态特征信息在通道维度上进行乘法处理就实现了第三模态特征信息的自校准,通过对至少两个第三模态特征信息中的每个第三年模态特征信息进行自校准,实现了模态特征信息自身在通道维度上的调整。

进一步地,第一校准模块902具体用于对至少两个第一模态特征信息进行池化操作;将池化后的至少两个第一模态特征信息基于至少两个第一模态特征信息之间的互补关系进行拼接,得到全局特征信息;根据全局特征信息、卷积神经网络以及激活函数得到第一校准权重;根据第一校准权重对至少两个第一模态特征信息进行校准,得到至少两个第二模态特征信息。

在该实施例中,第一校准模块902具体用于使用全局校准方法来建模不同模态全局依赖并基于这种依赖对模态特征信息在空间维度进行校准,自校准不能利用多个模态特征信息之间的互补性,因此,基于多个模态特征信息之间的互补性提出了对至少两个第一模态特征信息进行全局特征校准。首先,对至少两个第一模态特征信息进行池化操作,并将根据至少两个第一模态特征信息之间的互补关系将对池化后的至少两个第一模态特征信息进行拼接操作,从而得到全局特征信息。具体地,首先在自校准后的至少两个第一模态特征信息的通道维度使用最大池化和平均池化,然后将两种池化后的至少两个第一模态特征信息进行拼接操作,从而得到了全局特征信息。进一步地,在得到全局特征信息后,对全局特征信息使用卷积神经网络和激活函数(Sigmoid函数)获得至少两个通道维度融合权重即至少两个第一校准权重,最后,使用至少两个第一校准权重分别与第一校准权重对应的至少两个第一模态特征信息中的第一模态特征信息进行校准,从而得到至少两个所述第二模态特征信息。通过对至少两个第一模态特征信息进行全局校准,从而提高了多模特征信息的质量。

进一步地,第二校准模块904具体用于获取至少两个像素特征信息,其中,至少两个像素特征信息对应至少两个模态图像;根据注意力机制对至少两个像素特征信息进行处理,得到第二校准权重;根据第二校准权重对至少两个第一模态特征信息进行校准,得到至少两个第四模态特征信息。

在该实施例中,第二校准模块904具体用于采用一种空间不变的核方法来对模态特征信息在像素特征信息的局部位置进行局部的特征校准,局部校准是在空间温度上对一个像素点特征周围的8个像素点的特征进行校准,具体地,首先分别获取相同坐标下的至少两个模态图像,然后对至少两个模态图像中的每个模态图像进行处理,得到至少两个像素特征信息,其中,像素特征信息是模态图像遍历的局部特征。最后使用注意力机制对至少两个像素特征信息进行处理,获得至少两个局部校准权重即第二校准权重,进一步地,使用至少两个第二校准权重分别对至少两个第一模态特征信息中与第二校准权重对应的第一模态特征信息进行校准,得到至少两个第四模态特征信息。

进一步地,多模特征信息的获取系统90还包括提取模块,提取模块用于获取第一卷积神经网络和第二卷积神经网络;根据第一卷积神经网络和至少两个第五模态特征信息得到至少两个第五模态特征信息的位置特征信息;根据第二卷积神经网络和至少两个第五模态特征信息得到至少两个第五模态特征信息的纹理特征信息。

在实施例中,多模特征信息的获取系统90还包括提取模块,提取模块通过分别使用两个特殊的卷积神经网络即第一卷积神经网络和第二卷积神经网络来处理得到每个第五模态特征信息的位置特征信息和纹理特征信息。即,可以通过第一卷积神经网络分别对至少两个第五模态特征信息进行处理,从而得到每个第五模态特征信息的位置特征信息,通过第二卷积神经网络分别对至少两个第五模态特征信息进行处理,从而得到每个第五模态特征信息的纹理特征信息。

进一步地,融合模块908具体用于通过门控函数对至少两个第五模态特征信息的位置特征信息进行处理;通过门控函数对至少两个第五模态特征信息的纹理特征信息进行处理;通过门控函数对处理后的至少两个第五模态特征信息的位置特征信息和处理后的至少两个第五模态特征信息的纹理特征信息进行融合,得到多模特征信息。

在实施例中,融合模块908对调整后的模态特征信息在位置特征信息和纹理特征信息两个层级进行融合时,可以使用门控函数对模态特征信息的位置特征信息和纹理特征信息进行融合,从而得到最终的多模特征信息。具体地,首先使用两个门控函数分别将每个第五模态特征信息的位置特征信息和每个第五模态特征信息的纹理特征信息进行融合,最后,再一次使用门控函数将融合后的至少两个第五模态特征信息的位置特征信息和融合后的至少两个第五模态特征信息的纹理特征信息进行融合,从而得到了最终的多模特征信息。

进一步地,至少两个第四模态特征信息包括:颜色特征信息和深度特征信息。

在该实施例中,多模图像可以为RGB-D图像,对于RGB-D图像来说,是由彩色图像和深度图像组合而成的,因此,在至少两个第四模态特征信息可以包括颜色特征信息和深度特征信息,其中,颜色特征信息指的是彩色图像上的特征信息,深度特征信息指的是深度图像上的特征信息。

图10为本发明实施例提供的电子设备的结构框图;其中,电子设备100包括存储器1002、处理器1004及存储在存储器1002上并可在处理器1004上运行的计算机程序,处理器1004执行程序时实现第一方面或第一方面的任意可能的实现方式中的多模特征信息的获取方法的步骤。

根据本发明的第四方面,提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面或第一方面的任意可能的实现方式中的多模特征信息的获取方法的步骤。

虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。

类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。

由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

技术分类

06120116546726