掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的包含重复物体的场景图构建方法

文献发布时间:2024-04-18 19:59:31


一种基于深度学习的包含重复物体的场景图构建方法

技术领域

本发明属于图像处理技术领域,尤其涉及一种基于深度学习的包含重复物体的场景图构建方法。

背景技术

随着智慧城市、无人驾驶等新兴领域的不断发展,高精度的空间三维信息与城市建筑模型对于城市规划、地形勘测、精准导航等应用领域的意义也愈发重大。三维重建技术旨在借助相关的仪器装置,完成对真实场景三维信息的数字化再现。近年来,随着无人机与相机技术的高速发展,图像采集系统日趋成熟,基于多视图的三维重建技术得到了广泛关注,其主要运用多视图几何原理,从多个不同的视点对某个场景进行拍摄,根据所拍摄图像计算出相机姿态和重建场景三维结构。

基于多视图三维重建的首要步骤是构建图像数据的场景图(View Graph),对无序图像数据集进行有效“组织”。场景图是用来描述多视图图像之间匹配关系的图数据结构,由顶点和带权重的无向边组成,其中顶点表示图像,边表示两张图像的匹配程度。场景图技术的引入,使得从运动中恢复结构技术(Structure from Motion,SfM)可以根据场景图中已存在的图像匹配关系,再对图像进行特征点匹配、对极约束验证和相机位姿解算,避免了大量无关联图像之间的冗余计算,提高了SfM的效率,推动了多视图三维重建在实际场景的应用。

场景图的构建主要包括图像嵌入(Image Embedding)、图像匹配、误匹配去除三个步骤。首先,通过将图像数据集中每个图像进行图像嵌入,将图像映射到特定的特征空间,方便后续的处理和计算;然后,在特征空间中对图像特征进行相似性度量完成图像匹配,建立数据集中所有图像间的匹配关系图;最后通过多视图间的几何约束,对误匹配进行去除,从而得到最终的场景图。

当前,在实际重建场景中通常包含大量重复结构的对象(如具有重复结构建筑、人工物品等),目前的场景图构建算法难以处理包含这类场景的图像数据集,容易造成场景图构建错误,进而导致重建出错误或折叠的三维结构。图1展示了包含重复纹理图像数据集CUP,以及所构建的错误场景图、稀疏重建与稠密重建。综合分析,针对重复结构的场景图构建方法存在以下难点问题:

(1)图像嵌入方法对图像自身特征信息利用不充分。图像嵌入的目的是将图像变换为低维度特征向量,以方便后续计算和处理。当前图像嵌入方法往往更偏向于关注图像的全局语义特征,这种方式在区分不同类别图像时具有显著效果。但是在三维重建的数据集中,经常会出现具有重复或者对称场景的图像,在构建场景图时,如果仅仅依据图像的全局语义信息特征,容易造成对这类图像的误匹配,生成错误的场景图。

(2)图像之间的关联特征尚未挖掘。场景图构建所采用图像数据采集自同一场景,因此图像之间存在可挖掘利用的空间关联特征,可以用来完善图像在特征空间中的表示。如图2所示,虽然图像P和图像Q在特征层面相似,但是这两个图在特征空间中几乎没有共同的邻居,从而可以判断这两个节点不能匹配。

(3)图像匹配范式有待创新改进。当前图像匹配策略基本上是采用最近邻搜索的方式完成,即通过计算每对图像在特征空间中的距离是否大于某一阈值来判定图像对是否匹配。这种通过穷举比对的方式进行图像匹配,只考虑单个图像对之间的差异,场景图构建作为多图像匹配问题,图像匹配对之间也存在相互约束关系,而最近邻搜索的方法并未利用这种数据集层面的约束来提升场景图构建方法的鲁棒性。

因此,进一步研究适用于包含重复结构图像数据的场景图构建方法在学术界和工业界均具有重要意义。

本发明针对场景图构建这一关键问题进行研究,需要综合运用计算机视觉、多视图几何、图匹配等不同领域的研究成果,是基于多视图三维重建技术中的热点问题。为了较为准确把握学科前沿,本部分对场景图构建方法的研究现状及发展动态进行分析,并且对存在的问题进行归纳总结。

(1)基于图像内容检索的场景图构建方法

早期的多视图三维重建系统采用穷举方法对数据集中所有图像进行比对来完成图像之间的特征提取与匹配。由于其存在计算复杂度高冗余计算量大的问题,研究人员提出采用场景图技术对图像数据集中的图像数据进行重新“组织”,提高重建效率。场景图构建技术,是对数据集中相似图像建立匹配关系的过程。目前,图像检索技术是场景图构建的主要方法,其可分为基于词袋模型和基于深度学习两个方向。

基于词袋模型的传统方法

词袋(Bag of words,BoW)模型是图像特征表示中的一种重要方法。词袋模型的成功应用得益于三个方面:强大的局部描述子(SIFT等)的提出;成熟的度量方法(L1、Cosine等);高效的检索效率。基于词袋思想的词汇树(Vocabulary Tree)模型最先被提出来解决大规模SfM中的相关图像检索的问题,随后研究人员从查询准确性和查询效率两个方向对基于词袋模型的图像检索方法进行了深入研究与改进。查询效率方面,最小哈希方法(Min-Hash)和预滤波方法(pre-filtering)可以提高效率但是内存消耗大,GIST等更加紧凑的二元向量的提出在一定程度上缓解了这个矛盾,但是带来了鲁棒性不足的新问题,此外通过优化特征表示和索引算法可进一步提高查询效率。查询准确性方面,通过利用在量化阶段丢失的特征、汉明嵌入(Hamming Embedding)和成对几何匹配方法,降低词汇树中的量化误差从而提高查询准确性。词袋模型的主要缺陷在于:需要建立一个特征词汇足够丰富、体量较大的视觉词汇数据库;十分依赖手工设计的特征;需要人工设置诸多阈值、超参数等,较为依赖人工经验;且形成词袋的过程中丢失了特征的位置信息。

基于深度学习的方法

随着近年深度学习与卷积神经网络的兴起,基于CNN的图像检索方法应运而生。与BoW模型不同,基于CNN的图像检索方法主要依赖于从深度卷积神经网络模型中学习到的图像全局特征来表征图像。基于深度学习的方法主要包括三个方向:基于预训练(pre-trained)的网络模型、基于微调(fine-tuned)的网络模型以及混合式(Hybrid)的方法。基于预训练的方法使用在大型数据集(如ImageNet)上经过预训练的经典CNN模型来提取特征,并使用紧凑的编码池化技术来对特征进行修饰,这类直接使用分类网络模型强大的提取特征能力有效提升了图像检索结构;基于微调的方法将预训练的CNN模型在检索任务的训练集上进行微调,使用设计的网络和损失函数来监督学习,微调的方法可以提高模型的泛化能力和分辨能力;混合式的方法则是用CNN模型提取图像块的局部特征,用BOW模型来将其编码为全局特征,也有通过利用三维表面重建与三维模型重投影来学习图像特征描述子。深度学习的方法虽然在图像检索任务中取得了成功,但是该类方法主要针对具有明显语义区别的图像,而在多视图三维重建任务中的图像数据集中,图像可能包含多个相同语义信息物体(如重复结构的物体),或者图像甚至不包含具有明显语义信息,限制了其在多视图三维重建任务中的图像检索效果。

(2)重复结构图像数据场景图构建

最近,针对重复结构图像歧义消除引起了研究界的兴趣。根据所用技术的特点,现有方法可大致分为三类:对应关系约束,几何推理和拓扑推理。基于对应关系约束的方法利用三元组中的第三视图来推断两个视图之间的匹配关系正确与否,此外还通过结合缺失的对应线索和图像时间戳信息来估计图像匹配;几何推理方法根据计算出的几何信息来判别错误匹配,包括测地线一致性度量、贝叶斯网络的几何关系、3D结构与2D特征的几何相关性等;拓扑推理方法基于图来分析匹配对,可通过可见度图分析检测不良特征轨迹(featuretrack),或者借助后处理流水线分析3D点和的局部特征匹配情况,此外基于图约束的随机采样方案、场景图的骨架选择、循环执行拓扑约束等方法也一定程度上解决了重复结构图像数据场景图构建问题。以上方法均采用了基于图数据结构的拓扑信息,来约束场景图构建,但由于这些方法均基于传统的图理论,并未将其与目前的卷积神经网络方法相结合。

(3)图卷积神经网络与嵌入

最近,基于图神经网络(GNN)提取非欧结构数据的高阶特征编码技术被广泛关注,具体来说,非欧结构数据的节点特征是从相邻节点的特征聚合而成,不同的节点共享相同的激活函数。自图神经网络被提出以来,研究人员已经提出了许多基于GNN的图像嵌入方法,SNDE模型通过联合利用图的一阶与二阶特征对节点进行特征描述。与上述深度嵌入模型不同,一些浅层嵌入模型被提出使之可在大型网络上扩展,包括DeepWalk和基于skip-gram语言模型的node2vec。此外,LINE明确定义了一阶和二阶特征的相似度,并为这两个相似度构建启发式模型来进行图节点的特征嵌入。然而,这些方法不能用于图匹配的端到端学习,一定程度上限制了这些方法的广泛应用。

(4)图匹配技术(Graph Matching)

图匹配是一个组合优化问题,其定义为给定两张拓扑图,找到这两张拓扑图之间节点的对应关系。随着深度学习方法的兴起,利用学习的方法来寻求图匹配的有效解决方案成为当前研究领域的热点。其中,基于神经网络的方法来解决二次指派问题(quadraticassignment problem),这项工作重点是通过给定的相似矩阵来学习图匹配问题的求解器。此外,对于复杂度较低的线性指派问题(linear assignment problem),其可以用多项式复杂度的方法来解决,例如匈牙利算法。针对线性指派问题,最近也有提出基于深度学习的新方法来求解,Sinkhorn网络是为线性指派问题而提出来的匈牙利算法近似版本,由于其具有可微的特性广泛应用于图像特征点匹配的任务中。此外,Sinkhorn方法也被用到包括AutoEncoder等问题中取得了不错效果。随着深度学习与图匹配技术的深度结合,为图匹配技术提出了新的解决方案。而图匹配问题同本课题的多图像匹配问题具有类似的数学内核,因此如何利用图匹配的技术来解决场景图构建问题的一个有价值的探索方向。

从以上研究现状可以看出,尽管深度学习技术的出现使得场景图构建技术取得了较大进步,但是针对包含重复结构场景的处理差强人意,提升空间很大,迫切需要提出一些新方法新架构。就目前已有的工作来看,存在以下值得思考和研究的问题:

(1)图像特征嵌入方面,无论是传统方法还是深度学习方法,均只关注图像的全局语义信息表示,缺乏对具有相同语义信息的类内图像在特征表示上的差异化处理,导致当前的图像特征嵌入方法对于包含重复结构的相似图像区分能力较弱。因此,如何全面挖掘利用图像的局部特征和全局特征,以及如何将这些特征进行融合来提升图像特征的表示能力有待进一步研究。

(2)图卷积神经网络方法,展现了对非欧氏数据(图数据结构)处理的巨大的潜力。场景图数据具有非欧氏空间结构特性,图像节点之间的关系可以通过图卷积神经网络来建模,从而将图像之间的关系特征聚合到节点的特征中,提升图像特征表示能力。

(3)图像匹配模式方面,在当前基于深度学习的场景图构建方法中,图像匹配过程只关注匹配的两幅图像本身,并未利用多图匹配的图像对之间约束关系。而图匹配的方法可以从数据集的层面,找到两个拓扑图中节点的对应匹配关系。因此将场景图的构建同图匹配理论方法相结合,从全局优化的角度实现场景图构建思路亟待研究。

发明内容

本发明基于图卷积神经网络在场景图构建中的应用,解决以下三个关键科学问题:

(1)关注相似图像特征差异的图像嵌入方法

在多视图三维重建的场景图构建任务中,经常会处理重复或对称的场景图像数据,这些图像在视觉内容上极其相似,目前的图像嵌入方法大多只关注图像全局语义信息,较难区分这类图像。因此,如何设计针对相似图像的图像嵌入方法,结合图像全局特征、局部特征、位置特征等信息,来增强图像的特征表示,从而有效区分相同类别图像是本发明要解决的关键科学问题。

(2)图像之间特征描述与更新

数据集中图像之间的特征信息挖掘可以提升场景图构建的鲁棒性。图像数据集具有非欧氏结构特性,目前基于图卷积神经网络的方法展现了对非欧式结构数据进行建模与描述的巨大潜力,因此,如何采用图卷积模块来描述数据集中图像之间的空间关系特征表示、并将该特征融入到节点特征中,以及如何设计图卷积神经网络结构来提取和融合图数据结构特征是本发明的关键科学问题。

(3)多图像最优匹配问题

目前场景图构建中的图像匹配算法大都采用最近邻搜索算法,其可计算得到每个图像节点在数据集中的针对图像自身的最优解,然后通过遍历所有图像节点的方式来完成数据集中所有图像匹配。而多个图像的匹配过程是存在相互关联影响的,这也就意味着所有单个图像节点的最优匹配组合起来不一定是整个数据集图像匹配的最优结果。因此,如何提出新的求解多个图像匹配问题的最优解,以及如何设计可微的求解模型以保证该模型可与深度学习模型融合是本发明的关键科学问题。

基于以上分析,本发明聚焦多视图三维重建中场景图构建任务,通过引入自注意力机制、图卷积神经网络、最优传输理论等方法,以解决场景图构建中图像嵌入、图像间关联特征挖掘、多图像匹配等瓶颈科学问题。同时,针对场景图构建方法改进优化,可改善基于图像的三维数据获取的效率和鲁棒性,提升三维空间数据获取的能力,对推动多视图三维重建在实际场景的广泛应用提供有效的方法支撑。

具体地,本发明公开的一种基于深度学习的包含重复物体的场景图构建方法,包括以下步骤:

局部-全局特征融合的图像嵌入:具体包括:1)包含位置编码的图像全局特征提取方法,基于Transformer模型提取位置信息,并引入自注意力机制,提升图像全局特征的表示能力;2)通过构建卷积神经网络模型描述图像的局部特征;3)采用特征融合方法融合局部-全局特征,解决模型之间的特征错位问题;

基于图数据结构的图像特征更新:具体包括:1)基于图卷积操作的节点特征更新方式,通过设计图卷积操作模块,使节点特征既保留图像特征又融合数据集的空间特征;2)图数据结构节点连接关系动态预测,在图卷积神经网络中引入度量学习模块,依据节点特征动态更新节点之间的连接关系;3)通过图卷积模块的堆叠,构建图卷积神经网络模型;

基于最优传输理论的多图像匹配,具体包括:1)针对场景图构建中图像匹配特点,探索指派矩阵约束条件,为优化算法求解提供约束;2)引入可微的线性指派问题求解方法,使得模型在GPU上快速计算得到结果;

基于环路一致性约束的误匹配去除:具体包括:使用三角环路检索方法构建基于场景图的环路;利用环路中图像之间的几何约束关系,判定图像匹配对的正确与否,从而进行图像误匹配的去除。

进一步地,基于循环一致性的误匹配过滤,包括:

对于场景图中任意一对匹配上的图像(a,b),利用超图检索到包含该边的所有三角形{(a,i,b),i∈[0,n]},其中n表示三角环路的数量;

在每个三角形(a,i,b)中,通过特征点匹配和对极几何运算,解算出三角环路中每条边的相对旋转R

R

称该约束为循环一致性约束;

对循环一致性约束进行松弛,通过设置阈值t,如果R

进一步地,为了同时利用图像的局部与全局特征,使用两分支并行结构的网络模型,一个分支为CNN网络用于提取图像局部特征,一个分支为Transformer结构用来提取图像全局特征,同时使用特征融合模块,将两个分支中不同层级之间的特征交换融合,将Transformer中的全局上下文信息提供给局部特征提取网络,同步将CNN网络提取的局部特征反馈到Transformer网络中,提升Transformer分支中局部细节感知能力,最终图像嵌入向量为两个分支网络输出的组合。

进一步地,所述CNN网络由四个卷积模块组成,每个模块由3个BottleNecks组成;所述Transformer分支由4个Transformer模块组成,每个模块由3个Transformer结构,每个Transformer结构包括一个多头自注意力模块和一个多层感知机模块;

所述特征融合模块,首先通过1×1的卷积来对齐两个分支的通道数,再分别经过LayerNorm与BatchNorm正则化后将信息融入到各自分支中,最后,将两个分支输出的特征向量进行连接,得到最终的图像嵌入向量。

进一步地,采用图卷积的方法对图中节点特征进行基于图拓扑连接结构的更新聚合,节点特征更新方法依据其自身特征和邻接节点的特征共同决定。

进一步地,所述图卷积操作包括:

将节点特征矩阵H

其中W

其中

进一步地,使用度量函数计算节点之间的特征相似性,所述度量函数

度量函数的输入为两个节点特征差的绝对值,以保证度量函数的交换性;

度量函数MLP的权重将和图卷积神经网络通过端到端联合训练得到;最后,邻接矩阵A

其中

本发明的有益效果如下:

本发明提出全局-局部特征融合的图像嵌入思想,通过结合Transformer模型和卷积神经网络模型分别在全局特征和局部特征提取上的优势,从特征层面提升图像的区分能力是本发明的第一个创新与特色之处。视觉Transformer模型级联的自注意力机制可对图像的全局特征进行有效提取,卷积神经网络则擅长对图像的局部特征进行了定量描述,本发明通过构建并行的局部-全局特征提取网络以及设计并行网络各个中间层的特征融合模块,实现区分能力更强的特征表示的图像嵌入。

(2)图像之间特征挖掘方面

针对场景图构建的数据集采集自同一场景,图像之间存在关联关系的这一特性,本发明采用图卷积神经网络的方式将数据集中图像的连接关系特征嵌入到图像节点特征,来进一步提升图像的特征表示能力是本发明的又一个创新点。图卷积神经网络可以深度挖掘图数据中的结构信息,且对处理复杂性、不规则的非欧氏图数据的分类和连接预测有天然优势。

(3)多图像匹配算法创新

针对场景图构建这类多图像匹配问题,本发明将该问题转化为数据集自身到自身的最优指派问题,并给出了可微的求解方法,保证网络端到端模式的设计是本发明的创新之处。将多图像匹配问题转化为指派问题,改变了传统匹配方法未考虑多个图像互相匹配时图像之间具有约束的缺陷,通过对指派矩阵约束条件的设计,结合优化算法可得到全局条件下的场景图构建最优解。

附图说明

图1本发明的框架图;

图2图像嵌入网络结构;

图3基于图卷积的特征聚合神经网络结构;

图4度量函数网络结构;

图5环路一致性约束示意图;

图6图像嵌入探索实验结果;

图7图卷积神经网络探索实验结果。

具体实施方式

下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。

本发明围绕包含重复场景图像的三维重建中场景图构建问题展开,通过对图像嵌入、图像间关系挖掘、图匹配、误匹配去除等方法的研究,来提升场景图构建的鲁棒性。具体研究内容包括以下四个部分:

(1)局部-全局特征融合的图像嵌入方法

图像嵌入是场景图构建的首要步骤,对最终生成的场景图有着至关重要的影响。为了能够准确描述与利用图像各个维度层面的特征,提升相似图像在特征空间中的差异性,本发明将研究局部-全局特征提取和融合的方法,具体包括:1)包含位置编码的图像全局特征提取方法,基于Transformer的模型,通过位置信息与自注意力机制的引入,提升图像全局特征的表示能力;2)图像局部特征的提取方法,通过构建卷积神经网络模型描述图像的局部特征;3)特征融合方法,由于局部特征和全局特征的提取模型的异构,导致模型之间的特征存在错位,需要研究特征融合方法来进行局部-全局特征的融合。

(2)基于图数据结构的图像特征更新方法

场景图的构建涉及到多个图像之间的匹配,充分挖掘利用数据集中图像之间的连接关系可以提升场景图构建的准确性。本发明将研究基于图数据结构的图像特征更新方法,通过采用图数据结构来描述数据集,利用图卷积神经网络来迭代更新图像节点特征,将高阶的拓扑空间信息融入到节点特征中,进一步提升图像节点的表示能力。具体研究内容包括:1)基于图卷积操作的节点特征更新方式,通过设计图卷积操作模块,使节点特征既保留图像特征又融合数据集的空间特征;2)图数据结构节点连接关系动态预测,节点的连接关系是图卷积操作中的重要输入,由于节点特征在神经网络中是持续更新的,因此节点之间的连接关系是动态变化的,本发明将研究在图卷积神经网络中引入度量学习模块,依据节点特征动态更新节点之间的连接关系;3)图卷积神经网络结构的设计,通过图卷积模块的设计堆叠,构建适合本发明的图卷积神经网络模型;

(3)基于最优传输理论的多图像匹配方法

依据对图像的特征嵌入,确定节点之间的匹配关系是场景图构建的关键步骤。当前图像匹配只考虑单个图像匹配对之间特征差异,并未考虑从全局层面进行多个图像匹配对之间的约束,因此本发明将探究基于最优传输(Optimal Transport)理论的多图像匹配方法,通过将多个图像之间的匹配问题转化为数据集自身到自身的指派问题,并探索可微的求解方法,为实现端到端的场景图构建提供支持。具体研究内容包括:1)指派矩阵约束条件设计,针对场景图构建中图像匹配特点,探索指派矩阵约束条件,为优化算法求解提供约束;2)引入可微的线性指派问题求解方法,使得模型可在GPU上快速计算得到结果,同时为设计端到端的神经网络模型打下基础。

(4)基于环路一致性约束的误匹配去除方法

在完成场景图构建之后,本发明将对场景图进行误匹配去除的后处理,通过探索挖掘数据之间存在的环路一致性约束,对场景图中的误匹配进行剔除,进一步提升场景图构建的正确性。具体研究内容包括:1)基于场景图的环路构建方法,借鉴已有算法引入高效的三角环路检索方法;2)三角环路一致性约束设计,通过分析利用环路中图像之间的存在的几何约束关系,来判定图像匹配对的正确与否,从而进行图像误匹配的去除。

本发明的研究目标是,通过分析研究多视图三维重建中场景图构建的难点,针对场景图构建中的图像嵌入方法、图卷积神经网络构建、多图像匹配、误匹配去除等科学问题进行深入研究,在基于Transformer的图像特征嵌入、基于图卷积神经网络的图像空间特征聚合、基于最优传输理论的图像匹配等关键技术上实现突破。

如图3所示,本发明具体包括四个方面的内容:局部-全局特征相融合的图像嵌入方法、基于图卷积神经网络的多图像特征聚合、可微的基于最优传输理论的场景图构建方法。

(1)局部-全局特征相融合的图像嵌入方法

局部特征和全局特征是描述图像的两类重要的描述子,是图像嵌入均需要关注的特征。在深度学习时代,卷积神经网络(CNN)通过卷积运算以分层的方式提取图像的局部特征,并以此支撑计算机视觉领域中的各类上层应用。近两年随着Transformer进入计算机视觉领域,其通过级联的自注意力机制与位置编码机制将带位置信息的图像块聚合成图像全局表示的方式,将图像特征提取与嵌入理论向前推进。

本发明为了同时利用图像的局部与全局特征,使用两分支并行结构的网络模型,一个分支为CNN网络用来提取图像局部特征,一个分支为Transformer结构用来提取图像全局特征,同时本发明还使用特征桥接单元(特征融合模块),用来实现两个分支中不同层级之间的特征交换融合,将Transformer中的全局上下文信息提供给局部特征提取网络,同步也将CNN网络提取的局部特征反馈到Transformer网络中,提升Transformer分支中局部细节感知能力,最终图像嵌入向量为两个分支网络输出的组合。图像嵌入的网络结构如图4所示。

输入图像大小为224×224,经过两层卷积神经网络得到初始特征,然后将初始的特征送入双分支网络。CNN分支由四个卷积模块组成,每个模块由由3个BottleNecks组成,其中BottleNeck的设计借鉴了Resnet网络中的设计。Transformer分支由4个Transformer模块组成,每个模块由3个包括一个多头自注意力模块和一个多层感知机模块的Transformer结构组成。由于CNN分支和Transformer分支中的特征图存在尺度上的差异,为了消除这个差异,本发明在并行网络的不同层级的卷积模块和Transformer模块间添加特征融合模块,实现在多个分辨率层级上的局部-全局特征交互式融合。其中,特征融合模块首先通过1×1的卷积来对齐两个分支的通道数,再分别经过LayerNorm与BatchNorm正则化后将信息融入到各自分支中。最后,将两个分支输出的特征向量进行连接,得到最终的图像嵌入向量。

(2)基于图卷积神经网络的多图像特征聚合

对图像进行特征嵌入之后,本发明采用图卷积神经网络依据数据集中图像之间的关系对每个图像的特征进行更新,通过对数据集的图数据结构建模,采用图卷积操作,将图像之间的连接特征嵌入到节点特征中,以此进一步提高每个图像特征的表示能力。图卷积神经网络结构如图5所示,由4个特征聚合模块堆叠而成,每个特征聚合模块包括两个部分:基于图卷积的节点特征聚合与基于度量学习的节点关系更新。

基于图卷积的节点特征聚合

本发明采用图卷积的方法对图中节点特征进行基于图拓扑连接结构的更新聚合,节点特征更新方法依据其自身特征和邻接节点的特征共同决定。根据这个模式,本发明的图卷积操作如下,令

其中W

其中

如此,在图卷积学习过程中,每个图节点特征会被与其连接的所有节点特征所影响,隐式地将数据集的连接特征嵌入到每个节点特征中,增强了节点的特征表示能力。

基于度量学习的节点关系更新

图卷积操作会更新图中节点特征,因此节点连接关系也会随之发生变化,本发明采用结合度量学习的方法动态更新节点连接关系,通过在每层图卷积网络之间加入度量学习网络,训练过程中动态更新图的连接关系A

本发明使用度量函数来计算节点之间的特征相似性,该度量函数

其中

(3)基于最优传输理论的场景图构建

本发明将场景图构建问题转化为指派问题,并采用最优传输理论的方式来求解。基本思路是将场景图构建看作图像数据集从自身到自身的最优指派问题,以节点之间相似度矩阵A∈R

指派矩阵约束条件

指派矩阵的约束是从数据集层面引入约束条件,使得图像匹配过程考虑了多个图像之间的关系。针对本发明的场景图构建问题,由于是数据集自身到自身的最优指派,因此指派矩阵对角线元素为1,同时在指派匹配时,可根据需要设置每张图像最多指派的图像数量a,以及每张图像最多被指派的图像数量b。在场景图构建的任务中,一般要求每个图像至少有5个以上的匹配对,场景图才有可解性(进行后续的图像对之间本质矩阵求解和位姿解算)。因此,综合以上分析,指派矩阵具有以下约束条件:

其中

基于可微的Sinkhorn算法求解

基于以上约束的最优指派矩阵P求解问题,即求解具有相似矩阵为A的两个分布之间的最优传输问题。本发明采用Sinkhorn算法求解,Sinkhorn算法是一种可微的匈牙利算法,其通过对相似度矩阵A先逐行做归一化,再逐列做归一化,重复以上的两步骤T次(T一般设置为100次),最终可以收敛到一个行与列之和分别为a的和b的双线性矩阵,这个双线性矩阵就是求解得到的最优指派矩阵。优化完成之后,本发明增加一个阈值超参数,保证优化后的指派矩阵中元素非0即1,即最终得到的匹配矩阵。可微的指派问题求解方法的引入,使得基于深度学习的场景图构建方法可采用端到端的方式实现。

(4)基于环路一致性约束的误匹配去除

本发明将在构建好的场景图进行后处理,通过环路一致性约束对图像误匹配进行过滤。基本思路是以研究内容3中构建的场景图为基础,首先利用图的拓扑三角形枚举方法,找到场景图中每条边被包含的所有三角形,然后通过计算三角形中旋转矩阵的一致性,判断该条边所代表的匹配是否为误匹配。具体的,如图7所示,对于由五张图像所构建的场景图,判断图像1和图像2之间的匹配正确与否,可通过找到所有与这两图像均匹配的图像(图像3和图像5),将这些图像分别与图像1和2构成三角环路,如果图像匹配结果正确,那么这三张图像之间的相对旋转矩阵一定会满足环路一致性约束。对于当前匹配对超过一定阈值比例的三角环路不满足循环一致性约束,那么当前这个匹配对就是误匹配,进行去除。

基于拓扑三角形的超图构建

本发明通过构建了一个基于拓扑三角形的超图(Hypergraph)来描述场景图的高阶信息,方便后续循环一致性约束的执行。在这个超图中,节点集与场景图的节点集保持一致,边集则表示包含所连接的两个节点的所有三角形环路,也就是说这两个节点被包含在多少个三角环路中,超图中这两个节点就有相应数量的边。为了提高效率,本发明不采用穷举的方法来构建超图,而是采用三角形枚举技术来快速高效构建。

基于循环一致性的误匹配过滤

对于场景图中任意一对匹配上的图像(a,b),可以利用超图检索到包含该边的所有三角形{(a,i,b),i∈[0,n]},其中n表示三角环路的数量。在每个三角形(a,i,b)中,通过特征点匹配和对极几何运算,可解算出三角环路中每条边的相对旋转R

R

我们称该约束为循环一致性约束。在实际执行过程中,由于特征点检测算法外点的存在,本发明对循环一致性约束进行了松弛,通过设置阈值t,如果R

(5)训练数据集与损失函数设计

本发明采用GL3D数据集作为训练数据。GL3D是一个为3D重构和与几何相关的学习问题而创建的大型数据库,数据内容涵盖城市、农村地区或风景名胜区以及具有重复结构的小对象,数据集包含125623张高清图像,涵盖543个不同场景,具有丰富的多样性。同时,GL3D数据集中提供了每对图像的几何重叠关系以及重叠率,是图像匹配关系的定量描述,也就是真值。

网络训练过程中,每组图像数据集经图像嵌入与最优指派网络后得到的图像之间的匹配预测结果,将预测结果同真值结果采用交叉熵(cross-entropy)损失函数作为目标函数来训练优化网络。损失函数如式(6)所示。

其中n为图像节点数量,y

对于场景图的评价方式,本发明采用colmap三维重建框架,通过替换其中场景图,执行SfM步骤得到的三维数据的稀疏点云,通过分析计算稀疏点云的重投影误差评价场景图的优劣。

为了验证本发明技术方案的有效性和可行性,本申请人利用已有数据和设备,做了以下两组的原理性验证试验:

基于Transformer模型的图像嵌入

采用视觉Transformer预训练模型,采用随机位置编码和本发明技术方案中提出的图像预处理和分块方法,对CUP数据集中的图像进行图像嵌入,并计算图像特征之间的L1欧氏距离来评价图像嵌入方法的有效性。通过和采用ResNet50的预训练模型进行图像嵌入方法进行对比,采用了随机位置编码的视觉Transformer预训练模型的方法在处理包含重复结构场景的数据集时,比基于传统卷积神经网络的预训练模型产生较少的图像错误匹配。

图卷积神经网络

图卷积神经网络目前已经图像聚类的任务中得到了广泛的运用,并且取得了突破性的成果。本发明申请人前期利用公开的图卷积神经网络代码,在图像检索公开天坛数据集进行了探索实验,经过图卷积网络方法进行图像嵌入之后,基于最近邻搜索方法的场景图的构建减少了大量的错误匹配,得到了较好的结果。

(2)数据储备与验证

深度学习算法的效果好坏很大程度上依赖数据集的数量和质量。针对本发明所研究问题,目前许多科研机构推出了一些高质量的公开数据集,如GL3D、1DSfM、ambiguousdatasets等。这些数据集涵盖城市、农村、风景名胜区以及具有重复结构的小对象等多个场景,数据集具有丰富的多样性,为基于深度学习算法提供了数据保障。

与现有技术相比,本发明有以下三个方面的有益效果:

(1)图像特征嵌入方面

本发明提出全局-局部特征融合的图像嵌入思想,通过结合Transformer模型和卷积神经网络模型分别在全局特征和局部特征提取上的优势,从特征层面提升图像的区分能力是本发明的创新与特色之处。视觉Transformer模型级联的自注意力机制可对图像的全局特征进行有效提取,卷积神经网络则擅长对图像的局部特征进行了定量描述,本发明通过构建并行的局部-全局特征提取网络以及设计并行网络各个中间层的特征融合模块,实现区分能力更强的特征表示的图像嵌入。

(2)图像之间特征挖掘方面

针对场景图构建的数据集采集自同一场景,图像之间存在关联关系的这一特性,本发明采用图卷积神经网络的方式将数据集中图像的连接关系特征嵌入到图像节点特征,来进一步提升图像的特征表示能力是本发明的又一个创新点。图卷积神经网络可以深度挖掘图数据中的结构信息,且对处理复杂性、不规则的非欧氏图数据的分类和连接预测有天然优势。

(3)多图像匹配算法创新

针对场景图构建这类多图像匹配问题,本发明将该问题转化为数据集自身到自身的最优指派问题,并给出了可微的求解方法,保证网络端到端模式的设计是本发明的创新之处。将多图像匹配问题转化为指派问题,改变了传统匹配方法未考虑多个图像互相匹配时图像之间具有约束的缺陷,通过对指派矩阵约束条件的设计,结合优化算法可得到全局条件下的场景图构建最优解。

本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。

而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。

综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术分类

06120116524280