联合混合尺度特征描述子与邻居一致性的图像匹配方法

文献发布时间：2023-06-19 19:30:30

技术领域

本发明属于基于深度学习的计算机视觉技术领域，主要涉及了联合混合尺度特征描述子与邻居一致性的图像匹配方法。

背景技术

图像特征匹配是指在同一三维场景的两个二维视图之间建立点到点的对应关系，图像匹配是许多下游三维计算机视觉任务的基石，包括三维重建、视觉定位、运动结构(SfM)、同步定位和映射(SLAM)等。给定一对图像，传统的特征匹配方法是：(1)特征检测(2)特征描述(3)特征匹配(4)剔除离群点。

早期的特征匹配方法趋向于人工设计出特征点提取器和描述子，并取得了一定的成功。近些年来深度学习方法采用数据驱动策略，可以获得对光照和视角变化更加鲁棒的描述子，卷积神经网络最先被采用作为特征点检测和描述的工具。近年来为了扩大感受野和聚合更大的上下文信息，Transformer被广泛应用于特征匹配中。受部分场景中大量的稀疏纹理影响，特征点的可重复性变差且更难被提取出来，无特征点检测器的方法趋向于先建立视图间的密集匹配，在提取出可靠的匹配加以精修。然而卷积神经网络提取出的特征经过多层下采样会丢失细粒度的细节信息，无法正确在场景中的小物体上建立正确的匹配。如何克服学习到的描述子既有丰富的细粒度细节，又能对各种几何变形鲁棒，就成了本领域技术人员亟待解决的问题。

发明内容

本发明正是针对现有技术中无特征点检测器方法均存在缺陷的问题，提供联合混合尺度特征描述子与邻居一致性的图像匹配方法，所述方法依次经过基于卷积与注意力混合和基于增强自注意力网络后，将不同尺度的特征描述子在特征维度上拼接，获得初始的分配矩阵，初始匹配点对经过基于一个共享权重的图神经网络后，修正分配矩阵，实现图像匹配。本发明通过融合单尺度特征描述子和多尺度特征描述子，避免由于卷积神经网络中的下采样操作带来的细节损失，同时考虑邻居一致性来保证匹配的几何一致性，最终达到准确性高的匹配效果。

为了实现上述目的，本发明采取的技术方案是：联合混合尺度特征描述子与邻居一致性的图像匹配方法，所述方法依次经过基于卷积与注意力混合和基于增强自注意力的网络后，将不同尺度的特征描述子在特征维度上拼接，获得初始的分配矩阵，初始匹配点对经过基于一个共享权重的图神经网络后，修正分配矩阵，实现图像匹配。

作为本发明的一种改进，所述方法包括以下步骤：

S1，特征提取：对输入的从不同视角拍摄同一画面的原图片经过FPN网络进行不同分辨率的特征提取，经由特征提取得到的特征图具有不同的空间分辨率和语义信息，原图像1/2分辨率大小的特征图和1/8大小的特征图被用作下一步的特征描述；

S2，单尺度特征描述；将步骤S1获得的1/8大小的特征图位置编码后输入基于卷积与注意力混合的神经网络，得到单尺度特征描述子；所述基于卷积与注意力混合的神经网络中的混合自注意力层额外增加了一个卷积分支而交叉注意力层则保持不变，混合自注意力层的卷积分支恢复了原图像的局部几何结构而注意力分支进行特征内部的信息交互；交叉注意力层实现不同特征的信息交互，更新每一层的特征；

S3，多尺度特征描述；将步骤S1中获得的从不同视角拍摄的原图片作为输入，输入至基于增强自注意力的网络中，输出多尺度的特征描述子；所述基于增强自注意力的网络中增强自注意力中的键矩阵(K)和值矩阵(V)在不同自注意力头中以不同的比例下采样，每一个自注意力头进行不同尺度特征的信息传递，生成多尺度的特征描述子；

S4，不同尺度特征融合：将步骤S2获得的单尺度特征描述子和步骤S3获得的多尺度特征描述子在特征维度上进行拼接；

S5，将步骤S4获得的混合尺度描述子输入最优匹配层，得到初始的分配矩阵；基于设置的阈值，选取初始的匹配点对；

S6，邻居一致性滤除外点：将步骤S4获得的初始匹配点对建模成图结构，输入到一个共享权重的图神经网络，图神经网络的输出被用于修正初始的分配矩阵，获取新的匹配点对。

S7，匹配精修：将步骤S1获得的1/2大小的特征图和步骤S4获得的混合描述子输入到一个全连接神经网络中，得到增强的1/2大小的特征图；所得特征图和步骤S6获得的像素级精度的新匹配点对输入到一个匹配精修网络，输出亚像素级精度的最终匹配，从而构建了完整的图像匹配模型，实现图像匹配。

作为本发明的一种改进，所述步骤S2中将1/8大小的特征图进行位置编码并重新排列成一维张量；经由卷积与自注意力融合的混合自注意层和交叉注意力层，得到单尺度特征描述子

作为本发明的一种改进，所述步骤S2中基于稀疏的注意力图神网络训练过程具体为：

混合自注意力机制和交叉注意力机制在网络中不同层交替使用。当使用混合自注意力机制时，在特征图内学习每个像素之间的相似性；当使用交叉注意力机制时，学习特征图间每个像素的相似性，最终通过一层全连接神经网络得到网络层与层之间传递的信息。

作为本发明的另一种改进，所述步骤S3进一步包括：

S31：对键矩阵(K)和值矩阵(V)在不同自注意力头中以不同的比例下采样，

式中，X表示输入的特征，

S32：步骤S31获得的查询矩阵(Q)，键矩阵(K)和值矩阵(V)进行信息传递，

式中d

作为本发明的另一种改进，所述步骤S4中的同维度操作具体包括：将256维的单尺度特征描述子和128多尺度特征描述子在特征维度上拼接得到384维的特征描述子。

作为本发明的又一种改进，所述步骤S5具体为：先计算两个混合描述子

式中，τ是一个常数，<·>表示内积。相似度矩阵作为部分指派问题的代价矩阵，求解这个部分指派问题可以得到最优解置信度分配矩阵，从而得到初始匹配。

作为本发明的更进一步改进，所述步骤S6中，提取出对应点对的稀疏描述子，通过内积计算出稀疏的相似度矩阵P，图像间点集的对应关系可以看作是图结构中节点的对应关系，从而构建出节点矩阵R

式中Ψ是图神经网络，d

作为本发明的更进一步改进，所述步骤S7中，在增强的1/2原图大小的特征图中，以每个匹配点为中心，截取5×5大小的局部窗口，这些窗口经由序列化后，经由所述步骤S2中的单尺度特征描述网络，得到局部细粒度描述子，分别计算每一个匹配点处的描述子在另一张图的局部细粒度描述子上的峰值响应，得到最终亚像素精度的最终匹配结果。

与现有技术相比，本发明具有的有益效果：

1、本发明改进了无特征点检测器的特征匹配方法，给单尺度特征描述子补充了局部几何结构信息。

2、本发明联合了混合尺度特征描述子，既增强了特征描述子的显著性又保持了描述子对光照和视角变换的鲁棒性。

3、本发明设计了一种新颖的外点滤除方法，检验获得的初始匹配是否具有邻居一致性，增强了匹配结果的可靠性，在三维重建、视觉定位与导航等领域有着广泛的应用前景。

附图说明

图1是本发明方法的步骤流程图；

图2是本发明实施例2中使用本发明方法后的图片匹配示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

联合混合尺度特征描述子与邻居一致性的图像匹配方法，如图1所示，包括以下步骤：

S1，特征提取：对输入的从不同视角拍摄同一画面的图片经过FPN网络进行不同分辨率的特征提取。特征提取的特征图具有不同的空间分辨率和语义信息，原图像1/2分辨率大小的特征图和1/8大小的特征图被用作下一步的特征描述；

S2，单尺度特征描述：将步骤S1获得的1/8大小的特征图位置编码后输入基于卷积与注意力混合的神经网络，得到单尺度特征描述子；所述基于卷积与注意力混合的神经网络中的混合自注意力层额外增加了一个卷积分支而交叉注意力层则保持不变，混合自注意力层的卷积分支恢复了原图像的部分几何结构而注意力分支进行特征内部的信息交互；交叉注意力层实现不同特征的信息交互，更新每一层的特征；

S4，不同尺度特征融合：将步骤S2获得的单尺度特征描述子和步骤S3获得的多尺度特征描述子在特征维度上进行拼接；

S5，将步骤S4获得的混合尺度描述子输入最优匹配层，得到初始的分配矩阵；基于设置的阈值，选取初始的匹配点对；

S6，所述步骤S6中，提取出对应点对的稀疏描述子，通过内积计算出稀疏的相似度矩阵P，图像间点集的对应关系可以看作是图结构中节点的对应关系，从而构建出节点矩阵E

式中Ψ是图神经网络，d

S7，将步骤S1获得的1/2大小的特征图和步骤S4获得的混合描述子输入到一个全连接神经网络中，得到增强的1/2大小的特征图；所得特征图和步骤S6获得的像素级精度的新匹配点对输入到一个匹配精修网络，输出亚像素级精度的最终匹配。

实施例2

联合混合尺度特征描述子与邻居一致性的图像匹配方法，包括以下步骤：

S1：将输入的图片对进行特征提取的操作，输入图片对经过特征提取网络，得到不同分辨率大小的特征图。

实验数据集是MegaDepth，MegaDepth由196个不同户外场景的100万张互联网图像组成。

每张图片被初始化裁剪成840*840大小，转化成灰度图的形式作为输入。

S2：基于卷积与注意力混合的神经网络，使用位置编码后的步骤S1特征提取得到的1/8原图像大小的特征图作为输入。

输入到基于卷积与注意力混合的神经网络，输出单尺度特征描述子，描述子的维度为256。

S3:训练基于增强自注意力的网络，使用步骤S1的原图像作为输入，描述子的维度为128；

S4:将步骤S2获得的单尺度特征描述子和步骤S3获得的多尺度特征描述子在特征维度上进行拼接。

S5:将步骤S4获得的混合尺度描述子输入最优匹配层，得到初始的分配矩阵；基于设置的阈值，选取初始的匹配点对。

先计算两个混合描述子

式中，τ是一个常数，＜·＞表示内积。相似度矩阵作为部分指派问题的代价矩阵，求解这个部分指派问题可以得到最优解置信度分配矩阵，从而得到初始匹配。

S6:提取出对应点对的稀疏描述子，通过内积计算出稀疏的相似度矩阵P，图像间点集的对应关系可以看作是图结构中节点的对应关系，从而构建出节点矩阵R

式中Ψ是图神经网络，d

S7:将步骤S1获得的1/2大小的特征图和步骤S4获得的混合描述子输入到一个全连接神经网络中，得到增强的1/2大小的特征图；所得特征图和步骤S6获得的像素级精度的新匹配点对输入到一个匹配精修网络，输出亚像素级精度的最终匹配。图2为经过了本案方法后，显示了所有匹配结果。图2中可看出本发明可以准确的匹配图像中小尺度的物体，同时对尺度和视角变换有较强的鲁棒性。

综上，本发明是联合混合尺度特征描述子与邻居一致性的图像匹配方法，使用本方法训练完成的图像匹配模型可以运行在计算机或其他设备上，通过输入原始图像对，可以输出亚像素精度的对应点集，在三维重建、视觉定位与导航、多目标追踪等领域有着广泛应用。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杜松林;李东岳;
专利申请人：东南大学;东南大学深圳研究院;

上一篇：数据处理方法、装置、设备及存储介质
下一篇：一种高光洁度的光学玻璃头罩的加工工艺及制品