掌桥专利:专业的专利平台
掌桥专利
首页

一种快速稠密的图像匹配方法及系统

文献发布时间:2023-06-19 11:35:49


一种快速稠密的图像匹配方法及系统

技术领域

本发明涉及图像数据采集技术领域,特别是一种快速稠密的图像匹配方法及系统。

背景技术

近年来,科技水平日益提高,形成了全球自动化的格局,随之而来的人工智能技术蓬勃发展,其主要目的是令机器联合计算机像人类一样感知、理解与行动。视觉感知作为最主要的感知技术之一,在此次人工智能热潮下占据着举足轻重的地位,因而推动着计算机视觉技术迅猛发展。同时,如何理解多个视觉目标之间的区别与联系,并根据特定的需求对感知的信息作相应的处理已然成为整个计算机视觉领域的研究热点之一,而图像匹配作为其中的一个基础而关键的任务,连接着具有相同或相似属性的两个图像目标,是低层视觉通往高层视觉的纽带,是实现信息识别与整合以及从低维图像恢复高维结构的有效途径。

图像匹配是一项基础的视觉处理技术,对图像的每个像素或区域进行特征提取,并查找对应关系,是众多视觉任务的首要步骤,如图像检索(ImageRetrival)、图像拼接(Image Mosaic)、多模图像融合(Multimodal Image Fusion)、图像配准(ImageRegistration)、相机位姿估计(Camera Pose Estimation)、视觉里程计(VisualOdometry)、三维重建(3DReconstruction)、运动恢复结构(Structure from Motion)、即时定位与地图构建(Simultaneous Localization and Mapping)等。据美国自动成像协会(Automated Imaging Association)统计,40%以上的视觉感知应用依赖于图像特征匹配的精度与效率,包括计算机视觉、模式识别、遥感、军事安防、医学诊断与手术导航等各个领域。

图像匹配精度匹配导致的误差会在后续处理环节中逐渐累积从而严重制约最终视觉任务的有效实施,因此在许多基于匹配的精准估计应用上有着极高的要求。通常模板图像通常来自不同时间、不同视角和不同传感器,成像条件多样性不可避免地造成了图像的匹配难度,况且图像本身的局部形变或畸变,以及图像之间的复杂变换等因素同样对特征匹配问题造成了严重阻碍。除此之外,如何减少因噪声、畸变、重复图像内容以及遮挡等问题造成的错误匹配也是特征匹配中亟需解决的问题。另一方面,图像匹配的稠密度会直接影响后续视觉任务,如基于立体匹配的三维重建中的结构细节,然而图像特征匹配问题本质上是一个复杂组合优化难题,稠密特征点的匹配过程通常需要特征数量的平方计算复杂度,况且离群点和噪声的引入将大大增加问题的求解难度,因而在建模求解过程中,如何减少解的搜索空间,降低问题的计算复杂度也是特征匹配的重要难题。

图像匹配方法包括图像特征提取及特征匹配,其中传统特征匹配方法如随机样本一致性(RanSaC)算法需要迭代运算,而在稠密特征点情况时会严重增加时间成本,因此通常针对稀疏特征点进行匹配。深度学习通常可以实现快速的特征点匹配,但是受限于高分辨率大范围搜索空间所带来的计算成本,现有的深度学习方法也无法实现存在大幅度或非参数化坐标变换的两个图像之间的快速稠密匹配。

一些匹配方法利用参数化坐标变换、观测物体、场景、拍摄过程的先验条件来限制搜索范围,如专利CN102654902利用不同尺度图像金字塔由上向下传递的平移旋转信息实现快速匹配;如2018年ECCV会议所收录的MVSNet采用的代价体(Cost Volume)实现立体匹配,不仅需要基于单应性的相机标定还限制了视差范围;如专利CN201180057099.3同样基于立体视图投影中的单应性关系来限制搜索范围。但是这些先验信息的获取同样增加了成本或限制了使用场景。

Julia A.Schnabel教授于2001MICCAI会议上公开了一项在脑科医学图像领域中关于多分辨率形变配准的工作,其中提出了对于多个分辨率的图像相似度估计作为损失函数,以全局形变场作为自变量,迭代优化该损失函数,得到搜索范围内最优的位移向量场,可以用于表达被配准图像之间的像素匹配关系。然而该方法需要对多个尺度的位移向量场反复计算梯度,并进行迭代优化得到最终结果,依然需要比较庞大的计算成本。

专利CN201910580849.3中基于整体一致性采用了一种基于全局探针的多分辨率匹配方式,通过低分辨率匹配后的像素探针的对应区域作为下一层高分辨率匹配的限制范围,整合了局部匹配到全局的关系,实现了高分辨率像素图像的快速匹配,但是由于其特征:(a)直接通过低分辨率像素匹配结果限制高分辨率匹配中的搜索区域、(b)由全局探针表达较低分辨率匹配中确定性的匹配结果,存在一系列问题:1)探针能够低成本传递不同分辨率层次的匹配信息,但是也忽略了同一个低分辨率像素探针区域内可能存在的高分辨率多个像素点匹配多个不同探针区域的情况,限制了该专利方法在原图能够得到匹配特征点的密度,从而无法获得稠密的匹配结果;2)最终的匹配结果受到低分辨率探针像素对应原图区域的位置及大小的影响,因此导致匹配结果可能依赖于图像中的绝对位置;3)另外,特征(b)使得该方法的数学表达不可导,无法传播梯度,进而无法加入可训练参数组合机器学习或深度学习算法对包括特征提取筛选的匹配过程实现自适应优化或泛化模型训练。

发明内容

本发明的目的是针对现有的图像匹配方面所存在的问题,提供一种快速稠密的图像匹配方法及系统。

本发明的快速稠密的图像匹配方法,特征在于基于图像在不同分辨率对应关系的整体一致性,通过从低分辨率到高分辨率下图像特征的局部匹配与重采样实现的,其中相比之前工作,不同之处在于通过指定的若干区域的局部匹配,并利用低分辨率下得到的匹配关系对被匹配图像进行重采样,从而能够通过滑动窗口限定后续更高分辨率的匹配过程的搜索范围,加快匹配速度的同时也保留了图像像素或区域之间的结构关系,实现快速稠密的高分辨率图像匹配,主要流程如下:

步骤1.对任意输入的原分辨率图像,提取每个图像中多个分辨率尺度的一组特征向量,其中对应各个分辨率尺度的特征向量按图像顺序排列组成特征图,并从低分辨率到高分辨率从上到下获得特征图金字塔;

步骤2.对两个图像的特征图,由低分辨率特征到高分辨率特征迭代进行局部匹配与重采样,获得其中模板图像到目标图像的匹配结果;

其中步骤2基于图像在不同分辨率对应关系的整体一致性,通过指定的若干搜索区域的局部匹配,并利用低分辨率下得到的匹配结果对被匹配图像进行重采样,从而能够通过滑动窗口限定后续更高分辨率匹配过程的搜索范围,实现高分辨率图像之间快速稠密的全局匹配,具体步骤如下:

步骤2-1.对指定搜索区域局部匹配,得到较低分辨率模板特征图与较低分辨率目标特征图在各个搜索区域内的逐像素对应关系,其中初始搜索区域可以是两张全图之间;

步骤2-2.通过较低分辨率特征图的匹配结果对较高分辨率模板特征图重采样,并通过滑动窗口限定后续较高分辨率局部匹配的搜索区域;

步骤2-3.从低分辨率到高分辨率重复步骤2-1与步骤2-2,直至获得原图全局匹配结果。

此外:

所述步骤2-2根据广度优先搜索和深度优先搜索策略分为两个分支步骤,其中:

A)所述广度优先搜索的后续步骤为:

步骤2-2a-1.将步骤2-1中得到的该分辨率下设定的各个搜索区域内的局部匹配结果拼接,结合已有的匹配结果,得到该分辨率下的全局原图匹配结果;

步骤2-2a-2.通过步骤2-2a-1中得到的全局原图匹配结果,对下一层的较高分辨率的模板特征图重采样,得到较高分辨率的重采样特征图;

步骤2-2a-3.通过滑动窗口同时对较高分辨率目标特征图和所述重采样高分辨率模板特征图分块截取区域,同时将所截取的区域作为后续新的搜索区域;

B)所述深度优先搜索的后续步骤为:

步骤2-2b-1.对各个搜索区域,实行以下步骤:

步骤2-2b-1-1.将步骤2-1中得到的局部匹配结果与已有的匹配结果组合,得到该分辨率下该搜索区域的局部原图匹配结果;

步骤2-2b-1-2.通过步骤2-2b-1-1中得到的局部原图匹配结果,对该搜索区域内下一较高分辨率的模板特征图重采样,得到该搜索区域内较高分辨率的重采样特征图;

步骤2-2b-1-3.通过滑动窗口同时对较高分辨率目标特征图和所述较高分辨率的重采样特征图的搜索区域进一步分块截取区域;

步骤2-2b-1-4.将该搜索区域较高分辨率目标特征图和较高分辨率重采样特征图定义为两个新的较低分辨率特征图,将特征图金字塔中再下一层特征图替换为新的较高分辨率特征图,同时将所述步骤2-2b-1-3中每一个所述滑动窗口所截取的区域作为新的搜索区域;

步骤2-2b-1-5.对该搜索区域递归重复步骤2-1到步骤2-2b-1-4,当获得该搜索区域特征图金字塔中最下层最高分辨率的局部匹配结果时,返回步骤2-2b-1更换搜索区域,直到获得所有搜索区域内的最高分辨率下的局部原图匹配结果;

步骤2-2b-2.将各个搜索区域内的匹配结果拼接组成最高分辨率下的全局原图匹配结果;

所述步骤1或步骤2中可以加入可训练参数,通过反向传播梯度,实现整个匹配过程的自适应优化,并且进一步地,该方法可以作为学习模型,在使用前进行训练来得到一个具有泛用性的图像匹配模型;

所述步骤2-2中所述匹配结果的对应关系可以所述匹配结果的对应关系可以通过目标图中像素坐标与对应模板图中坐标的变换关系表示,可以包括单应性变换、刚体变换、仿射变换的参数变换,以及两者差值得到的位移向量场的非参数变换;

所述的匹配过程中可以通过对目标特征图每一像素在搜索区域内的匹配结果估计匹配置信权重,表达该像素在这一搜索区域存在对应关系的置信度,并且在后续步骤所述匹配结果的拼接和组合过程中,可以通过所述置信权重,对不同分辨率或不同窗口搜索区域的匹配结果加权、插值或筛选。

基于上述本发明的方法构思构筑的一种快速稠密的图像匹配系统,主要包括特征提取模块和特征匹配模块,其中:

所述的特征提取模块,用于从原图像中提取多分辨率尺度特征组成特征图金字塔,主要包含用以提取每个图像低分辨率尺度更加抽象的特征图的下采样模块和用来融合和输出各个分辨率尺度的特征图组成特征图金字塔的上采样模块;

所述的特征匹配模块,通过指定的若干搜索区域的每一对像素的相似度或差异度估计各搜索区域的局部匹配结果,利用低分辨率下得到的匹配结果对被匹配图进行重采样,和从而能够并通过滑动窗口限定后续更高分辨率匹配过程的搜索范围,实现高分辨率图像之间快速稠密的全局匹配,从而通过从低分辨率到高分辨率下图像特征的局部匹配与重采样实现快速稠密的图像匹配,最终获得图像匹配结果,主要包含:

通过对一定搜索区域范围内逐个像素相似度或差异度估计获得局部的匹配结果及表达匹配可靠程度的置信权重的局部匹配模块;

通过较低分辨率像素匹配结果对较高分辨率特征图重采样获得重采样特征图,使得能够直接通过滑动窗口获得具有对应关系的搜索区域的重采样模块;

通过可重合的滑动窗口对重采样特征图和目标特征图截取对应的搜索区域的分块模块;

通过将局部匹配结果放置到对应区域并通过匹配置信权重加权,组合较低分辨率的匹配结果,得到较高分辨率全局匹配结果的拼接模块。

此外,所述的重采样模块通过对被采样图位置编码实现:

对被采样图的每个像素记录基于该分辨率下的坐标;

通过所得到的匹配结果,计算重采样后图像每个像素对应被采样图的坐标,即采样坐标;

依照所述采样坐标对被采样图进行采样获得重采样图,或对于非整数坐标可以使用插值方法采样。

所述的拼接模块对每个窗口内局部位移场通过匹配置信权重加权拼接,并与插值后的前一低分辨率的全局位移场相加得到该分辨率下的全局位移场,同时也将局部置信权重与插值的前一低分辨率全局置信权重相加得到该分辨率下的全局匹配置信权重;其中在特征点稀疏情况时,可以在拼接位移场过程中,基于匹配置信权重对没有获得对应关系的像素点通过邻近像素点的位移实施插值。

本发明的有益技术效果是:由于合理地设置并组合应用了特征提取模块和特征匹配模块,实现了对两张图像快速且稠密的匹配,相比现有的图像匹配方法,该发明基于图像在不同分辨率对应关系的整体一致性,利用低分辨率下得到的匹配关系对被匹配图像进行重采样,从而能够通过滑动窗口限定后续更高分辨率的匹配过程的搜索范围,提高匹配精度和密度的同时,也降低了匹配过程中的时间、空间复杂度;其中本发明使用重采样方法将低分辨率匹配结果传递至高分辨率尺度的匹配,并结合可重合的滑动窗口作为局部匹配的搜索范围,保留了匹配过程中图像像素之间的局部邻域结构一致性,因而提高了匹配稳定性;同时本发明通过权重表达每对像素的模糊对应关系,实现同一像素在不同尺度、不同搜索范围内的多个匹配结果的融合,并使得该方法存在可反向传播的梯度,能够加入可训练参数实现自适应优化和应用于泛用性模型中;通过引入基于坐标表达的匹配结果,在建立匹配关系的同时也保留图像本身拓扑信息,使匹配过程更具连续性和可靠的物理意义,也使得该方法中能够利用先验信息如参数化坐标变换对匹配过程正则化精细化。

附图说明

图1是本发明的方法实施例的流程图;

图2是本发明的方法实施例中步骤1的流程图;

图3是本发明的方法实施例中步骤2的流程图;

图4是本发明的方法实施例中步骤2-2基于广度优先搜索策略的流程图;

图5是本发明的系统实施例的方案结构示意图;

图6是本发明的系统实施例中特征提取模块1基于深度学习方案的简单示意图;

图7是本发明的系统实施例中特征匹配模块2的简单示意图,其中采用了广度优先搜索策略,且初始搜索范围设定为最低分辨率3X3像素全图;

图8是本发明的系统实施例中局部匹配模块21的简单示意图,其中基于坐标编码表达匹配结果;

图9是图7中由上到下第一个分块模块23的简单示意图;

图10是本发明的系统实施例中拼接模块24原理的简单示意图。

图中:

1.特征提取模块 11.下采样模块 12.上采样模块 2.特征匹配模块

21.局部匹配模块 22.重采样模块 23.分块模块 24.拼接模块

具体实施方式

下面结合附图和典型实施例对本发明作进一步说明。

本发明的快速稠密的图像匹配方法及系统,特征在于是通过图1中的流程实现的,其中图5展示了其原理的简单示意图,包括特征提取模块1和特征匹配模块2,其具体措施通过以下步骤实现:

步骤1.对任意输入的两个原分辨率图像,特征提取模块1提取每个图像中多个分辨率像素尺度的一组特征向量,其中对应各个分辨率尺度按图像顺序排列组成特征图,并从低分辨率到高分辨率从上到下获得一个特征图金字塔;

其中步骤1原理如图6所示,具体是通过对两个原图像由低分辨率特征到高分辨率迭代进行包括下采样模块11和上采样模块12的操作,其具体步骤如图2所示,包括:

步骤1-1.通过所述下采样模块11提取当前图像局部特征;

步骤1-2.通过所述下采样模块11提取对当前图下采样得到更低分辨率特征图,并指定更低分辨率特征图为当前特征图;

步骤1-3.重复步骤1-1到步骤1-2,直到达到设定的分辨率尺度图;

步骤1-4.通过所述上采样模块12提取当前图像局部特征,并与之前得到的同一分辨率特征图融合;

步骤1-5.通过所述上采样模块12提取对当前图上采样得到更高分辨率特征图,并指定更高分辨率特征图为当前特征图;

步骤1-6.重复步骤1-4到步骤1-5,直到达到原图的分辨率尺度;

步骤1-7.将所述的各个尺度融合后的特征图叠加得到特征图金字塔。

步骤2.通过特征匹配模块2,获得其中模板图像到目标图像的全局匹配结果和依照匹配结果的重采样图;

图7是步骤2的一种简单示意图,具体是对两个图像的特征图由低分辨率特征到高分辨率特征图迭代进行包括局部匹配21、重采样22、分块23和拼接模块24的操作,如图2所示,具体通过以下步骤实现的:

步骤2-1.分别将模板与目标图像的特征图金子塔顶端最低分辨率特征图定义为较低分辨率特征图,下一层次低分辨率特征图为较高分辨率特征图,确定初始匹配的对应关系和用于匹配的对应搜索区域,设定为两张全图像之间;并对较低分辨率特征图匹配,通过局部匹配模块21,得到较低分辨率模板特征图与较低分辨率目标特征图在各个搜索区域内的对应关系;

步骤2-2.通过较低分辨率特征图的匹配结果对较高分辨率模板特征图重采样,并通过滑动窗口限定后续较高分辨率局部匹配的搜索区域

步骤2-3.从低分辨率到高分辨率重复步骤2-1与步骤2-2,直至获得原图全局匹配结果

所述步骤2-2根据广度优先搜索和深度优先搜索策略分为两个分支步骤,其中:

A)所述广度优先搜索的后续步骤为:

步骤2-2a-1.通过拼接模块24,将步骤2-1中得到的该分辨率下设定的各个搜索区域内的局部匹配结果拼接,结合已有的匹配结果,得到该分辨率下的全局原图匹配结果;

步骤2-2a-2.通过重采样模块22,基于步骤2-2a-1中得到的全局原图匹配结果,对下一层的较高分辨率的模板特征图重采样,得到较高分辨率的重采样特征图;

步骤2-2a-3.通过滑动窗口同时对较高分辨率目标特征图和所述重采样高分辨率模板特征图分块23截取区域,同时将所截取的区域作为后续新的搜索区域,将较高分辨率目标特征图和较高分辨率重采样特征图定义为两个新的较低分辨率特征图,特征图金字塔中再下一层特征图替换定义为新的较高分辨率特征图;

B)所述深度优先搜索的后续步骤为:

步骤2-2b-1.对各个搜索区域,实行以下步骤:

步骤2-2b-1-1.将步骤2-1中得到的局部匹配结果与已有的匹配结果组合,得到该分辨率下该搜索区域的局部原图匹配结果;

步骤2-2b-1-2.基于步骤2-2b-1-1中得到的局部原图匹配结果插值或上采样得到下一较高分辨率尺度对应匹配,通过重采样模块22,对该搜索区域内较高分辨率的模板特征图重采样,得到该搜索区域内较高分辨率的重采样特征图;

步骤2-2b-1-3.通过滑动窗口同时对较高分辨率目标特征图和所述较高分辨率的重采样特征图分块(23)截取区域;

步骤2-2b-1-4.将该搜索区域较高分辨率目标特征图和较高分辨率重采样特征图定义为两个新的较低分辨率特征图,将特征图金字塔中再下一层特征图替换为新的较高分辨率特征图,同时将所述步骤2-2b-1-3中每一个所述滑动窗口所截取的区域作为新的搜索区域;

步骤2-2b-1-5.对该搜索区域递归重复步骤2-1到步骤2-2b-1-4,当获得该搜索区域特征图金字塔中最下层最高分辨率的局部匹配结果时,返回步骤2-2b-1更换搜索区域,直到获得所有搜索区域内的最高分辨率下的局部原图匹配结果;

步骤2-2b-2.将各个搜索区域内的匹配结果通过拼接模块24组成最高分辨率下的全局原图匹配结果。

所述特征提取模块1中的特征图金字塔在本实例中为五层,其建立方法包括手工特征设计和深度学习方法;其中手工特征设计方案采用了稠密尺度不变特征变换(DenseSIFT)算法;深度学习方案是通过搭建一个卷积神经网络实现的,如图6所示,采用了常见的编码器-解码器网络结构,包含五个下采样模块11组成的编码器和五个上采样模块12组成的解码器,五个上采样模块12输出的特征图按顺序堆叠组成所述特征图金字塔。

其中对应深度学习方案,所述的下采样模块11包括两个3×3卷积层和两个激活层交替排列后加入一个池化下采样层,用以提取每个图像更加抽象的特征图;所述的上采样模块12包括一个反卷积上采样层后接两个3×3卷积层和两个激活层交替排列,用来融合和输出各个分辨率尺度的特征图组成特征图金字塔;其中每个下采样后的特征图通过跃接连接串联至对应尺度的反卷积上采样层之前用以处理结构信息并恢复特征图的分辨率;其中激活层采用线性整流函数(ReLU)。

所述局部匹配21如图8所示,本实施例的匹配结果通过模板图中像素到目标图的位移及其匹配置信权重表示,其中对模板特征图与目标特征图在给定搜索范围内的所有像素,估计两两之间的相似程度得到相似度权重并标准化,通过该相似度权重对图像坐标的加权可以得到采样坐标及其局部位移向量场,另外对于对应目标特征图像素的每个相似度权重的平均、标准化和非线性激活函数即可得到该像素的匹配置信度权重;对应本实施例中的深度学习方案,滑动窗口分块的多个搜索区域内的局部匹配模块21可以通过一种多头注意力(Multi-head Attention)机制实现,其中与非学习方案的区别之处主要在于在两两像素对应特征向量相似度估计之前,通过1×1卷积进行自适应地线性变换。

针对所述特征提取模块1与特征匹配模块2中深度学习方案的自适应优化与训练,本实施例中采用了基于各个分辨率下的重采样图与目标图的相似性构建损失函数实现优化,包括图像结构相似度差异(SSIM)和曼哈顿距离(像素差值的L1范数)。

本实施例中相似度权重的计算采用了对特征向量计算欧式距离的负值点乘并计算自然指数(exp)的方法,之后在0-1标准化以后对图像坐标计算矩阵乘法,得到对应的采样坐标;本实施例的置信度权重的计算采用了相似度权重矩阵对于模板像素维度取平均值后通过偏置并计算线性整流(ReLU)函数来过滤未被匹配的像素。

所述重采样模块22通过给定的位移向量场,与图像坐标相加得到采样坐标,进一步地通过采样坐标对模板特征图基于线性插值采样即可得到重采样特征图。

所述分块23操作如图9所示,通过一个滑动窗口对原图截取局部搜索区域,为了继承较低分辨率的匹配结果,窗口大小需要大于前一较低分辨率像素对应当前分辨率的区域大小,为了应对低分辨率像素匹配过程的模糊对应关系,滑动窗口的重合区域同样设定为较低分辨率像素对应当前分辨率的区域大小,本实施例中由于特征提取模块1中分辨率尺度比例为2,因此窗口大小设定为4×4且对两个维度的滑动步长都为2。

所述拼接模块24如图10所示,其中对每个窗口内局部位移场通过匹配置信权重加权拼接,并与线性插值后的前一低分辨率的全局位移场相加得到该分辨率下的全局位移场,同时也将局部置信权重与邻近插值的前一低分辨率全局置信权重相加得到该分辨率下的全局匹配置信权重;在某些所述手工特征提取方案中往往提取特征点比较稀疏,可以在拼接位移场过程中,基于匹配置信权重对没有获得对应关系的像素点通过邻近像素点的位移实施线性插值,以及在低分辨率匹配结果的拼接中利用较少数置信权重高的位移向量估计参数化变换,并约束全局位移坐标。

以上所述为本发明的一个实施例,但本发明范围并不局限于此,不仅可用于图像匹配任务,还可用于其他关于估计多个图像之间像素或区域对应关系的任务,如图像配准、拼接、融合与立体匹配等,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

相关技术
  • 一种快速稠密的图像匹配方法及系统
  • 一种全场稠密点快速匹配系统
技术分类

06120112985021