掌桥专利:专业的专利平台
掌桥专利
首页

基于深度神经网络内容感知的图像配准方法及系统

文献发布时间:2023-06-19 18:37:28


基于深度神经网络内容感知的图像配准方法及系统

技术领域

本发明涉及图像拼接技术领域,具体是涉及一种基于深度神经网络内容感知的图像配准方法及系统。

背景技术

图像拼接技术是为了克服现有相机设备硬件上的局限性而被提出的以将多幅有重叠区域的子图像合成为更高分辨率的全景图像为目的的图像处理算法,其中图像的类型不局限于光学图像和红外图像。图像拼接除了应用在针对多幅图像的合成,还可以拓展到对视频流的拼接:多个相机不同角度下拍摄的视频流通过拼接形成大画幅下的视频,使得人们可以更加完整地实时监测区域内场景变换情况。图像拼接作为一项偏实用性的技术,在摄影测量学、计算机视觉和遥感图像分析等研究领域具有重要的辅助参考价值;而在实际项目需求中,图像拼接更是广泛应用于地理环境监测、医学图像处理、军事地形侦察、汽车交通路况监测和物体3D重建等方面,具有较高的研究价值和广阔的应用前景。

图像拼接一整套流程里最主要的一个阶段叫做图像配准,配准是基于两幅图像之间重叠区域进行考虑的,图像拼接最终效果的好坏也主要评估重叠区域对齐后的视觉效果。现有比较常用的配准方法可以划分为传统特征匹配方案和深度学习方案。传统的配准方法主要采用特征点检测、初步匹配和RANSAC(随机抽样一致性)算法筛选出可靠的匹配点对。这种方法通常特别依赖特征点的质量和配准的准确度,也就导致基于特征点的方法不适用于复杂、极限的图像场景(少纹理,弱光照和包含运动的目标)。深度学习的方法又分为间接用网络提取特征的方法和直接用网络预测单应性矩阵的方法。直接利用深度学习进行矩阵估计的方法在解决多类场景时更加具有鲁棒性,但由于缺少一定规模的拼接数据集,以往基于深度学习的矩阵预测网络要么是用合成数据集进行监督学习,要么是对两幅重叠率很高的真实图像进行预测。前者没有考虑真实场景的深度差异,只适用于构成比较简单的近似于同一平面的场景。后者的重叠率几乎达到80%~90%,只适合小基线的拼接任务,难以应用到实际的项目中。因此亟需一种算法能更适应真实数据并且能在重叠率较低的情形下达成更高的配准精度。

发明内容

本发明的目的是为了克服上述背景技术的不足,提供一种基于深度神经网络内容感知的图像配准方法及系统。

第一方面,本申请提供了一种基于深度神经网络内容感知的图像配准方法,包括以下步骤:

步骤S1、预处理输入的目标图像和源图像,获取与目标图像和源图像的灰度图像;

步骤S2、输入获取的两幅灰度图像经多尺度结构处理,获取多尺度特征图;

步骤S3、输入每个尺度的两幅特征图至上下文相关性计算模块,运算获取两者之间的特征对应关系;

步骤S4、输入每个尺度的两幅特征图之间的特征对应关系至矩阵预测网络,获取粗配准的全局单应性矩阵

步骤S5、根据粗配准的全局单应性矩阵变换目标图像的特征图,将其与源图像特征图输入至内容感知模块,获取精配准的全局单应性矩阵;

步骤S6、根据精配准的全局单应性矩阵,控制执行源图像配准目标图像

根据第一方面,在第一方面的第一种可能的实现方式中,步骤S1,具体包括以下步骤:

步骤S10、以目标图像I

根据第一方面,在第一方面的第二种可能的实现方式中,所述步骤S2,具体包括以下步骤:

步骤S20、将两幅灰度图像输入到多尺度结构中,经三个下采样网络层处理,获取多尺度特征图。

根据第一方面,在第一方面的第三种可能的实现方式中,所述步骤S3,具体包括以下步骤:

步骤S30、输入每个尺度的两幅特征图至上下文相关性计算模块,计算源图像的特征图每个空间位置上的特征向量和目标图像每个空间位置上的特征向量两者周围固定窗口大小内包含的特征向量的相关性,获取两者之间的特征对应关系。

根据第一方面,在第一方面的第四种可能的实现方式中,所述步骤S4,具体包括以下步骤:

步骤S41、输入每个尺度的两幅特征图之间的特征对应关系至矩阵预测主干网的网络结构中,预测获取特征向量;

步骤S42、输入特征向量至solveDLT模块,计算该尺度下预测出的全局单应性矩阵。

根据第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述步骤S42,具体包括以下步骤:

步骤S421、预测获取多尺度结构最高尺度的初步偏移ofs

步骤S422、根据获取的初步偏移ofs

步骤S423、上一尺度预测的矩阵对下一尺度的目标图像特征图进行变换,变换后的目标图像特征图和源图像特征图输入下一尺度的上下文相关性模块,获取多尺度另外两层的残差项ofs

步骤S424、根据获取的ofs

根据第一方面,在第一方面的第六种可能的实现方式中,所述步骤S5,包括以下步骤:

步骤S51、根据粗配准的全局单应性矩阵变换特征图后,作为先验对原尺度上的源图像进行透视变换,获取透视变换后的特征图;

步骤S52、将透视变换后的特征图经特征提取模块和掩码预测模块处理,获取处理后的两幅特征图;

步骤S53、将处理后的两幅特征图在通道维上叠加,获取特征图叠加结果;

步骤S54、输入特征图叠加结果至矩阵预测网络,输出精配准的全局单应性矩阵。

根据第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述步骤S52,具体包括以下步骤:

步骤S521、输入透视变换后的两幅特征图至内容适应性模型,经特征图提取和掩码预测,获取特征图提取结果和掩码预测结果;

步骤S522、根据获取的特征图提取结果和掩码预测结果,获取两者的乘积。

第二方面,本申请提供了一种基于深度神经网络内容感知的图像配准系统,包括:

预处理模块,用于预处理输入的目标图像和源图像,获取与目标图像和源图像的灰度图像;

多尺度特征图获取模块,与所述预处理模块通信连接,用于输入获取的两幅灰度图像经多尺度结构处理,获取多尺度特征图;

特征对应关系获取模块,与所述多尺度特征图获取模块通信连接,用于输入每个尺度的两幅特征图至上下文相关性计算模块,运算获取两者之间的特征对应关系;

粗配准单应性矩阵获取模块,与所述特征对应关系获取模块通信连接,用于输入每个尺度的两幅特征图之间的特征对应关系至矩阵预测网络,获取粗配准的全局单应性矩阵;

精配准单应性矩阵获取模块,与所述多尺度特征图获取模块通信连接,用于根据粗配准的全局单应性矩阵,输入内容感知网络获取精配准的全局单应性矩阵;

配准模块,与所述精配准单应性矩阵获取模块通信连接,用于根据精配准的全局单应性矩阵的全局单应性参数,控制执行源图像配准目标图像。

根据第二方面,在第二方面的第一种可能的实现方式中,所述粗配准单应性矩阵获取模块包括:

特征向量获取子模块,用于与所述特征对应关系获取模块通信连接,用于输入每个尺度的两幅特征图之间的特征对应关系至主干网的网络结构中,预测获取特征向量;

全局单应性矩阵获取子模块,与所述特征向量获取子模块通信连接,用于输入特征向量至solveDLT模块,计算获取特征图下该尺度下预测出的全局单应矩阵。

与现有技术相比,本发明的优点如下:

本申请提供的基于深度神经网络内容感知的图像配准方法,通过增加网络的多尺度结构和上下文相关性计算模块,有效提升预测矩阵配准的准确度。

附图说明

图1是本发明实施例提供的基于深度神经网络内容感知的图像配准方法的方法流程图;

图2是本发明实施例提供的基于深度神经网络内容感知的图像配准方法的另一方法流程图;

图3是本发明实施例的深度网络配准图像拼接流程;

图4是本发明实施例的多尺度结构细节图;

图5是本发明实施例的内容感知模块细节图;

图6是本发明实施例提供的基于深度神经网络内容感知的图像配准系统的功能模块框图。

具体实施方式

现在将详细参照本发明的具体实施例,在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明,但将理解,不是想要将本发明限于所述的实施例。相反,想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意,这里描述的方法步骤都可以由任何功能块或功能布置来实现,且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。

为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。

注意:接下来要介绍的示例仅是一个具体的例子,而不作为限制本发明的实施例必须为如下具体的步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。

本申请提供了一种基于深度神经网络内容感知的图像配准方法,有效解决配准前工作数据集重叠率过大、合成数据集结果不存在普适性的问题。

请参考图1-3,本申请提供的方法能够用计算机软件技术实现,以MSCOCO制作的合成数据集训练过程为例,对本发明的基于深度神经网络内容感知的图像配准方法流程进行一个具体的阐述,包括以下步骤:

步骤S1、预处理输入的目标图像和源图像,获取与目标图像和源图像的灰度图像;

步骤S2、输入获取的两幅灰度图像经多尺度结构处理,获取多尺度特征图;

步骤S3、输入每个尺度的两幅特征图至上下文相关性计算模块,运算获取两者之间的特征对应关系;

步骤S4、输入每个尺度的两幅特征图之间的特征对应关系至矩阵预测网络,获取粗配准的全局单应性矩阵;

步骤S5、根据粗配准的全局单应性矩阵变换目标图像的特征图,将其与源图像特征图输入至内容感知模块,获取精配准的全局单应性矩阵;

步骤S6、根据精配准的全局单应性矩阵,控制执行源图像配准目标图像。

本申请提供的基于深度神经网络内容感知的图像配准方法,通过增加网络的多尺度结构获取多尺度特征图,将多尺度特征图经上下文相关性计算模块处理获取两者之间的特征对应关系,再经矩阵预测网络获取粗配准的全局单应性矩阵,经内容感知模块求解获取精配准的全局单应性矩阵,根据精配准的全局单应性矩阵的全局单应性参数,求解获取全局单应性矩阵,最终根据全局单应性矩阵,实现源图像和目标图像之间的精确配准,有效提升图像的配准准确度。

在一实施例中,步骤S1,具体包括以下步骤:

步骤S10、用于监督训练的数据,包括图像和实际偏移量Ground Truth,图像包括目标图像和源图像,实际偏移量包括8维偏移向量,8维偏移向量shift作为监督学习的GT,图像和实际偏移量Ground Truth都会进行归一化操作,具体为:选择两幅迟钝为128×128大小的目标图像I

在一实施例中,所述步骤S2,具体包括以下步骤:

步骤S20、将两幅灰度图像输入到多尺度结构中,经三个特征提取-下采样网络层处理,获取多尺度特征图。

在一实施例中,所述步骤S20,具体包括以下步骤:

将两幅灰度图像输入到如图4所示的多尺度结构的网络中,经三个特征提取-下采样网络层处理,获取多尺度特征图;两幅灰度图像经过多尺度结构工序多尺度结构网络的卷积核参数,尺度越深,卷积层的输出通道数更大;每层下采样网络层包括两个卷积层和一个最大池化层,所述卷积层用于扩大图像数据的通道维,所述池化层用于将数据在空间维的尺寸缩小为原来的一半。所述多尺度特征层表示为

高尺度k(k∈{1,2,3})的特征图

H

其中,Context(·)指代上下文相关性计算模块;其中,三个尺度数据空间大小分别为64,32,16。在计算两幅图像的相关性后,矩阵预测网络具体采用的是ResNet-18主干网修改后的网络结构。网络预测出的8维向量转换为矩阵的过程,是假设了图像原始四个顶点的位置和偏移后的位置,然后运用DLT算法求得矩阵实际值,具体实施时可以参考现有技术,本发明不予赘述。

在一实施例中,所述步骤S3,具体包括以下步骤:

步骤S30、输入每个尺度的两幅特征图至上下文相关性计算模块,计算源图像的特征图每个空间位置上的特征向量和目标图像每个空间位置上的特征向量两者周围固定窗口大小[-R,R]内包含的特征向量的相关性,获取每个尺度上目标图像特征图和源图像特征图之间的特征对应关系,作为后续矩阵预测网络的输入。

在一实施例中,所述步骤S30中,上下文相关性计算模块的上下文相似性计算公式为:

其中,

在一实施例中,请参考图2,所述步骤S4,具体包括以下步骤:

步骤S41、输入每个尺度的两幅特征图之间的特征对应关系至形如ResNet主干网的网络结构中预测出8个特征向量;

步骤S42、输入8个特征向量至solveDLT模块计算获取特征图下该尺度下预测出的全局单应矩阵,该矩阵作为下一尺度上目标图像特征图和源图像特征图的先验信息,源图像特征图江根据该全局单应矩阵在空间维度上通过空间变形模块SWM完成数据的变换实现透视变形。

在一实施例中,步骤S42中,SWM利用预测矩阵的逆矩阵,根据根据warped_I

其中,H,W指代I

在一实施例中,所述步骤S42,具体包括以下步骤:

步骤S421、预测获取多尺度结构最高尺度的初步偏移ofs

步骤S422、根据获取的初步偏移ofs

步骤S423、上一尺度预测的矩阵对下一尺度的目标图像特征图进行变换,变换后的目标图像特征图和源图像特征图输入下一尺度的上下文相关性模块,获取多尺度另外两层的残差项ofs

步骤S424、根据获取的ofs

在一实施例中,所述步骤S42,具体包括以下步骤:

在多尺度部分最高尺度上预测出初步的8个偏移ofs

由这些中间结果构建一个针对偏移量的损失函数

为了训练内容适应性模块,以使得掩码预测网络能发挥注意力和排除外点的功能,同时构建了一个针对内容的损失成分

其中,

内容适应性模块训练过程中,模型训练的执行周期数为200,训练数据集的batch大小设置为16。特别地,采用Adam优化器并设置学习率的初始值lr=1.0×10

在一实施例中,所述步骤S5,包括以下步骤:

步骤S51、输入多尺度特征图至如图5所示的内容感知模块,作为先验对原尺度上的源图像进行透视变换,获取透视变换后的特征图;

步骤S52、将透视变换后的特征图经特征提取模块和掩码预测模块处理,获取处理后的两幅特征图;

步骤S53、将处理后的两幅特征图在通道维上叠加,获取特征图叠加结果;

步骤S54、输入特征图叠加结果至矩阵预测网络,输出精配准的全局单应性矩阵。

在一实施例中,所述步骤S52,具体包括以下步骤:

步骤S521、输入透视变换后的两幅特征图至内容适应性模型,经特征图提取和掩码预测,获取特征图提取结果和掩码预测结果;

步骤S522、根据获取的特征图提取结果和掩码预测结果,获取两者的乘积。

在一实施例中,步骤S52,具体实现为:

变形后的源图像和目标图像需要进入内容适应性模型内。模块头部分为特征图提取fd(·)和掩码预测mp(·)两个分支。特征图和掩码进行元素的相乘,具体的操作可以形式化为:

F

M

G

经过加权处理的G

基于同一发明构思,请参考图6,本申请提供了一种基于深度神经网络内容感知的图像配准系统,包括:

预处理模块100,用于预处理输入的目标图像和源图像,获取与目标图像和源图像的灰度图像;

多尺度特征图获取模块200,与所述预处理模块100通信连接,用于输入获取的两幅灰度图像经多尺度结构处理,获取多尺度特征图;

特征对应关系获取模块300,与所述多尺度特征图获取模块200通信连接,用于输入每个尺度的两幅特征图至上下文相关性计算模块,运算虎丘两者之间的特征对应关系;

粗配准单应性矩阵获取模块400,与所述特征对应关系获取模块300通信连接,用于输入每个尺度的两幅特征图之间的特征对应关系至矩阵预测网络,获取粗配准的全局单应性矩阵;

精配准单应性矩阵获取模块500,与所述多尺度特征图获取模块200通信连接,用于根据粗配准的全局单应性矩阵,输入内容感知网络获取精配准的全局单应性矩阵;

配准模块600,与所述精配准单应性矩阵获取模块500通信连接,用于根据精配准的全局单应性矩阵的全局单应性参数,控制执行源图像配准目标图像。

在一实施例中,所述粗配准单应性矩阵获取模块包括:

特征向量获取子模块,用于与所述特征对应关系获取模块通信连接,用于输入每个尺度的两幅特征图之间的特征对应关系至主干网的网络结构中,预测获取特征向量;

全局单应性矩阵获取子模块,与所述特征向量获取子模块通信连接,用于输入特征向量至solveDLT模块,计算获取特征图下该尺度下预测出的全局单应矩阵。

基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的所有方法步骤或部分方法步骤。

本发明实现上述方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Ran domAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

基于同一发明构思,本申请实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法中的所有方法步骤或部分方法步骤。

所称处理器可以是中央处理单元(Central Processing Unit,CP U),还可以是其他通用处理器、数字信号处理器(Digital Signal Pro cessor,DSP)、专用集成电路(Application Specific Integrated Circu it,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FP GA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如声音播放功能、图像播放功能等);存储数据区可存储根据手机的使用所创建的数据(例如音频数据、视频数据等)。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Ca rd)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

技术分类

06120115637554