掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及可解释的热红外可见光图像配准方法及系统,属于计算机视觉领域。在计算机视觉、多模态数据融合、监控安防领域、自动驾驶等领域具有广阔的应用前景。

背景技术

红外热成像技术与可见光成像相比有很多优势。可见光相机需要辅助光才能清晰稳定地成像;相比之下,热红外相机主要根据物体热辐射产生的红外线进行成像,可以在夜晚、能见度差、雾霾等极端恶劣天气条件下使用。此外,相比于雷达探测技术,红外成像是被动辐射成像,不向外主动发射电磁波,这种方式不易被敌方察觉。而且,热红外相机对采用特殊涂料进行光学隐身和雷达隐身的飞行器也有一定洞察能力。这些优势使得研究人员将越来越多地关注红外成像。此外,随着热红外相机成本的降低以及其基本不受光照条件影响的特点,自动驾驶等民用领域关于热红外相机的应用和研究也越来越多。然而热红外图像对比度低、分辨率低、边缘模糊,这些劣势使得热红外图像很难以单模态的形式直接应用于复杂系统的感知。综上可知,热红外与可见光图像的配准、融合是当下的潮流与趋势。对安全性要求越高的系统,越需要冗余设计,越需要异源传感器信息的融合以及在复杂工况下的配合。基于此,红外与可见光多视角配准数据集以及高鲁棒性的深度学习方法有着重要的意义。

截至目前,热红外与可见光配准方法基本基于传统配准方法和基于深度学习无监督学习方法两种,评价指标也多为主观评价指标。

基于传统配准方法的热红外与可见光图像配准在一段时期内受到了较为广泛的关注。Jiang使用Canny算子提取红外图像和可见光图像边缘,利用轮廓线的几何特征(局部极小曲率、方向等)作为描述子进行匹配,可以处理较大视角下的热红外与可见光匹配问题(参见文献:Jiang,Qian,et al.“A Contour Angle Orientation for Power EquipmentInfrared and Visible Image Registration.”IEEE Transactions on Power Delivery,vol.36,no.4,2021,pp.2559–2569.)。江泽涛等人认为红外图像和可见光图像有相同的显著性图,因此使用HC显著性检测得到红外与可见光图像的初步显著性图,然后在显著性图上提取ORB特征点进行匹配(参见文献:江泽涛,刘小艳,王琦.基于显著性和ORB的红外和可见光图像配准算法[J].激光与红外,2019,49(2):6.)。王晗等人分别针对配准点数量少、分布不均、配准点之间错配率高这三个问题进行改进。提出用自适应Harris角点提取方法获得空间分布均匀、数目充足的特征点,接着提出把梯度方向与互信息融合作为相似性测度,从而大大降低匹配错误率。(参见文献:王晗,魏明.自适应特征点检测的可见-红外图像配准[J].中国图象图形学报,2017,22(2):9.)。

基于深度学习无监督学习方法近年来也受到广泛关注。Marouf认为热红外图像和可见光图像在图像语义层面具有相关性,因此先训练热红外和可见光语义分割网络,获得图像的语义标签,然后用空间变换网络(Spatial Transformer Network,STN)回归像素位移场进行配准,最小化标签之间的MSE损失(参见文献:Marouf I.E,Barras L,KaraimerH.C.,Süsstrunk S.(2021)“Joint Unsupervised Infrared-RGB Video Registrationand Fusion”,London Imaging Meeting(LIM`21),September 2021)。周美琪等人认为热红外图像与可见光图像属于不同的“图像风格”,因此首先用CycleGAN训练一个从可见光到红外风格迁移的网络。然后利用风格迁移的红外图像与真实红外图像利用空间变换网络(STN)回归位移场。最后用生成对抗网络的判别器对是否匹配进行二分类判别,交替训练主网络与判别器进行优化(周美琪,高陈强,木松,等.基于模态转换的红外与可见光图像配准方法[J].计算机工程与设计,2020,41(10):5.)。

然而,以上方法均建立在没有标签的数据集上,评价指标多为主观评价。此外,传统基于特征的配准方法提取的特征点描述子没有在大规模数据集上得到检验,难以在不同场景下衡量热红外图像与可见光图像的相关性关系,导致算法的普适性不高;而无监督式的深度学习方法没有考虑热红外与可见光图像配准流程,属于端到端训练,导致算法稳定性不高。如果能够在深度学习网络中引入传统配准算法流程作为网络模块,并在大数据集上训练,将可为解决热红外图像与可见光图像配准问题提供可能。基于此,本发明以传统配准方法流程为导引,构造可解释的配准深度神经网络(Explainable Registration DeepNeural Network,简称ERDNN),有效解决热红外与可见光图像配准问题。

发明内容

1、目的:针对上述问题,本发明目的在于提供一种可解释的热红外可见光图像配准算法及系统。基于深度学习技术构建可解释的配准深度神经网络ERDNN,结合传统配准流程驱动网络实现热红外图像与可见光图像配准。

2、技术方案:为实现这个目的,本发明的技术方案整体思路是首先将配准系统拆分成描述子网络、运动场估计网络、全局变换模块和局部变换模块四部分。用共享参数的描述子网络提取热红外图像与可见光图像描述子;在描述子特征相加后,运动场估计网络、全局变换模块进行红外图像全局变换;接着对全局变换后的热红外图像重新用描述子网络提取描述子,再与可见光图像描述子相加。经运动场估计网络、局部变换模块进行局部变换输出最终配准热红外图像。本发明的技术思路主要体现在以下三个方面:

1)设计基于度量学习的描述子网络,即使用度量学习对描述子网络进行训练。

2)利用运动场估计网络估计红外相对于可见光的运动场(也被称为位移场),接着用全局变换模块进行相似变换和局部变换模块进行位移场变换两阶段实现热红外图像与可见光图像由粗至精且可解释的配准过程。

3)描述子网络和运动场估计网络构造损失函数同时训练,使得热红外图像与可见光可以有效配准。

本发明涉及一种可解释的热红外可见光图像配准方法,该方法具体步骤如下:

步骤一:可见光图像经过1×1卷积神经网络变成单通道灰度图像,然后利用基于多尺度Swin变换器(Swin-Transformer)共享参数的描述子网络提取热红外图像与可见光图像描述子。

步骤二:将热红外图像与可见光图像描述子相加,输入运动场估计网络,输出红外相对于可见光的像素运动场。再利用全局变换模块将运动场解算成全局相似变换,然后通过基于空间变换网络(STN)的全局变换模块对热红外图像进行全局变换。

步骤三:将经全局变换后的热红外图像再次输入描述子网络输出经全局变换后的热红外图像描述子,并与原始可见光图像描述子相加,输入运动场估计网络对像素运动场进行估计,最后经过局部变换模块进行局部位移场变换。

步骤四:构建损失函数对网络进行训练,损失函数包括描述子度量损失,全局运动场估计损失,局部运动场估计损失三项。

输出:配准好的热红外图像,全局变换参数,局部变换参数。

其中,所述步骤一具体如下:

1.1:使用4层1×1卷积将三通道的可见光图像转变成单通道图像。

1.2:使用描述子提取模块提取图像的描述子。传统卷积神经网络由2D卷积层堆叠组合而成,受限于感受野大小,对长距离信息利用不够。为充分挖掘跨红外-可见光描述子的高级语义需要使用大感受野的描述子网络,本发明使用多尺度Swin变换器(Swin-Transformer)代替传统卷积神经网络。感受野的范围从卷积核的核尺寸扩展至多尺度Swin变换器的图像补丁块。

其中,所述步骤二具体如下:

2.1:运动场估计网络融合步骤一提取的多尺度描述子,输出运动场。

2.2:使用全局变换模块将2.1得到的位移场解算成图像全局相似变换参数S=[sR,t],其中R代表2维图像旋转矩阵,t代表图像平移向量,s代表图像尺度因子。施加在热红外图像上得到全局变换后的热红外图像。全局变换操作由空间变换网络(STN)实现。

其中,所述步骤三具体如下:

3.1:将经过全局变换后的热红外图像再次输入描述子网络提取描述子,并与可见光图像描述子相加。

3.2:将3.1的描述子输入运动场估计网络,运动场估计网络对全局变换后的热红外图像与可见光图像之间的运动场进行估计。

3.3:使用局部变换模块将3.2得到的运动场施加在热红外图像上得到局部变换后的热红外图像。局部变换操作由空间变换网络(STN)实现。

其中,所述步骤四具体如下:

4.1:可解释的配准深度神经网络ERDNN的损失函数包含三项:描述子度量损失,全局运动场估计损失,局部运动场估计损失。

描述子网络度量学习损失首先将热红外图像与可见光图像的配准精细度分为三个等级:完全配准、实现全局配准、未配准。若热红外图像和可见光图像完全配准,则让热红外可见光描述子之间度量尽量靠近;若未配准,则若描述子之间度量小于阈值C

全局运动场估计损失定义为估计全局运动场和真实全局运动场的均方误差(MSE)。

局部运动场估计损失定义为估计局部运动场和真实局部运动场的均方误差(MSE)。

4.2:在训练数据上对ERDNN展开训练。使用Adam优化器进行参数优化调整。

一种可解释的热红外可见光图像配准系统,该系统基本结构框架和工作流程如图1所示,其特征包括:

描述子网络,用于提取热红外图像与可见光图像对应像素的高级语义描述子。

运动场估计网络,用于进行像素运动场估计。

全局变换模块,用于对像素运动场进行相似变换解算,并对初始红外图像进行全局变换。

局部变换模块,用于对全局变换后的热红外图像进行局部位移场变换。

其中网络是具有优化参数的系统组件,模块是没有优化参数的系统组件。描述子网络输入热红外图像(可见光图像),输出热红外图像(可见光图像)对应像素的高级语义描述子。热红外与可见光图像描述子相加作为运动场估计网络的输入,并输出全局运动场(也称为位移场)。全局运动场经全局变换模块解算得到相似变换矩阵,并对热红外图像进行全局相似变换。对全局相似变换后的热红外图像再次用描述子网络进行提取描述子,并与可见光描述子相加,再次输入运动场估计网络,得到局部运动场。经局部变换模块对热红外图像进行局部位移场变换,得到最终配准的热红外图像。

3、优点及功效:本发明提出的可解释热红外可见光图像配准网络ERDNN,由描述子网络、运动场估计网络、全局变换模块、局部变换模块四部分组成。其中,描述子网络在整体网络中一共使用三次,与其余网络与模块搭配使用,用来获得高级语义热红外-可见光跨模态描述子。运动场估计网络一共使用两次,使用由粗到精的全局变换、局部变换策略。本发明可以精确且鲁棒地解决热红外可见光图像配准问题。在计算机视觉、自动驾驶、监控安防等领域由广泛的使用价值和应用前景。

附图说明

图1是本发明提出的一种热红外可见光图像配准算法的基本结构框架。

图2是描述子网络的基本结构。

图3是运动场估计网络的基本结构。

图4是全局变换模块的基本结构。

图5是局部变换模块的基本结构。

图6a-图6d的是网络的配准效果,其中,图6a和图6b分别是输入待配准的热红外图像与可见光图像,图6c是经过全局参数变换后的热红外图像,图6d是经过局部变换后的热红外图像。

具体实施方式

为了更好地理解本发明的技术方案,以下结合附图对本发明的实施方式作进一步描述。

本发明是一种可解释的热红外可见光图像配准算法,其算法框架与网络结构如图1所示,各部分具体实施步骤如下:

步骤一:由共享参数的描述子网络分别提取热红外图像与经1×1卷积后单通道可见光图像的描述子,描述子网络的基本结构如图2所示;

步骤二:将热红外图像与可见光图像的多尺度描述子相加,由运动场估计网络估计可见光相对红外的全局运动场,运动场估计网络的基本结构如图3所示;利用全局变换模块对全局运动场进行相似变换解算,并对热红外图像进行全局相似变换,如图4所示;

步骤三:再次使用描述子网络提取全局变换后的热红外图像描述子,与可见光描述子相加,并再次使用运动场估计网络估计局部运动场如图3所示。利用局部变换模块将位移场直接作用在全局变换后的热红外图像上,得到最终变换图像如图5所示;

步骤四:构造损失函数对整个ERDNN网络进行训练;

输出:配准好的热红外图像,全局变换参数,局部变换参数。

其中,所述步骤一具体如下:

1.1:首先使用4层神经网络将3通道可见光图像转成单通道图像,每一层包括1×1卷积操作,批归一化操作和ReLU激活函数。

1.2:使用多尺度Swin Transformer提取图像的多尺度特征描述子。输入图像在描述子模块的处理下进行下采样编码,同时尺度数增加,最终输出多尺度描述子用于后续预测参数。

其中,所述步骤二具体如下:

2.1:将热红外与可见光多尺度描述子相加输入运动场估计网络。运动场估计网络首先使用多层的卷积以及残差连接网络对多尺度描述子进行融合;随后使用融合特征图经过一个包含残差连接的5层卷积神经网络得到全局位移场。

2.2:全局变换模块将全局位移场使用相似变换ICP算法解算成相似变换,然后将相似变换作用在输入红外图像上,得到全局变换后的热红外图像。其中解算方法采用直接线性变换(DLT)算法,将变换矩阵的参数求解问题转换为Ax=b形式线性方程组求解问题,使用奇异值分解可以求出最优解。由于解算过程可导,可以嵌入神经网络,实现梯度反向传播。

其中,所述步骤三具体如下:

3.1:使用描述子网络提取全局变换后的热红外图像描述子,与可见光描述子相加输入运动场估计网络,运动场估计网络得到局部位移场。

3.2:局部位移场经局部变换模块对全局变换后的热红外图像进行局部位移场变换微调,得到最终的配准结果。

其中,所述步骤四具体如下:

4.1:描述子网络度量学习损失如下所示。

其中d

4.2:全局运动场估计损失如下所示。

其中L

4.3:局部运动场估计损失如下所示。

其中L

4.4:整体损失函数形式如下所示。

L=αL

L

自动驾驶领域常常需要多模数据融合来提升系统的感知能力,从而加强系统的鲁棒性。为了从直观上展示本发明的效果,本发明使用构造的自动驾驶场景热红外-可见光图像配准数据集进行训练。首先将数据集分成训练集和测试集两部分,将运动场标签进行分解得到全局运动场(相似变换对应运动场)以及局部运动场(局部位移场变换对应运动场)标签。

训练过程按之前所述步骤输入热红外图像-可见光图像对。第一次运动场估计网络输出估计全局运动场,与真实全局运动场构建全局运动场估计损失;第二次运动场估计网络输出估计局部运动场,与真实局部运动场构建局部运动场估计损失;再加上描述子网络的度量学习损失构成整个神经网络的损失函数(目标函数)。使用Adam优化器进行训练优化,总共训练200轮。

将训练好的模型使用测试集数据进行测试。图6a和图6b展示了输入的待配准热红外图像与可见光图像输入图像对,图6c展示全局变换后的图像效果,图6d展示了在全局变换的基础上加上局部变换后最终的配准输出结果。通过对比图6b和图6d可以看到本发明能有效地解决热红外图像与可见光图像配准问题,热红外图像变换结果与真实参考标签值数值误差较小且与可见光图像空间分布一致性高。

本发明提出的可解释的配准深度神经网络ERDNN可以有效完成热红外图像与可见光图像配准问题,多模图像配准是融合的基础,在配准融合后,后端可以进行语义分割、目标检测等感知任务。综上本发明在计算机视觉、自当驾驶、监控安防等领域具有广阔的使用价值和应用前景。

相关技术
  • 一种可解释的热红外可见光图像配准方法及系统
  • 一种红外-可见光图像配准方法及系统
技术分类

06120114715463