掌桥专利:专业的专利平台
掌桥专利
首页

基于多尺度光流估计的红外小目标检测方法、系统

文献发布时间:2023-06-19 18:46:07


基于多尺度光流估计的红外小目标检测方法、系统

技术领域

本发明涉及运动红外小目标检测技术,特别是一种基于多尺度光流估计的红外小目标检测方法、系统。

背景技术

常用的运动红外小目标检测方法通常使用光流估计来得到相邻帧的时间信息。

光流法的工作原理基于如下假设:

1)亮度恒定:就是两帧对应的同一点随着时间的变化,其亮度不会发生改变。这是基本光流法的假定(所有光流法变种都必须满足),用于得到光流法基本方程。对于灰度图像这意味着像素的灰度值不会随着帧的跟踪而改变。

2)时间持续性(微小移动):就是时间的变化不会引起位置的剧烈变化,这样灰度才能对位置求偏导,换言之,小运动情况下才能用前后帧之间单位位置变化引起的灰度变化去近似灰度对位置的偏导数,这也是光流法不可或缺的假定。图像上相机的移动随时间变化缓慢。这意味着时间的变化不会引起像素位置的剧烈变化,这样像素的灰度值才能对位置求对应的偏导数。

红外小目标的成像特性与运动场景决定了光流法的假设2)难以满足。

运动(多帧)红外小目标检测的目的是捕捉时间信息,并将其整合到当前帧中,以便更好地进行检测。运动(多帧)红外小目标检测与单帧红外小目标检测的区别在于运动(多帧)红外小目标检测利用了时域信息。运动红外小目标检测中如何提取时域信息是最重要的问题。

光流是指在连续的两帧图像中由于图像中的物体移动或者摄像头的移动导致的图像中目标像素的移动。光流是一个二维矢量场,表示一个点从第一帧到第二帧的位移。光流法是常用的提取时域信息的方法之一。

若使用光流法提取时域信息,常基于相邻两帧照片运动幅度较小的假设。然而在红外领域,待检测目标通常很小,运动速度快,当成像视场大时成像速度慢,提取时域信息会产生较大误差。

发明内容

本发明所要解决的技术问题是,针对现有技术不足,提供一种基于多尺度光流估计的红外小目标检测方法、系统,有效地利用连续帧之间的时间信息,提高检测精度。

为解决上述技术问题,本发明所采用的技术方案是:一种基于多尺度光流估计的红外小目标检测方法,包括以下步骤:

S1、提取当前处理帧图像的前两帧图像和后两帧图像;

S2、利用多尺度光流重建网络对当前处理帧图像、前两帧图像和后两帧图像的组合进行处理,得到四个光流信息;

S3、利用所述四个光流信息进行运动补偿,生成当前帧的补偿时序信息;

S4、将补偿时序信息输入单帧红外目标检测网络,抽取单帧红外目标检测网络输出结果中的空间信息,得到检测结果。

本发明整合了多帧红外小目标检测和运动估计任务,以从多帧图像中推断出重建的光流,使提取的运动信息能够更好地用于单帧红外小目标检测任务。由于使用了多次融合(多尺度光流重建网络),使得光流信息更加准确,因此检测效果更好,尤其是目标运动大的情况下,检测效果提升明显。

本发明中的“当前处理帧图像、前两帧图像和后两帧图像的组合”,是指将前一帧和当前帧为一组输入到网络,前两帧和当前帧为一组输入到网络,依此类推。

步骤S2中,利用多尺度光流重建网络获取光流信息的具体实现过程包括:

1)对于当前帧图像及后两帧图像,即第t帧图像和第t+2帧图像,分别下采样8倍,得到第一输入和第二输入;

2)将所述第一输入和第二输入作为第一卷积重建网络的输入,得到第一级光流信息;

3)放大所述第一级光流信息,并将放大后的第一级光流信息、第t帧图像和第t+2帧图像分别下采样4倍的图像依次进行拼接和映射操作(例如,I

4)放大所述第二级光流信息,并将放大后的第二级光流信息、第t帧图像和第t+2帧图像分别下采样2倍的图像依次进行拼接和warp操作(即映射操作),得到第四输入,将所述第四输入作为第三卷积重建网络的输入,得到第三级光流信息;

5)放大所述第三级光流信息,并将放大后的第二级光流信息、第t帧图像和第t+2帧图像依次进行拼接和warp操作,得到第五输入,将所述第五输入作为第四卷积重建网络的输入,得到第四级光流信息,即得到当前组合的光流信息。

本发明中,从粗到精的多尺度光流重建网络能够更好的提取时域信息,使得估计的光流信息更加准确,因此可以提高运动红外小目标检测的精度。

本发明中,所述第一~第四卷积重建网络包括依次拼接的第一卷积层、第一残差模块、第二残差模块、第二卷积层、第三卷积层;所述第一卷积层的输出与第二残差模块的输出拼接,形成第二卷积层的输入。

本发明步骤S3的具体实现过程包括:

A)将第t-2帧图像与第t帧图像组合产生的光流信息与第t-2帧图像进行warp操作,对其余三个光流信息与对应帧图像进行warp操作;

B)对步骤A)获得的四个输出结果与第t帧图像进行拼接操作,得到拼接结果;

C)将所述拼接结果输入串联卷积层,得到当前帧的补偿时序信息。

本发明中,所述串联卷积层包括两个串联的卷积模块。

本发明中,所述单帧红外目标检测网络采用ResNet18网络。

作为一个发明构思,本发明还提供了一种基于多尺度光流估计的快速运动红外小目标检测系统,其包括:

图像采集模块,用于提取当前处理帧图像,即第t帧图像的前两帧图像和后两帧图像;

多尺度光流重建网络,用于对当前处理帧图像、前两帧图像和后两帧图像的组合进行处理,得到四个光流信息;

运动补偿模块,用于利用所述四个光流信息进行运动补偿,生成当前帧的补偿时序信息;

单帧红外目标检测网络,用于利用补偿时序信息获得检测结果。

所述多尺度光流重建网络包括四个级联的卷积重建网络;所述卷积重建网络包括依次拼接的第一卷积层、第一残差模块、第二残差模块、第二卷积层、第三卷积层;所述第一卷积层的输出与第二残差模块的输出拼接,形成第二卷积层的输入。

作为一个发明构思,本发明还提供了一种终端设备,包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序,以实现本发明上述方法的步骤。

作为一个发明构思,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序/指令;所述计算机程序/指令被处理器执行时实现本发明上述方法的步骤。

与现有技术相比,本发明所具有的有益效果为:

1、本发明使用了多次融合,估计的光流更精确,所以检测效果更好,尤其是目标运动大的情况下,检测效果提升明显;

2、本发明多尺度光流重建网络更好的解决了运动红外小目标检测中时域信息利用的问题。

附图说明

图1为本发明实施例1方法原理图;

图2为本发明实施例1多尺度光流重建网络结构图;

图3为本发明实施例1运动补偿模块结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本文中,术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性,而是仅仅用于对不同的元件进行区分。在本文中,术语“一”、“一个”和其它类似词语并不意在表示只存在一个所述事物,而是表示有关描述仅仅针对所述事物中2的一个,所述事物可能具有一个或多个。在本文中,术语“包含”、“包括”和其它类似词语意在表示逻辑上的相互关系,而不能视作表示空间结构上的关系。例如,“A包括B”意在表示在逻辑上B属于A,而不表示在空间上B位于A的内部。另外,术语“包含”、“包括”和其它类似词语的含义应视为开放性的,而非封闭性的。例如,“A包括B”意在表示B属于A,但是B不一定构成A的全部,A还可能包括C、D、E等其它元素。

实施例1

本实施例包括多尺度光流重建网络、运动补充模块和单帧红外目标检测网络。该系统将多帧红外小目标检测和运动估计任务整合到一个统一的网络中,以从多帧图像中推断出重建的光流,使提取的运动信息能够更好地用于单帧红外小目标检测任务。

如图1所示,本实施例提供的基于多尺度光流估计的红外小目标检测方法包括以下步骤:

S1.提取当前处理帧图像的前两帧图像和后两帧图像;

S2.光流尺度重建网络对前后四帧图像与当前帧的4组组合进行处理,分别获得四个光流信息;

S3.将四个光流信息输入运动补充模块处理,生成当前帧的补偿时序信息;

S4.将补偿时序信息输入单帧红外目标检测网络,抽取其中的空间信息并生成检测结果。

如图2所示,本实施例中,多尺度光流重建网络获取光流信息的具体实现过程包括:

将第t帧和第t+j帧作为输入,并在它们对应的多尺度帧之间重建光流:

光流j=Net

其中光流j表示重建的光流。多尺度光流重建网络使用从粗到细(从第一层到第四层)的方法来处理复杂的目标运动(尤其是目标大位移情况下能取得很好的效果)。多尺度光流重建网络的运行步骤如图2所示(以第t帧和第t+2帧为例)。

第一层:

对第t帧和第t+2帧分别下采样8倍以产生第一层的输入,它们被馈送到基于卷积的重建网络进行特征提取和光流重构。

卷积重建网络:在每个残差模块是进行特征提取,均使用ReLU作为损失函数。一旦密集特征被几个残差模块提取出来,它们就会被连接起来并馈送到特征融合层(特征融合层:concat操作和两个2*2的卷积层组成)。卷积重建网络特征融合层的输出即推断出的该级的光流(每一层输出的光流尺寸大小与每一层输入相同)。

第二层和第三层:

第二层的卷积重建网络输入有两个分别为:

a.第一层获得的光流放大2倍。

b.第一层获得的光流放大2倍后与对第t帧和第t+2帧分别下采样4倍的图像。进行concat和warp操作,产生第二层的卷积重建网络的第二个输入。并生成第二层的光流。第3层的步骤与第2层的步骤一致。第三层模块的产生光流放大2倍后的尺寸与参考输入第t帧和第t+2帧图像尺寸大小一致。

第四层:第四层模块产生的光流1尺寸与参考输入第t帧和第t+2帧图像尺寸大小一致。因此,第四层的模块作为重建光流的最后部分。第四层的架构类似于第三层,并生成用于运动补偿的最终光流。

Cat是对特征的操作:

假设两个特征的通道分别为X1,X2,…,Xc和Y1,Y2,…,Yc。那么concat的单个输出通道为(*表示卷积):

warp是对于数据的一种操作:仿射变换(Affine),自由度12,不变的是平行性,体积比。

如图3所示,本实施例中,运动补偿模块生成当前帧的补偿时序信息的具体实现过程包括:

S1.将第t-2帧与第t帧产生的光流1和第t-2帧进行warp操作(其他3个光流与对应帧同样操作);

S2.将S1产生的4个结果与第t帧进行concat拼接操作;

S3.将S2的结果输入两个串联的2*2卷积进行特征融合输出为运动补偿后的第t帧。

本实施例中,采用ResNet18作为单帧红外目标检测网络。

以下通过实验来证明本发明实施例方案的有效性。

实验1:在多个单帧检测网络上验证多尺度光流估计的有效性。图像直接输入第t帧(记为I_t)到单帧检测网络的方法,与采用本实施例方法进行运动补偿后的第t帧(记为I_t')输入同一个单帧检测网络对比。其中Tophat,IPI,PLCM为传统单帧检测方法,VGG10,ResNet10,ResNet18为基于深度学习的单帧检测方法。

表1实施例1方法与基于深度学习的单帧检测方法对比

其中PD(%)为检测率,公式如下:

T

FA(10

T

检测率越高,虚警率越低,表示检测效果越好。

实验1结论:从实验1可以看到,经过多尺度光流估计和有效运动补偿后使得不同的单帧检测算法在性能上均有提升。

实验2:使用其他多帧红外目标检测算法进行对比。

其中NmoG、MSLSTIPT是基于传统方法的多帧红外目标检测算法,ACM,ALCNet、DNANet是基于深度学习的多帧红外目标检测算法。Our指经过本实施例尺度光流估计和有效运动补偿模块结合ResNet18的多帧红外目标检测算法。

表2实施例1方法与基于深度学习的多帧红外目标检测算法对比

有表2可见,本实施例的方法可以取得更好的检测结果。

实施例2

本实施例提供一种基于多尺度光流估计的快速运动红外小目标检测系统,包括以下步骤:

图像采集模块,用于提取当前处理帧图像,即第t帧图像的前两帧图像和后两帧图像;

多尺度光流重建网络,用于对当前处理帧图像、前两帧图像和后两帧图像的组合进行处理,得到四个光流信息;

运动补偿模块,用于利用所述四个光流信息进行运动补偿,生成当前帧的补偿时序信息;

单帧红外目标检测网络,用于利用补偿时序信息获得检测结果。

实施例3

本发明实施例3提供一种对应上述实施例1的终端设备,终端设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述实施例的方法。

本实施例的终端设备包括存储器、处理器及存储在存储器上的计算机程序;处理器执行存储器上的计算机程序,以实现上述实施例1方法的步骤。

在一些实现中,存储器可以是高速随机存取存储器(RAM:Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。

在另一些实现中,处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器,在此不做限定。

实施例4

本发明实施例4提供了一种对应上述实施例1的计算机可读存储介质,其上存储有计算机程序/指令。计算机程序/指令被处理器执行时,实现上述实施例1方法的步骤。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

技术分类

06120115686657