掌桥专利:专业的专利平台
掌桥专利
首页

基于自适应时间上下文聚合的目标跟踪方法、装置、设备

文献发布时间:2024-04-18 20:00:50


基于自适应时间上下文聚合的目标跟踪方法、装置、设备

技术领域

本发明涉及计算机视觉技术领域,尤其涉及一种基于自适应时间上下文聚合的目标跟踪方法、装置、设备。

背景技术

航空对地跟踪是遥感探测的重要任务之一,应用于如航空摄影、智能监控和军事探测等诸多领域,相较于普通的目标跟踪,航空对地跟踪由于其应用场景复杂和平台限制,有许多问题亟待解决。与一般的目标跟踪相比,航空对地跟踪面临着图像分辨率低、易受遮挡、目标小、相似目标干扰等诸多挑战。首先,图像的遮挡、比例变化和尺度变化对模型的特征提取能力的要求较高,现有的相关滤波跟踪算法大多采用人工设计的特征或组合特征得以实现,因而适用于背景简单的跟踪场景,难以应对上述挑战。

由于低分辨率、小物体和相似目标干扰等挑战,准确有效的进行特征提取变得非常困难,为了克服上述的诸多困难,连续帧的上下文信息的获取至关重要,然而,现有的航空跟踪器大多只使用模板帧和当前帧信息,而忽略了连续帧的时间上下文信息。其次,由于航空对地跟踪需要部署在计算资源有限的平台上,如何平衡计算和精度也是航空对地跟踪所要面临的一个重大问题。

由于航空对地跟踪场景下的图像的目标像素少、区分度低,难以提取丰富的特征进行跟踪,因此,连续帧的上下文信息和丰富的运动信息对于指导低分辨率、小目标和相似目标等难以提取判别特征的航空对地跟踪具有重要意义。然而,现有的跟踪器大多忽略了时间背景信息。

发明内容

本发明为了解决航空对地场景下的图像存在低分辨率、小目标、相似目标干扰等问题,且现有的孪生神经网络忽略了连续帧的时间上下文信息,难以实现准确鲁棒跟踪的问题,提供一种基于自适应时间上下文聚合的目标跟踪方法、装置、设备,在现有孪生神经网络的基础上提出了一种自适应时间上下文聚合网络,在兼顾速度的同时,巧妙利用前几帧图像的计算结果,在几乎不增加额外计算量的同时提高了目标跟踪性能。

本发明提出的基于自适应时间上下文聚合的目标跟踪方法,具体包括如下步骤:

S1:将待识别图像序列划分为孪生神经网络的目标模板和搜索区域,并将目标模板和搜索区域的两个分支的图像进行归一化处理,获得两个分支的归一化图像;

S2:将两个分支的归一化图像输入至特征提取网络中,对应获得目标模板特征图和搜索区域特征图;

S3:将目标模板特征图和搜索区域特征图输入至相似性匹配网络进行深度互相关操作,获得响应图;

S4:将响应图输入至自适应时间上下文聚合网络进行自适应时间上下文聚合操作,获得加强响应图;

S5:将加强响应图输入至无锚框分类回归网络进行目标的分类和回归,获得目标的跟踪结果。

优选地,步骤S1具体包括步骤:

S11:将待识别图像序列的第一帧图像作为目标模板,并将待识别图像序列的其余帧图像作为搜索区域;

S12:将目标模板的图像帧进行裁剪归一化为127*127像素,并将搜索区域的图像帧均进行裁剪归一化为255*255像素。

优选地,特征提取网络采用AlexNet卷积神经网络,且AlexNet卷积神经网络用于提取两个分支的归一化图像的最后三层特征图,对应获得目标模板特征图和搜索区域特征图。

优选地,相似性匹配网络包括互相关模块、Concat模块和1*1普通卷积层,将目标模板特征图和搜索区域特征图输入至互相关模块,互相关模块用于将目标模板特征图作为卷积核对搜索区域特征图进行互相关操作,Concat模块用于对互相关模块输出的特征图进行拼接,并经过1*1普通卷积层进行卷积操作后,输出响应图。

响应图的计算公式为:

R=Conv(Concat(R

其中,L

优选地,自适应时间上下文聚合网络包括时间上下文编码器和时间上下文解码器,其中,

时间上下文编码器用于通过结合响应图的当前帧和相邻帧的上下文信息,获得具有时间先验信息的特征图R

时间上下文解码器用于通过对特征图R

优选地,步骤S4具体包括如下步骤:

S41:将响应图的当前帧和相邻帧输入至时间上下文编码器中,并依次进行线性映射、拼接和融合操作,获得具有时间先验信息的特征图R

R

其中,Linear为线性映射;R

S42:将响应图的当前帧输入至时间上下文解码器进行线性映射,获得特征图R,将特征图R和特征图R

R

S43:将特征图R

w=ReLu(GAP(Conv(R

其中,ReLu为ReLu激活函数,GAP为全局平均池化操作;

S44:将调节参数w输入至时间上下文解码器,并与特征图R

R`=w·R

S45:将特征图R`进行残差连接和求和操作,获得加强响应图R

R

优选地,无锚框分类回归网络包括分类分支和回归分支,分类分支与回归分支并行处理,分类分支用于对加强响应图的像素进行前景背景判别,回归分支用于以加强响应图的每个像素点为中心,通过对每个像素点与上边界、下边界、左边界和右边界的距离进行回归计算,绘出目标的跟踪框。

本发明提供的基于自适应时间上下文聚合的目标跟踪装置,包括:

归一化单元,用于对将待识别图像序列划分为孪生神经网络的目标模板和搜索区域,并将目标模板和搜索区域的两个分支的图像进行归一化处理,获得两个分支的归一化图像;

特征提取单元,用于将两个分支的归一化图像输入至特征提取网络中,对应获得目标模板特征图和搜索区域特征图;

相似性匹配网络单元,用于将目标模板特征图和搜索区域特征图输入至相似性匹配网络进行深度互相关操作,获得响应图;

自适应时间上下文聚合单元,用于将响应图输入至自适应时间上下文聚合网络进行自适应时间上下文聚合操作,获得加强响应图;

无锚框分类回归单元,用于将加强响应图输入至无锚框分类回归网络进行目标的分类和回归,获得目标的跟踪结果。

本发明提供的计算机设备,包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行基于自适应时间上下文聚合的目标跟踪方法。

本发明提出的存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行基于自适应时间上下文聚合的目标跟踪方法。

与现有技术相比,本发明能够取得如下有益效果:

(1)本发明在现有的孪生神经网络的基础上提出了一种自适应时间上下文聚合网络,包括时间上下文编码器和时间上下文解码器,通过时间上下文编码器和时间上下文解码器的结构,自适应将有效的帧间上下文信息引入响应图的当前帧的跟踪过程,使本发明所提出的跟踪装置能够有效应对如低分辨率、小目标、相似目标干扰等挑战,实现了航空对地目标的鲁棒准确跟踪。

(2)本发明提出的自适应时间上下文聚合网络通过巧妙地利用前几帧图像计算的结果,在几乎不增加额外计算量的同时提高了本发明所提出装置的跟踪性能,因此,在兼顾跟踪速度的同时提高了目标跟踪的跟踪性能。

附图说明

图1是根据本发明实施例提供的基于自适应时间上下文聚合的目标跟踪方法的模型框架图;

图2是根据本发明实施例提供的基于自适应时间上下文聚合的目标跟踪方法的流程示意图;

图3是根据本发明实施例提供的相似性匹配网络的网络结构示意图;

图4是根据本发明实施例提供的自适应时间上下文聚合网络的网络结构示意图;

图5是根据本发明实施例提供的基于自适应时间上下文聚合的目标跟踪装置的结构示意图;

图6是根据本发明实施例提供的一种计算机设备的结构框图。

附图标记:归一化单元1、特征提取单元2、相似性匹配网络单元3、自适应时间上下文聚合单元4、无锚框分类回归单元5、计算机设备6、外部设备7、处理单元8、总线9、网络适配器10、输入/输出(I/O)接口11、显示器12、系统存储器13、随机存取存储器(RAM)14、高速缓存存储器15、存储系统16、程序/实用工具17、程序模块18。

具体实施方式

在下文中,将参考附图描述本发明的实施例。在下面的描述中,相同的模块使用相同的附图标记表示。在相同的附图标记的情况下,它们的名称和功能也相同。因此,将不重复其详细描述。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,而不构成对本发明的限制。

图1是根据本发明实施例提供的基于自适应时间上下文聚合的目标跟踪方法的模型框架。

如图1所示,本发明提出的基于自适应时间上下文聚合的目标跟踪方法主要包括特征提取网络、相似性匹配网络、自适应时间上下文聚合网络和无锚框分类回归网络,其中,特征提取网络采用AlexNet卷积神经网络,将孪生神经网络的目标模板和搜索区域进行归一化处理,并将获得的两个分支的归一化图像输入至特征提取网络进行最后三层特征图的提取,获得目标模板特征图和搜索区域特征图。将目标模板特征图和搜索区域特征图输入至相似性匹配网络进行深度互相关操作,获得响应图。将响应图输入至自适应时间上下文聚合网络,并通过自适应时间上下文聚合操作进行加强。最后,通过无锚框分类回归网络中的分类头和回归头对输入的加强响应图进行目标的分类和回归,获得目标的跟踪结果。

图2根据本发明实施例提供的基于自适应时间上下文聚合的目标跟踪方法的流程。

如图2所示,本发明实施例提供的基于自适应时间上下文聚合的目标跟踪方法,具体包括如下步骤:

S1:将待识别图像序列划分为孪生神经网络的目标模板和搜索区域,并将目标模板和搜索区域的两个分支的图像进行归一化处理,获得两个分支的归一化图像。

步骤S1具体包括步骤:

S11:将待识别图像序列的第一帧图像作为目标模板,并将待识别图像序列的其余帧图像作为搜索区域。

S12:将目标模板的图像帧进行裁剪归一化为127*127像素,并将搜索区域的图像帧均进行裁剪归一化为255*255像素。

S2:将两个分支的归一化图像输入至特征提取网络中,对应获得目标模板特征图和搜索区域特征图。

特征提取网络采用AlexNet卷积神经网络,且AlexNet卷积神经网络用于提取两个分支的归一化图像的最后三层特征图,对应获得目标模板特征图和搜索区域特征图。

S3:将目标模板特征图和搜索区域特征图输入至相似性匹配网络进行深度互相关操作,获得响应图。

S4:将响应图输入至自适应时间上下文聚合网络进行自适应时间上下文聚合操作,获得加强响应图。

步骤S4具体包括如下步骤:

S41:将响应图的当前帧和相邻帧输入至时间上下文编码器中,并依次进行线性映射、拼接和融合操作,获得具有时间先验信息的特征图R

R

其中,Linear为线性映射;R

S42:将响应图的当前帧输入至时间上下文解码器进行线性映射,获得特征图R,将特征图R和特征图R

R

S43:将特征图R

w=ReLu(GAP(Conv(R

其中,ReLu为ReLu激活函数,GAP为全局平均池化操作;

S44:将调节参数w输入至时间上下文解码器,并与特征图R

R`=w·R

S45:将特征图R`进行残差连接和求和操作,获得加强响应图R

R

S5:将加强响应图输入至无锚框分类回归网络进行目标的分类和回归,获得目标的跟踪结果。

无锚框分类回归网络包括分类分支和回归分支,分类分支与回归分支并行处理,分类分支用于对加强响应图的像素进行前景背景判别,回归分支用于以加强响应图的每个像素点为中心,通过对每个像素点与上边界、下边界、左边界和右边界的距离进行回归计算,绘出目标的跟踪框。

由于卷积神经网络是一层一层串行地计算特征图,浅层的特征层包含高分辨率的低语义特征,而深层特征层更关注低分辨率的高语义信息特征。如果只使用卷积神经网络最后一层特征图进行融合,那么将忽略高分辨率的低语义特征。因此,为了同时兼顾深浅层特征,实现更全面的信息融合,我们采用多层特征层互相关后融合的方式生成响应图。

图3示出了根据本发明实施例提供的相似性匹配网络的网络结构。

如图3所示,相似性匹配网络包括互相关模块、Concat模块和1*1普通卷积层,将目标模板特征图和搜索区域特征图输入至互相关模块,互相关模块用于将目标模板特征图作为卷积核对搜索区域特征图进行互相关操作,Concat模块用于对互相关模块输出的特征图进行拼接,并经过1*1普通卷积层进行卷积操作后,输出响应图。

响应图的计算公式为:

R=Conv(Concat(R

其中,L

图4示出了根据本发明实施例提供的自适应时间上下文聚合网络的网络结构。

如图4所示,自适应时间上下文聚合网络包括时间上下文编码器和时间上下文解码器,其中,

时间上下文编码器用于通过结合响应图的当前帧和相邻帧的上下文信息,获得具有时间先验信息的特征图R

时间上下文解码器用于通过对特征图R

图5示出了根据本发明实施例提供的基于自适应时间上下文聚合的目标跟踪装置的结构。

如图5所示,本发明实施例提供的基于自适应时间上下文聚合的目标跟踪装置,包括:

归一化单元1,用于对将待识别图像序列划分为孪生神经网络的目标模板和搜索区域,并将目标模板和搜索区域的两个分支的图像进行归一化处理,获得两个分支的归一化图像;

特征提取单元2,用于将两个分支的归一化图像输入至特征提取网络中,对应获得目标模板特征图和搜索区域特征图;

相似性匹配网络单元3,用于将目标模板特征图和搜索区域特征图输入至相似性匹配网络进行深度互相关操作,获得响应图;

自适应时间上下文聚合单元4,用于将响应图输入至自适应时间上下文聚合网络进行自适应时间上下文聚合操作,获得加强响应图;

无锚框分类回归单元5,用于将加强响应图输入至无锚框分类回归网络进行目标的分类和回归,获得目标的跟踪结果。

图6为本发明实施例中提供的一种计算机设备6的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备6的框图。图6显示的计算机设备6仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示,计算机设备6以通用计算设备的形式表现。计算机设备6旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

计算机设备6的组件可以包括但不限于:一个或者多个处理器或者处理单元8,系统存储器13,连接不同系统组件(包括系统存储器13和处理单元8)的总线9。

总线9表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备6典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备6访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器13可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)14和/或高速缓存存储器15。计算机设备6可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统16可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM、DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线9相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块18的程序/实用工具17,可以存储在例如存储器28中,这样的程序模块18包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块18通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备6也可以与一个或多个外部设备7(例如键盘、指向设备、显示器12等)通信,还可与一个或者多个使得用户能与该计算机设备6交互的设备通信,和/或与使得该计算机设备6能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口11进行。并且,计算机设备6还可以通过网络适配器10与一个或者多个网络(例如局域网(LA6),广域网(WA6)和/或公共网络,例如因特网)通信。如图所示,网络适配器10通过总线9与计算机设备6的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备6使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元8通过运行存储在系统存储器13中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于广谱相关性融合网络的目标跟踪方法。

本发明实施例中还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时本申请所有发明实施例提供的基于广谱相关性融合网络的目标跟踪方法。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LA6)或广域网(WA6)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明实施例还提供一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据上述的基于广谱相关性融合网络的目标跟踪方法。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 一种氧化石墨烯上生长碳纳米片矩阵衍生碳纳米复合材料的制备方法
  • 一种泡沫镍原位负载SnO2纳米粒子掺杂石墨碳复合材料制备方法和应用
  • 一种在导电基底上生长花状氧化铜纳米材料的制备方法
  • 一种石墨烯原位生长银纳米线杂化导电材料及其制备方法和应用
  • 一种花状氧化锌纳米片聚集材料及其制备方法、应用
  • 一种在泡沫铁上原位生长有鳞状硫铁矿纳米片的材料及其制备方法和应用
  • 一种在泡沫铁上原位生长有鳞状硫铁矿纳米片的材料及其制备方法和应用
技术分类

06120116543795