掌桥专利:专业的专利平台
掌桥专利
首页

一种视频多目标跟踪方法、装置及设备

文献发布时间:2023-06-19 10:08:35


一种视频多目标跟踪方法、装置及设备

技术领域

本发明涉及图像处理技术领域,尤其涉及一种视频多目标跟踪方法、装置及设备。

背景技术

基于视觉的多目标跟踪一直是移动机器人和自动驾驶领域的研究课题。正是通过跟踪,我们才能意识到周围的对象实例,并预测它们未来的运动。

大多数现有的行人跟踪方法遵循检测跟踪范式,主要关注随着时间变化的检测器响应的关联。大量的研究研究了这个具有挑战性的数据关联问题的组合优化技术。基于视觉的多目标跟踪的最新趋势是利用深度学习的代表性力量来联合学习检测和跟踪目标。然而,现有基于视觉的多目标跟踪的方法只使用损失函数训练某些子模块,而这些函数往往与建立的跟踪评估指标不相关,从而造成目标跟踪效果差。

因此,现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足,本发明的目的在于提供一种视频多目标跟踪方法、装置及设备,旨在解决现有技术中基于视觉的多目标跟踪的方法只使用损失函数训练某些子模块,而这些函数往往与建立的跟踪评估指标不相关,从而造成目标跟踪效果差的技术问题。

本发明的技术方案如下:

一种视频多目标跟踪方法,所述方法包括:

获取待跟踪的视频,对视频进行解析,生成视频对应的帧图像;

对帧图像进行人脸识别,将识别的人脸图像输入训练好的深度多目标跟踪器;

根据深度多目标跟踪器的输出结果,完成人脸的多目标跟踪。

进一步地,所述对帧图像进行人脸识别,将识别的人脸图像输入训练好的深度多目标跟踪器,包括:

对帧图像进行人脸识别,为检测到的每张人脸创建多目标跟踪器,初始化多目标跟踪器;

通过匈牙利网络对初始多目标跟踪器进行训练,生成训练好的深度多目标跟踪器。

进一步优选地,所述通过匈牙利网络对初始多目标跟踪器进行训练,生成训练好的深度多目标跟踪器,包括:

根据双向递归神经网络构建匈牙利网络;

基于匈牙利网络生成分配矩阵和距离矩阵;

将目标跟踪准确度和精度表示为计算的分配矩阵和距离矩阵的可微函数,将所述可微函数作为损失函数,根据损失函数对初始多目标跟踪器进行训练生成训练好的深度多目标跟踪器。

进一步优选地,所述基于双向递归神经网络生成距离矩阵,包括:

基于双向递归神经网络,计算识别的人脸图像中检测位置与真实目标位置之间的距离矩阵。

优选地,所述计算识别的人脸图像中检测位置与真实目标位置之间的距离矩阵,包括:

根据欧几里得中心点距离和Jaccard距离的平均作为距离,计算识别的人脸图像中检测位置与真实目标位置之间的距离矩阵。

进一步地,所述将识别的人脸图像输入训练好的深度多目标跟踪器,还包括:

获取被反向传播的近似跟踪性能度量的梯度,根据所述梯度更新多目标跟踪器权重。

进一步地,所述获取被反向传播的近似跟踪性能度量的梯度,根据所述梯度更新多目标跟踪器权重后,还包括:

根据标准MOT评估措施计算相关的损失函数,通过数据驱动的方式训练多目标跟踪器。

本发明的另一实施例提供了一种视频多目标跟踪设置,装置包括:

图像解析模块,用于获取待跟踪的视频,对视频进行解析,生成视频对应的帧图像;

目标跟踪模块,用于对帧图像进行人脸识别,将识别的人脸图像输入训练好的深度多目标跟踪器;

结果获取模块,用于获取深度多目标跟踪器的输出结果,完成人脸的多目标跟踪。

本发明的另一实施例提供了一种视频多目标跟踪设备,所述设备包括至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的视频多目标跟踪方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的视频多目标跟踪方法。

有益效果:本发明实施例通过多目标跟踪器实现视频中的多目标跟踪,跟踪器实现方法简单,跟踪精度高。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1为本发明一种视频多目标跟踪方法较佳实施例的流程图;

图2为本发明一种视频多目标跟踪装置的较佳实施例的功能模块示意图;

图3为本发明一种视频多目标跟踪设备的较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。以下结合附图对本发明实施例进行介绍。

本发明实施例提供了一种视频多目标跟踪方法。请参阅图1,图1为本发明一种视频多目标跟踪方法较佳实施例的流程图。如图1所示,其包括步骤:

步骤S100、获取待跟踪的视频,对视频进行解析,生成视频对应的帧图像;

步骤S200、对帧图像进行人脸识别,将识别的人脸图像输入训练好的深度多目标跟踪器;

步骤S300、根据深度多目标跟踪器的输出结果,完成人脸的多目标跟踪。

具体实施时,本发明实施例主要针对于网络直播课中的多目标跟踪。获取待跟踪的视频,对视频进行解析,生成视频对应的帧图像;对帧图像进行人脸识别,为检测到的每张人脸创建多目标跟踪器,初始化多目标跟踪器;通过匈牙利网络对初始多目标跟踪器进行训练;将帧图像输入训练好的多目标跟踪器;根据多目标跟踪器的输出结果,完成人脸的多目标跟踪。

进一步地,对帧图像进行人脸识别,将识别的人脸图像输入训练好的深度多目标跟踪器,包括:

对帧图像进行人脸识别,为检测到的每张人脸创建多目标跟踪器,初始化多目标跟踪器;

通过匈牙利网络对初始多目标跟踪器进行训练,生成训练好的深度多目标跟踪器。

具体实施时,通过人脸识别算法对帧图像中的人脸进行识别,根据检测到的人脸创建多目标跟踪器,实现对人脸的跟踪,通过人脸的状态获取人的状态。初始化多目标跟踪顺,通过匈牙利算法对初始多目标跟踪器进行训练,生成可用于对人脸进行跟踪的深度多目标跟踪器。

进一步地,通过匈牙利网络对初始多目标跟踪器进行训练,生成训练好的深度多目标跟踪器,包括:

根据双向递归神经网络构建匈牙利网络;

基于匈牙利网络生成分配矩阵和距离矩阵;

将目标跟踪准确度和精度表示为计算的分配矩阵和距离矩阵的可微函数,将所述可微函数作为损失函数,根据损失函数对初始多目标跟踪器进行训练生成训练好的深度多目标跟踪器。

具体实施时,本发明实施例提出了一种新的可微的多目标跟踪器训练框架,它提出了标准的评测度的可微变量,将其组合成一种新的损失函数,适用于多目标跟踪(MOT)方法的端到端训练。特别地,本发明实施例引入了一个可微的网络模块——深度匈牙利网络模块。提出的逼近方法是基于双向递归神经网络,该神经网络在预测的基础上生成分配矩阵和距离矩阵。然后将目标跟踪精度和精度表示为计算的分配矩阵和距离矩阵的可微函数,将所述可微函数作为损失函数,根据损失函数对初始多目标跟踪器进行训练生成训练好的深度多目标跟踪器。

深度匈牙利网络由两个连续的Bi-RNN构成,输入尺寸为N*M的距离矩阵D,进行一个逐行的平坦化,得到尺寸为M×N的一维向量。将平坦化后的向量输入到第一个Bi-RNN中得到尺寸为M×N*2h的张量,其中h为Bi-RNN的中间层数量。将张量大小重新变为M*N*2h,再进行逐列的平坦化,得到尺寸为N×M*2h的张量作为第二个Bi-RNN的输入,得到尺寸为N×M*2h的输出张量。将得到的张量输入到三个FC层中得到尺寸为N×M的输出向量,然后重新定义成尺寸为N*M的分配矩阵。

目标跟踪精度和精度的可微代理分别指跟踪准确度MOTA和跟踪精度MOTP,是多目标跟踪算法(MOT)评价指标中的两个,可微是指数学计算中的微分概念。

深度匈牙利网络允许估计目标轨迹和真值对象之间的对应关系。具体是指学习以一种可微的方式将预测的跟踪与真实目标进行匹配,真值即原始数据的标注数据,就是原图像中真实的值。

基于标准多目标跟踪评估测量MOTA和MOTP的新的损失函数用于端对端的训练深度多目标跟踪器。具体方法就是提出了一个新的网络模块–深度匈牙利网络,学习以一种可微的方式将预测的跟踪与真实目标进行匹配。

MOTA和MOTP共同衡量算法连续跟踪目标的能力(即,在连续帧中能准确判断目标的个数,精确的划定其位置,从而实现不间断的连续跟踪)。MOTP(multiple objecttracking precision)多目标跟踪的精确度,体现在确定目标位置上的精确度,用于衡量目标位置确定的精确程度。MOTA(multiple object tracking accuracy)多目标跟踪的准确度,体现在确定目标的个数,以及有关目标的相关属性方面的准确度,用于统计在跟踪中的误差积累情况。

进一步地,基于双向递归神经网络生成距离矩阵,包括:

基于双向递归神经网络,计算识别的人脸图像中检测位置与真实目标位置之间的距离矩阵。

进一步地,计算识别的人脸图像中检测位置与真实目标位置之间的距离矩阵,包括:

根据欧几里得中心点距离和Jaccard距离的平均作为距离,计算识别的人脸图像中检测位置与真实目标位置之间的距离矩阵。

具体实施时,训练时,计算检测位置与真实目标位置之间的距离矩阵。利用IoU计算距离矩阵时,如果两个边界框没有交集,距离1-IoU始终为常数1,来自损失的梯度始终为0,没有信息被反向传播。因此,利用欧几里得中心点距离和Jaccard距离的平均作为距离:

其中,

J(x

进一步地,将识别的人脸图像输入训练好的深度多目标跟踪器,还包括:

获取被反向传播的近似跟踪性能度量的梯度,根据所述梯度更新多目标跟踪器权重。

具体实施时,深度匈牙利网络模块,从近似跟踪性能度量的梯度被反向传播,以更新跟踪器权重。

进一步地,获取被反向传播的近似跟踪性能度量的梯度,根据所述梯度更新多目标跟踪器权重后,还包括:

根据标准MOT评估措施计算相关的损失函数,通过数据驱动的方式训练多目标跟踪器。

具体实施时,通过这种方式,可以使用与标准MOT评估措施直接计算相关的损失,以数据驱动的方式训练对象跟踪器。

由以上方法实施例可知,本发明提供了一种视频多目标跟踪方法,该方法通过提出目标跟踪精度和精度的可微代理来弥补这一差距,将其合并为一个适合于深度多目标跟踪器端到端训练的损失函数。作为一个关键的组成部分,还提出了一个深度匈牙利网络模块,它近似匈牙利匹配算法。深度匈牙利网络允许估计目标轨迹和真值对象之间的对应关系,从而计算目标跟踪精度和精度的可微分代理,进而直接用于优化深度跟踪器。

需要说明的是,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施例的描述可以理解,不同实施例中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。

本发明另一实施例提供一种视频多目标跟踪装置,如图2所示,装置1包括:

图像解析模块11,用于获取待跟踪的视频,对视频进行解析,生成视频对应的帧图像;

目标跟踪模块12,用于对帧图像进行人脸识别,将识别的人脸图像输入训练好的深度多目标跟踪器;

结果获取模块13,用于获取深度多目标跟踪器的输出结果,完成人脸的多目标跟踪。

具体实施方式见方法实施例,此处不再赘述。

本发明另一实施例提供一种视频多目标跟踪设备,如图3所示,设备10包括:

一个或多个处理器110以及存储器120,图3中以一个处理器110为例进行介绍,处理器110和存储器120可以通过总线或者其他方式连接,图3中以通过总线连接为例。

处理器110用于完成,设备10的各种控制逻辑,其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的视频多目标跟踪方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行设备10的各种功能应用以及数据处理,即实现上述方法实施例中的视频多目标跟踪方法。

存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储根据设备10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,执行上述任意方法实施例中的视频多目标跟踪方法,例如,执行以上描述的图1中的方法步骤S100至步骤S300。

本发明实施例提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤S100至步骤S300。

作为示例,非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明并非限制,RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被处理器执行时,使处理器执行上述方法实施例的视频多目标跟踪方法。例如,执行以上描述的图1中的方法步骤S100至步骤S300。

以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存在于计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外,诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解,否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此,这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供视频多目标跟踪方法及装置的示例。当然,不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合,但是可以认识到,所公开的特征的许多另外的组合和置换是可能的。因此,显而易见的是,在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外,或在替代方案中,本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是,本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语,但是它们在通用和描述性意义上被使用并且不用于限制的目的。

相关技术
  • 一种基于深度学习的视频多目标跟踪方法、装置及设备
  • 一种基于深度学习的视频中多目标跟踪方法及装置
技术分类

06120112436307