一种基于深度时空孪生网络的目标跟踪方法

文献发布时间：2023-06-19 12:19:35

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于深度时空孪生网络的目标跟踪方法。

背景技术

目标跟踪是计算机视觉中的重要研究课题，并且在过去的几十年中引起了极大的关注。尽管已经付出了很多努力并且最近取得了一些进展，但是由于内在因素(例如目标变形和快速运动)和外在因素(例如遮挡和背景杂波)，它仍然是一项艰巨的任务。强大的视觉跟踪算法在视觉监视、人机交互、安全和防御、视频编辑等方面具有巨大的潜在应用。

不同于检测、识别等视觉领域深度学习一统天下的趋势，深度学习在目标跟踪领域的应用并非一帆风顺。其主要问题在于训练数据的缺失：深度模型的魔力之一来自于对大量标注训练数据的有效学习，而目标跟踪仅仅提供第一帧的bounding-box作为训练数据。这种情况下，在跟踪开始针对当前目标从头训练一个深度模型困难重重。

发明内容

本发明的目的是提供一种基于深度时空孪生网络的目标跟踪方法，提升了目标跟踪的准确性和鲁棒性。

本发明为实现上述发明目的采用如下技术方案：

本发明提供了一种基于深度时空孪生网络的目标跟踪方法，包括：

获取预先生成的候选框，所述候选框通过将模板帧与搜索帧输入孪生网络模块获得特征图并根据特征图进行分类和回归生成；

将获取的候选框输入ST-LSTM和预测网络模块进行置信度计算，选取置信度得分最高的候选框；

将置信度得分最高的候选框输入细化回归网络模块，通过相关滤波细化目标位置，获得跟踪结果。

进一步地，所述孪生网络模块包括：

上支路模块，用于使用卷积神经网络提取模板帧的特征，获得模板帧特征图；

下支路模块，用于使用卷积神经网络提取搜索帧的特征，获得搜索帧特征图；

处理模块，对获得的模板帧特征图、搜索帧特征图进行互卷积获得响应图，根据响应图生成候选框。

进一步地，所述卷积神经网络包括5个卷积层和3个最大池化层，5个卷积层卷积核的大小依次为11×11、5×5、3×3、3×3和3×3，最大池化层池化核为2×2。

进一步地，所述ST-LSTM和预测网络模块包括预训练的ST-LSTM网络与预测网络；

所述ST-LSTM网络用于对孪生网络模块中的目标信息进行收集，将历史信息与当前信息进行融合，获得具有历史感知的目标信息；

所述预测网络用于根据目标信息预生成多个区域提案中的候选者排名，输出候选框的得分。

进一步地，所述预测网络包括三个全连接层，其中两个全连接层包括512个节点，剩余一个全连接层的输出为候选框的得分。

进一步地，所述细化回归网络模块包括相关滤波层，所述相关滤波层用于处理根据候选框得分对其进行筛选后的候选框获得响应图，通过响应图细化搜索帧上的估计位置，回归跟踪结果。

进一步地，所述相关滤波层包括两个分别带有ReLU和LRN的卷积层。

本发明的有益效果如下：

本发明的目标跟踪方法将孪生网络、ST-LSTM和相关滤波结合起来，形成了基于深度时空孪生网络的目标跟踪模型。将模板帧与搜索帧输入孪生网络获得的候选框送入ST-LSTM和预测网络进行置信度计算，再将置信度得分最高的候选框输入细化回归网络，通过相关滤波细化目标位置，获得跟踪结果。该方法一方面通过孪生网络获得视频帧中目标的表观信息，另一方面通过ST-LSTM获得目标的时序信息，将其融合并通过相关滤波进行细化回归，三者共同确定跟踪结果，提升了目标跟踪的准确性和鲁棒性。

附图说明

图1为根据本发明实施例提供的一种基于深度时空孪生网络的目标跟踪方法的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明提供一种基于深度时空孪生网络的目标跟踪方法，包括以下步骤：

步骤1，构建深度时空孪生网络的目标跟踪模型，具体步骤如下：

深度时空孪生网络模型主要包括孪生网络，ST-LSTM和预测网络和细化回归网络，孪生网络模块用于提取特征获得候选框，ST-LSTM和预测网络模块用于对目标信息进行记忆并根据记忆的目标信息对候选框计算得分并进行排名，细化回归网络用于根据得分对候选框进行筛选并将筛选后的候选框输入相关滤波获得得响应图回归跟踪结果。所述步骤1包括如下步骤：

步骤1-1：构建孪生网络，使用卷积神经网络提取视频帧全局特征，孪生网络模块中的上支路、下支路的卷积神经网络均包含5个卷积层和3个最大池化层，5个卷积层卷积核的大小依次为11×11、5×5、3×3、3×3和3×3，最大池化层池化核为2×2。上支路模块用于使用卷积神经网络提取模板帧的特征，获得模板帧特征图。下支路模块用于使用卷积神经网络提取搜索帧的特征，获得搜索帧特征图。最后通过处理模块对获得的模板帧特征图、搜索帧特征图进行互卷积获得响应图，根据响应图生成候选框。

步骤1-2：将候选框送入ST-LSTM与预测网络，ST-LSTM网络用于从孪生网络中对信息进行收集，将历史信息与当前信息进行融合，获得具有历史感知的目标信息。随后的预测网由三个全连接组成，并且在每个全连接层之间，我们使用了Dropout和非线性ReLU来防止过拟合。前两个全连接层设计为包含512个节点，而最后一个全连接层的输出为候选框的得分。最终，通过预测网来预测多个区域提案中的候选者排名。

步骤1-3：将筛选后的候选框送入细化回归网络模块，设计两个分别带有线性整流函数(ReLU)和局部响应归一化(LRN)的卷积层作为相关滤波层，根据ST-LSTM与预测网络输出的候选框得分对候选框进行筛选并将筛选后的候选框输入相关滤波获得得响应图，通过响应图细化搜索帧上的估计位置，回归最终位置。

步骤2，训练孪生网络，具体步骤如下：

根据目标尺寸和位置，对数据集中的每一段目标视频帧序列中的每一帧图像进行裁剪，获得所有帧图像的目标区域图像和搜索区域图像，将其作为训练集，然后，我们使用ImageNet预训练特征提取层，将其中前三个卷积层的参数固定，并且仅在孪生网络中微调后两个卷积层，这些参数采用随机梯度下降的训练方法通过优化方程中的损失函数获得。

步骤3，训练ST-LSTM和预测网络，具体步骤如下：

对ST-LSTM网络进行离线训练，时间LSTM和空间LSTM中LSTM单元的深度分别设置为20和3，隐藏单元数分别设置为100和50。对于第一帧，裁剪一个包含20个排序样本(重叠大于0.8)的训练元组。当将新处理帧上的目标加入到训练元组中，对元组中的样本进行移位，剔除最前面的样本。对预测网络进行在线训练，在第一帧上提取500个阳性样本(重叠>＝0.7)和5000个阴性样本(重叠<0.5)以用随机梯度下降的方法训练预测网络，预测网络每十帧进行一次微调。

步骤4，训练细化回归网络，具体步骤如下：

对细化回归网络进行离线训练，我们选取ILSVRC2015 VID数据集作为训练集，采用动量为0.9的随机梯度下降的训练方法从头开始训练网络。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：韩光;王福祥;肖峣;刘旭辉;
专利申请人：南京邮电大学;

上一篇：一种治疗冠心病的复方中药组合物及其制备方法和应用
下一篇：一种新型氮氧传感器标定测试系统