掌桥专利:专业的专利平台
掌桥专利
首页

一种基于时序多尺度融合的行人重识别方法及系统

文献发布时间:2023-06-19 11:54:11


一种基于时序多尺度融合的行人重识别方法及系统

技术领域

本发明涉及行人识别技术领域,尤其涉及一种基于时序多尺度融合的行人重识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

近年来,随着卷积神经网络和深度学习的快速发展,越来越多的深度学习模型被应用于行人重识别问题。行人重识别旨在从不同摄像头视角匹配同一个目标人物的过程,其在交通、公共安防和视频监控中起着重要作用。目前主流的行人重识别方法大部分是基于单帧图像的,然而单帧图像给予的信息终有限,从而降低了行人识别的准确率,并且单帧的方法要求图像质量很高,这对于相机的布置和使用的场景是一个非常大的限制,因此研究基于视频序列的方法显得十分重要。

发明内容

本公开为了解决上述问题,提出了一种基于时序多尺度融合的行人重识别方法及系统,。

为实现上述目的,本公开采用如下技术方案:

第一方面,提出了一种基于时序多尺度融合的行人重识别方法,包括:

获取行人的视频段;

按照不同的时序尺度对视频段进行采样,获得不同的帧序列;

对每个帧序列进行特征提取,获得每个帧序列的特征;

将所有帧序列的特征进行融合,获得行人特征;

根据行人特征进行行人识别。

第二方面,提出了一种基于时序多尺度融合的行人重识别系统,包括:

视频获取模块,用于获取行人的视频段;

帧序列获取模块,用于按照不同的时序尺度对视频段进行采样,获得不同的帧序列;

帧序列的特征获取模块,用于对每个帧序列进行特征提取,获得每个帧序列的特征;

行人特征获取模块,用于将所有帧序列的特征进行融合,获得行人特征;

行人识别模块,用于根据行人特征进行行人识别。

第三方面,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成一种基于时序多尺度融合的行人重识别方法所述的步骤。

第四方面,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成一种基于时序多尺度融合的行人重识别方法所述的步骤。

与现有技术相比,本公开的有益效果为:

1、本公开针对视频段中行人行走速率不同的问题,采用不同的时序尺度对行人的视频段进行采样,获得不同的帧序列,并对不同帧序列的特征进行融合获取行人特征,能够在行人行走速率差异情况下,获取准确的行人特征,采用该行人特征进行行人识别时,提高了行人识别的准确率。

2、本公开可利用不同时序尺度提取行人特征,因此学习到的行人特征在时序上更稳定,并且能够自主适应多种速度的尺度,特别适用于行人重识别问题中行人行走速率变化的情况,能够解决行走速率差异引起的特征不匹配的问题,提高行人识别的准确率。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本公开实施例1公开的行人重识别模型框架图;

图2为本公开实施例1公开的3D卷积网络模型示意图;

图3为本公开实施例1公开的行人重识别模型测试流程图。

具体实施方式:

下面结合附图与实施例对本公开作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本公开各部件或元件结构关系而确定的关系词,并非特指本公开中任一部件或元件,不能理解为对本公开的限制。

本公开中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本公开中的具体含义,不能理解为对本公开的限制。

实施例1

为了实现对行人的准确识别,在该实施例中,公开了一种基于时序多尺度融合的行人重识别方法,包括:

获取行人的视频段;

按照不同的时序尺度对视频段进行采样,获得不同的帧序列;

对每个帧序列进行特征提取,获得每个帧序列的特征;

将所有帧序列的特征进行融合,获得行人特征;

根据行人特征进行行人识别。

进一步的,获取行人视频,从行人视频中划分出视频段。

进一步的,视频段的包含的帧数至少为四的偶数帧。

进一步的,不同的时序尺度之间为倍数关系。

进一步的,通过3D卷积网络从不同的帧序列中提取每个帧序列的特征。

进一步的,通过直接相加或串联的方法将所有帧序列的特征进行融合,获得行人特征。

进一步的,将行人特征输入Softmax分类器中进行行人识别,获得行人ID。

对本实施例公开的一种基于时序多尺度融合的行人重识别方法进行详细说明。

随着CNN在基于图像的任务中应用的成熟,部分研究者把其运用到了基于视频的领域中,为了弥补2D CNN只能处理空间维度信息的缺陷,获取更多的时间信息,研究者们提出使用3D卷积网络的方法进行特征提取,将图像层次特征聚合成一个视频片段层次的特征。

另外,对于不同视频中同一行人行走的速率会存在很大的不同,从而造成行走速率差异问题并影响到行人重识别模型的性能,因此,有必要发明一种基于时序多尺度融合的行人重识别方法,从不同时序尺度进行学习,能够学习到更稳定,更全面的时序特征,从而解决重识别过程中行人行走速率差异性问题。

本实施例针对相同行人在不同场景下具有不同行走速率造成的时序差异,公开的一种基于时序多尺度融合的行人重识别方法,通过采用基于时序多尺度融合的方法,利用不同时序尺度提取行人特征,针对视频段中行人行走速率不同的情况,采用时序多尺度融合机制解决行走速率差异的问题,在重识别过程中可广泛适用于跨行走速度场景下的视频序列进行查询。

一种基于时序多尺度融合的行人重识别方法,包括以下步骤:

S0:获取行人的视频段。

具体过程为:获取行人视频,从行人视频中划分出视频段,视频段包含的帧数为2n帧,n≧2。

在具体实施时,选取一段包含16帧的视频段,即n=8。

S1:按照不同的时序尺度对视频段进行采样,获得不同的帧序列。

具体过程为:根据m个不同的时序尺度将视频段等间隔进行采样,每种采样单独形成一个新的帧序列,从而获得m个不同的帧序列,不同的时序尺度即为不同的时序采样比。

在具体实施时,不同采样时序尺度之间是倍数关系,取m=3,采样倍数包括三种分别为:1/2倍、1倍、2倍。

三种时序尺度采样得到的帧序列分别包含n/2帧、n帧、2n帧,即4帧{1,6,11,16}、8帧{1,3,5,7,9,11,13,15}、16帧{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16}。

获取的m个不同的帧序列用于输入训练好的行人重识别模型中,获取行人识别结果。

行人重识别模型,如图1所示,包括:帧序列特征提取、帧序列特征融合和行人识别三个过程。

S2:对每个帧序列进行特征提取,获得每个帧序列的特征。

在具体实施时,将S1获得的m个不同的帧序列通过3D卷积网络进行特征提取,获得每个帧序列的特征。

如图2所示,将S1获取的帧序列以112x112像素大小输入到一个包含三层3D卷积池化层的3D卷积网络中。其中,

第一种时序尺度为降一倍采样频率提取,n/2=4帧,通过的第一层卷积层为(4x7x7);

第二种时序尺度为升一倍采样频率提取,2n=16帧,通过的第一层卷积层为(16x7x7);

第三种时序尺度为提取n=8帧,通过的第一层卷积层为(8x7x7);

通过3D卷积池化层网络后得到每个帧序列的特征为f

S3:将所有帧序列的特征进行融合,获得行人特征。

在具体实施时,可采用直接相加(Add)或者串联(Concate)的融合方法将不同帧序列的特征f

S4:根据行人特征进行行人识别。

具体为:将行人特征输入训练号的ID分类器中,获取行人ID。

在具体实施时,ID分类器为Softmax分类器。

其中,Softmax分类器训练时,以某视频行人重识别数据库中Dataset A(小规模库)数据集为例,Dataset A包含20个人的数据,每个人有12个图像序列、3个行走方向(与图像平面分别成0度,45度,90度),每个方向有4个图像序列,每个序列的长度随人行走的速度变化而有所不同,每个序列的帧数介于37到127之间。

从该数据集中,获取包含16帧的视频段,即n=8;

按照3中不同的时序尺度对该视频段进行采样,获得不同的帧序列,分别为:4帧{1,6,11,16}、8帧{1,3,5,7,9,11,13,15}、16帧{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16};

对每个帧序列进行特征提取,获得每个帧序列的特征f

将所有帧序列的特征进行融合,获得行人特征f;

通过行人特征f对Softmax分类器进行训练,利用Softmax作为最后的分类输出,优化交叉熵损失函数,其中i表示当前样本的行为类别标签,f

对行人重识别模型进行测试。

如图3所示,将需要注册到底库(gallery)的行人视频序列和用于测试的待检索帧序列(query)分别进行不同时序尺度采样,并通过特征提取和融合获得相对应的多尺度特征融合后的行人特征,将待检索帧序列的行人特征与底库行人视频序列获得的行人特征进行相似度匹配,即可得到对应的行人ID。具体步骤为:

对于待检索的行人视频以及注册到底库中的行人视频,每个行人视频均经过多种尺度采样,采样倍数包括三种(1/2倍,1倍,2倍),得到帧序列样本;

分别通过3D卷积网络(3D ConvNet)进行特征提取,如图2所示,帧序列图像以112x112像素大小作为输入到一个包含三层3D卷积池化层的网络中,得到该段帧序列图像特征f

将各个尺度帧序列特征进行融合,得到最终的行人特征;

将待检索行人图像特征与注册到底库gallery中的行人视频的行人特征进行匹配,通过相似度排序确定待检索行人在注册库中的身份ID。

本公开可利用不同时序尺度提取行人特征,因此学习到的行人特征在时序上更稳定,并且能够自主适应多种速度的尺度,特别适用于行人重识别问题中行人行走速率变化的情况,能够解决行走速率差异引起的特征不匹配的问题,从而依靠该行人特征进行行人识别时,提高了行人识别的准确性。

实施例2

在该实施例中,公开了一种基于时序多尺度融合的行人重识别系统,包括:

视频获取模块,用于获取行人的视频段;

帧序列获取模块,用于按照不同的时序尺度对视频段进行采样,获得不同的帧序列;

帧序列的特征获取模块,用于对每个帧序列进行特征提取,获得每个帧序列的特征;

行人特征获取模块,用于将所有帧序列的特征进行融合,获得行人特征;

行人识别模块,用于根据行人特征进行行人识别。

实施例3

在该实施例中,公开了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1公开的一种基于时序多尺度融合的行人重识别方法所述的步骤。

实施例4

在该实施例中,公开了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1公开的一种基于时序多尺度融合的行人重识别方法所述的步骤。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

相关技术
  • 一种基于时序多尺度融合的行人重识别方法及系统
  • 一种基于多尺度卷积特征融合的行人重识别方法
技术分类

06120113098204