掌桥专利:专业的专利平台
掌桥专利
首页

一种基于注意力机制的行人重识别方法

文献发布时间:2023-06-19 11:57:35


一种基于注意力机制的行人重识别方法

技术领域

本发明涉及目标检测技术领域,尤其涉及一种基于注意力机制的 行人重识别方法。

背景技术

现代社会高速发展,社会安防措施和人们的安全意识与日俱增, 监控技术的应用也渗透进生活的各个方面,不管是在人群密集的场所, 还是在需要安保的场所,一般监控都是全方位覆盖。在监控领域,计 算机通过监控摄像头来获取巨量的视觉信息,同时利用相关算法来完 成识别任务。目标检测算法用于定位和识别监控视频中的行人、机动 车、非机动车等目标。通过该算法完成监控任务,包括监控目标跟踪、 行为识别和重识别等。考虑到单个摄像头覆盖范围有限,可以将多个 摄像头联动,组合实现对目标跨摄像头的跟踪,行人重识别技术是实 现多摄像头跟踪的重要技术之一。

行人重识别技术用于识别不同视角下、不同监控拍摄的特定行人, 给定由某个监控捕获的特定目标的图像,行人重识别系统在其他监控 中重新识别该对象。表现出不同摄像头拍摄同一个目标的差异情况以 及拍摄不同目标时在视觉上表现相似的情况,不同监控拍摄得到的画 面可能存在光线、视角、姿态等变化以及遮挡等问题,不同摄像头由 于视角和拍摄时间不同导致得到的相同目标的图像也存在明显区别; 有时,因为不同目标由于存在某种相似性也会干扰行人重识别系统的 判断,此时同一个监控中的不同行人对象也在视觉分布上具有相似性。

行人重识别的研究可以追溯到多摄像头追踪研究分支,在早期, 行人重识别任务的模型基于多摄像头间使用几何校正,1997年提出 贝叶斯公式,该公式用来估计出现在给定摄像头中的行人为其他摄像 头所拍摄行人的后验概率。模型使用的特征为多态时空特征,包括颜 色,车辆的长、宽、高,速度以及观察到的时间等。2005年研究人 员正式提出行人重识别这个概念,对一个离开拍摄区域,一段时间后 又重新回到原拍摄视野的行人目标进行重新识别,假设每个被观测对 象都存在唯一的潜在标签,定义一种描述动态贝叶斯网络编码标签和 所拍摄特征间关系的概率模型。在深度学习未引入行人重识别之前, 传统的行人重识别方法大致分为两大类:使用手工特征以及度量学习。 2014年深度学习首次引入到行人重识别领域,Yi等人使用孪生网络 判定监控图像中是否为同一个目标。在最近几年的研究中,基于深度 学习的行人重识别方法在某些方面重新开始使用手工特征。例如Li等人从图像块中提取局部颜色特征,之后使用分层高斯方法对特征执 行聚类操作来获得空间信息。除此之外,手工选择特征时还可以选择 使用基于属性的特征,基于属性的特征具有更强鲁棒性。Liu等人在 无监督方法中使用一般属性的手工特征来获取行人目标原型,根据原 型自适应学习得到不同行人目标相应的权重值。在手动提取特征的行 人重识别系统中,由于视觉特征这类手工属性具有高维的特点,无法 在不断变化的样本中捕捉得到不变的因子,因此不同的距离度量方式 产生不同的性能表现。在行人重识别领域,广泛使用的是基于全局监 督的度量学习,全局度量学习的目标是最小化同类对象特征向量之间 的距离,最大化异类对象特征向量之间的距离,广泛使用的度量方式 是马氏距离。在研究初期,基于深度学习的行人重识别方法的最大瓶 颈在于训练数据匮乏。目前基于卷积神经网络的行人重识别方法一般 选择使用孪生模型,但是孪生网络存在的问题是在网络训练过程中可 能仅学习到图像对或者三元图像的标签信息,不能充分利用行人目标 的注释信息,学习到的特征表征可能存在偏差。行人重识别任务需要 关注不同尺度的特征,2017年,Li等人使用膨胀率不同的膨胀卷积 提取多尺度特征后实现行人重识别任务;2018年,Song等人为了解 决行人重识别背景杂乱,将行人掩码信息引入行人重识别任务中,根 据二值掩码,移除杂乱的背景,将人体目标从整张图像中分割出来, 从而完成行人重识别任务。

虽然行人重识别领域经历了多轮的技术更迭,但是仍然存在一些 亟待解决的问题,第一点,由于摄像机得到的监控视频流无法表现出 序列特征的相关性,因此视频特征的重要性也无法得到有效区分,在 行人重识别任务中影响了目标特征的表征效果;第二点,从不同维度 描述监控图像时,缺乏从跨维度、跨模态的全局视野去捕捉更具整体 判别效果的关键特征。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于注意力机 制的行人重识别方法。

本发明的目的通过下述技术方案实现:

一种基于注意力机制的行人重识别方法,该方法主要包括如下具 体步骤:

S1、准备数据集,数据清洗、预处理以及数据增强;

S2、特征提取器的设计;

S3、特征优化器的设计;

S4、特征融合器的设计;

S5、特征分类器的设计;

S6、注意力机制在通道域上的设计;

S7、注意力机制在空间域上的设计;

S8、合成网络对输入数据进行训练。

进一步地,所述步骤S1还包括:对收集到的数据样本进行清洗 以及预处理,把图像序列以及光流序列全部缩小到128×256大小, 然后以0.2的概率进行水平翻转来增强训练集。

进一步地,所述步骤S2还包括:特征提取器提取模态的基本特 征,光流输入模态经过特征提取器后获得特征X和特征F,然后输入 到特征优化器进行后续处理,在提取特征时,通过叠加神经网络来增 加网络深度,实现远距离的信息提取任务,越高层的卷积神经网络层 具有更大的感受野,从而可以捕获更多图像特征信息。

进一步地,所述步骤S3还包括:在网络架构中,所述特征优化 器通过神经元的串联结构来捕捉视频序列流中的上下文信息,在感知 信息的监督下,采用门结构的形式来学习权重参数,对模态数据进行 优化处理,具体表现为:模态每一帧的信息都具有前后相邻帧中的连 续信息以及模态的全局感知能力。

进一步地,所述步骤S4还包括:特征融合器将特征优化器的输 出特征沿着通道方向进行融合处理,得到整个视频段的最终表征向量, 将得到的特征加权拼接,特征融合器采用改进后的残差网络,不同层 的特征具有不同的图像信息表征能力,在低维阶段,输出特征图中缺 乏语义信息,在高维阶段,输出特征图具有更多上下文信息及语义信 息。

进一步地,所述步骤S5还包括:特征分类器的输入为特征融合 器输出的表征向量,传送到全连接层用于分类,最终实现行人重识别 的任务。

进一步地,所述步骤S6还包括:通道注意力建模出不同通道即 不同特征图之间的联系,通过网络学习自动获取每个特征通道的重要 程度,最后再为每个通道赋予相应的权重系数,借助权重参数来强化 重要特征以及抑制无关特征。

进一步地,所述步骤S7还包括:空间注意力机制嵌入到原始网 络中,计算每个位置单独的特征时需要对所有位置执行加权的操作, 从而建立起多帧特征间的联系,每个分支的基础特征分别利用自注意 力进行全局优化,利用帧级优化的特征生成全局注意力掩码,使得段 级的特征优化具有双模态的全局感知信息。

进一步地,所述步骤S8还包括:在网络的实际训练过程中,根 据以ResNet50为基础提取网络的ImageNet预训练模型对本发明中构 建的网络进行参数初始化,采用批量梯度下降进行训练,其中batch size的大小设置为8,在训练过程中随机失活率设置为0.5,学习率 初始值设置为0.001,学习率每经过10个epoch就衰减10%。

与现有技术相比,本发明还具有以下优点:

(1)本发明所提供的基于注意力机制的行人重识别方法与传统 技术相比实践条件更宽松且性能更优越,本发明提出的算法不仅达到 了很好的图像增强效果,同时也较好地保留了低质量图像的细节信息; 传统的注意力机制通过全局平均池化计算出一个权值系数,然后利用 该系数对原始输入特征图执行统一缩放的操作,全局平均池化在二维 空间层面上对输入张量进行分解,浓缩为单个系数值,可能导致空间 细节信息的缺失,而且只基于通道操作,可能忽略掉空间中的关键信 息。本发明构建的模型生成带有多模态全局感知效果的权重矩阵,相 比过去用于行人重识别任务的网络具有提升全局特征的优化效果,网 络各层的特征在视频表征上互补,因此增强了网络最终行人识别的判 别能力。

(2)本发明所提供的基于注意力机制的行人重识别方法通过神 经元的串联结构来捕捉序列上下文的联系,在上下文感知的基础上增 加模态间的特征感知,学习不同特征之间的关联权重,提高特征的有 效区分能力。

附图说明

图1是本发明所提供的基于注意力机制的行人重识别方法的流 程图;

图2是本发明所提供的网络模型的整体架构示意图;

图3是本发明所提供的空间注意力机制嵌入到网络后的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确,以下参照 附图并举实施例对本发明作进一步说明。

以下首先就本发明的技术术语进行解释与说明:

感受野:感受野表示输入空间中一个特定CNN特征的范围区域。 一个特征的感受野可以采用区域的中心位置和特征大小进行描述。 CNN中每层的Feature Map上的像素点在原始图像中映射的区域大小, 相当于高层的特征图中的像素点受原图多大区域的影响。

上采样:上采样又称为放大图像或图像插值,主要目的是放大原 图像,从而可以显示在更高分辨率的显示设备上。图像放大几乎都是 采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适 的插值算法插入新的元素。

下采样:即缩小图像,主要目的有两个:使得图像符合显示区域 的大小以及生成对应图像的缩略图。

数据增强:图像增强的方式有很多,如裁剪、翻转、旋转、缩放、 扭曲等几何变换,还有像素扰动、添加噪声、光照调节、对比度调节、 样本加和或插值、分割补丁等。数据增强可以提高模型性能,原因在 于:增强的样本和原来的样本存在强相关性,数据增强扩充了数据集, 并且可以带来某种正则化作用,因为模型会更集中地观测数据总的普 遍模式,而消除了某些和普遍模式无关的数据,进而可以减小模型的 结构风险。

卷积层:是深度学习提取特征的基本网络层,卷积是一种过滤器, 是通过矩阵之间对应元素相乘并累加的结果,迭代移动的矩阵称为卷 积核,卷积核一般是较小的矩阵,因此卷积具有局部性,迭代地对图 像特征矩阵进行卷积操作,可以得到矩阵的局部感知和局部特征;除 此之外,卷积核具有共享参数的作用,所以在训练过程中减少参数量。

池化层:增加模型感受野的关键层,池化是一种局部区域特征描 述的方式,将局部特征融合得到一个特征值作为整个局部的表征,分 为最大池化和平均池化,体现在RoIPooling中;全局平均池化指的是 将最后一层网络层得到的每个通道特征图平均池化得到通道的特征, 每个通道特征代表模型提取出的一个图形信号分量,在网络设计时把 全局平均池化层取代全连接层是一个常用技巧。

激活函数层:卷积核池化都是线性操作,所以需要激活函数来进 行非线性地变换,使得网络能够去拟合非线性的环境。其中激活函数 sigmoid还可以用于模型特征图归一化,是常见的归一化函数。

全连接层:每个神经元都与上层所有神经元紧密相连,对上一层 网络的特征加权,从而将特征空间线性映射到样本空间,全连接层可 以看做是分类器,缺点是全连接设计导致参数量巨大;因为全连接还 具有关联通道特征的作用,所以也会使用在网络设计时的注意力机制 中。

循环神经网络:在时序上传递的网络,与全连接网络和卷积神经 网络是完全不同的设计架构。循环神经网络的前向传播计算需要综合 当前节点的输入和上一隐藏层的值,反向传播时也是类似的。

卷积神经网络:由卷积层、池化层、激活函数层、全连接层等相 关网络层构建得到,通过网络层的堆叠设计,网络模型感受野的增加, 提取图像的下层特征、中层特征以及上层特征,实现图像表征。

实施例一

如图1至图3所示,本实施例公开了一种基于注意力机制的行人 重识别方法,包括如下具体实施步骤:

S1、准备数据集,数据清洗、预处理以及数据增强;在网上筛选 两个摄像头的视频序列监控数据,收集了其中200个用户实例,得到 的视频序列有400份。

模型的整体架构设计,主要包括四个模块:特征提取器、特征优 化器、特征融合器、特征分类器。除了基础架构外,还要在结构中引 入注意力机制,注意力机制的引入需要结合两个模态,一个是基于通 道域的模态,另一个是基于空间域的模态,之所以考虑两个模态是因 为在不同模态上具有不同表征。注意力机制是模型设计中最重要的部 分,许多功能的实现都与注意力机制相耦合。

S2、特征提取器的设计;视频流相较于图像数据而言,具有更丰 富的特征信息,但同时引入的冗余信息也会增加,所以需要在设计特 征提取器时考虑降低网络中的特征冗余程度。

S3、特征优化器的设计;在网络架构中,借助神经元串联的结构 设计来捕捉视频序列流中的上下文信息。

S4、特征融合器的设计;将低维和高维上不同表征的特征相融合。

S5、特征分类器的设计;

S6、注意力机制在通道域上的设计;输入是特征融合器输出的表 征向量,传送到全连接层用于分类,最终实现了行人重识别的任务。

S7、注意力机制在空间域上的设计;通道注意力将一个通道内的 信息直接进行全局处理,忽略空间上的信息交换。

注意力机制在空间域上的设计,空间注意力通过学习视觉特征的 全局相关性,辅助完成时空特征的区分任务。

S8、合成网络对输入数据进行训练;用合成网络训练预处理后的 数据集,训练过程中使用ResNet50作为基础网络的ImageNet预训练 模型。

步骤S1还包括:对收集到的数据样本进行清洗以及预处理,把 图像序列以及光流序列全部缩小到128×256大小,然后以0.2的概 率进行水平翻转来增强训练集。

注意力机制的本质是通过网络自主学习得到一组权重系数,以动 态加权的方式来强调输入中感兴趣的区域,同时抑制输入中不相关的 背景区域;注意力机制分为两类:强注意力和软注意力;强注意力是 一种随机的预测,注重的是动态变化,并且是不可微的,所以使用场 景受到限制;软注意力是可微的,基于梯度下降法训练的神经网络中 可以获得软注意力,正因为软注意力是可微的,所以在使用场景上相 对不会受到限制。软注意力按照不同维度,例如通道、空间、时间等, 将软注意力分为通道注意力、空间注意力以及自注意力。

步骤S2还包括:视频流相较于图像数据而言,具有更丰富的特 征信息,但也会在网络中引入过多的冗余信息,所以需要在设计特征 提取器时考虑降低网络中特征信息的冗余程度。特征提取器提取模态 的基本特征,光流输入模态经过特征提取器后获得特征X和F,然后 输入到特征优化器进行后续的处理操作。在提取特征时,通过叠加神 经网络来增加网络深度,实现长远距离的信息提取任务,越高层的卷 积神经网络层具有更大的感受野,从而可以捕获更多图像特征信息。 在进行特征提取时,卷积神经网络的窗口滑动过程没有先后顺序,不 同卷积核的卷积过程相互独立。视频流相对于图像数据来说信息更丰富,但同时在视频的单个序列中也会存在过多的冗余信息,所以特征 提取器在提取特征时需要聚焦于关键帧,降低信息冗余度,在相似特 征中保留一个特征即可。

步骤S3还包括:特征优化器由两个对称的注意力模块而构成, 根据全局注意力感知方式,由帧级优化特征生成权重掩码,对原始基 础特征的变换进行加权,得到对应模态的优化特征。特征优化器通过 神经元的串联结构来捕捉视频序列流中的上下文联系,在感知信息的 监督下,采用门结构的形式来学习权重参数,对模态数据进行特征的 优化操作,使得模态每一帧信息中都具有前后相邻帧中的连续信息以 及模态的全局感知能力。

步骤S4还包括:特征融合器是将特征优化器的输出特征图沿通 道方向进行融合处理,得到整个视频段的最终表征向量。在特征融合 网络的设计过程中,考虑了多种设计方案,第一种方案是把每个分支 网络输出特征向量的权重值均设置为1,即平均分配重要程度,然后 再送入后续网络中进行训练,模型自适应学习得到各自真实权重值; 第二种方案是手动设置每个分支网络输出特征向量融合时的权重值, 然后再送入后续网络,在训练过程中进行参数的微调;本发明在设计 网络过程或者采用第二种特征加权拼接方式,特征融合器由改进后的 52层残差网络构成,不同网络层的特征具有不同的图像信息表征能力,在低维阶段,由于感受野比较小,所以输出特征图缺乏语义信息, 在高维阶段,感受野较大,此时网络输出特征图具有了更多的上下文 信息以及语义信息。

步骤S5还包括:特征分类器的输入是特征融合器输出的表征向 量,传送到全连接层用于分类,最终实现了行人重识别任务。

步骤S6还包括:通道注意力建模出不同通道即不同特征图之间 的联系,网络自适应学习获取每个特征通道的重要程度,为每个通道 赋予不同的权重系数,借助权重参数强化重要特征以及抑制无关特征。 SENet网络借助特征重标定自适应调整通道之间的特征响应,SENet 网络结构中对输入图像先降维再升维,利用两个多层感知机学习不同 通道间的联系,当前每个特征图都与其他特征图交互,属于密集型连 接。基础卷积网络提取特征,随着网络层数高度增加,输出通道数也 会增加,每个通道都可以看做是图像信号的部分分量,即图像的某个 特征,最后经过全局平均池化操作得到基础的特征表征。在输出的每 个特征通道上设置参数,通过附加不同参数引入相应的监督信息,实 现在特征通道上对注意力加权的操作。可以将全局平均池化操作泛化 表示为2维的离散余弦变换,借助离散余弦变换在模型中引入更多频 率分量,通过频域来弥补现有通道注意力方法中特征信息不足的缺点, 每个特征通道图都等效于输入图片在不同卷积核上对应的不同分量。

从特征通道本身出发,不同特征表示不同信息,全局平均池化这 类操作极大抑制图像特征的多样性,全局平均池化操作等价于离散余 弦变换的最低频率分量,若在网络设计过程中仅使用全局平均池化操 作,则会忽略输入图像中大量有用的频率分量,导致输出特征图中信 息丰富度不理想。

步骤S7还包括:空间注意力机制嵌入到网络中,在每个位置上 执行加权的操作来获取每个位置单独的特征,从而建立起多帧特征间 的联系。每个分支网络的基础特征利用自注意力机制进行全局优化的 操作,利用帧级优化的特征生成全局注意力掩码,从而在段级特征上 具有双模态的全局感知。空间注意力机制提升输入图像关键区域的特 征表示,将原始图像中的空间信息通过空间转换模块变换到另一个空 间域并保留关键信息,在每个位置生成权重掩膜,执行加权操作后输 出,从而增强输入中的感兴趣区域以及弱化背景区域。CBAM在通道 注意力机制的基础上,在原始网络中引入空间注意力模块,该模块在 通道上执行全局平均池化操作以及全局最大池化操作,两个操作分别 输出代表不同信息的特征图,将输出特征图合并,再借助具有较大感 受野的7×7卷积核来执行特征融合的操作,最后输入sigmoid激活 函数层,生成权重图并且与原始输入特征图相叠加,空间注意力机制 针对每个通道中的特征都做相同程度的处理,在处理过程中忽略通道 之间的交互,增强了原始输入中目标区域的特征。

步骤S8还包括:网络实际训练过程中,根据ResNet50为基础特 征提取网络的ImageNet预训练模型对本发明中构建的网络进行参数 初始化,网络训练时采用批量梯度下降算法,其中batch size设置 为8,训练过程中随机失活率设置为0.5,学习率初始值为0.001, 学习率每经过10个epoch就衰减10%。

本发明的工作过程和原理是:本发明提供了一种基于注意力机制 的行人重识别方法,针对仍然在行人重识别领域尚未解决的两大问题, 包括不能完整获取监控视频流序列的特征相关性,以至于无法准确得 到目标特征的表征效果;以及缺少基于维度和模态的全局视野去捕捉 更具有整体判别效果的关键特征。本发明构建出的模型从帧级别上得 到一个上下文感知模块以及一个多模态感知的特征优化网络结构,模 型采用卷积神经网络提取基础特征,通过循环神经网络实现特征间的 串联,除此之外,引入自注意力机制到行人重识别的双流网络上,双 流段级注意力感知网络通过上一阶段的帧级优化特征生成关联权重 掩码,获取多模态的感知信息。本发明构建的网络架构从两个级别上 对视频双流特征进行了优化,监控视频流在帧级别和段级别的特征沿 通道融合,输出视频流的最终表征,提升网络的整体表达能力。

本发明设计的模型是一种基于注意力机制学习视频段特征关联 的监督学习模型,基于双流基础,考虑视频段不同特征间的关联关系, 区分每帧视频中不同特征的重要性,通过空间注意力机制学习基于段 的特征,与传统空间注意力机制区别在于,本发明通过帧优化特征生 成注意力权重,使得视频段的全局感知具有多模态的监督信息。本发 明构建的网络生成携带多模态全局感知效果的权重矩阵,相比过去用 于行人重识别任务的网络,本发明构建的网络中各层特征在视频表征 上互补,因此增强了网络行人重识别的判别能力。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不 受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下 所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都 包含在本发明的保护范围之内。

相关技术
  • 一种基于注意力机制的行人重识别方法
  • 一种基于互相关注意力机制的跨模态行人重识别方法
技术分类

06120113116074