掌桥专利:专业的专利平台
掌桥专利
首页

一种基于混合注意力行人重识别方法

文献发布时间:2023-06-19 18:46:07


一种基于混合注意力行人重识别方法

技术领域

本公开涉及计算机视觉技术领域,尤其涉及一种基于混合注意力行人重识别方法。

背景技术

随着计算机软硬件性能的提高,计算机视觉技术搭上了前进的快车道。但对于行人重识别这一领域来说仍然存在很多问题。通常,公共区域等场所的视频监控设备架设位置较高,导致镜头离行人距离相对较远,很难获得较为清晰的人脸特征,因此,行人重识别技术成为当今较为热门的研究方向,特别是在公安刑侦以及儿童丢失等公共安全问题上,急需在公共区域等场所来解决行人搜索这一问题。

相关技术中,传统的行人重识别方法依赖手工特征设计,不能适应数据量很大的复杂环境。近年来,以卷积神经网络为代表的深度学习在行人重识别领域取得了极大的成功。但提取的视觉特征易陷入局部最优,而忽略全局关系,导致识别准确率低下。

因此,有必要提供一种新的技术方案改善上述方案中存在的一个或者多个问题。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于混合注意力行人重识别方法,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开实施例提供的一种基于混合注意力行人重识别方法,该方法包括:

通过多尺度数据增强算法对图片数据集进行预处理,得到预处理后的所述图片数据集;其中,所述图片数据集为获取到的用于行人重识别的数据集;

构建混合注意力网络模型,并对构建的所述混合注意力网络模型进行调整,得到行人重识别模型;

将预处理后的所述图片数据集中的行人图片输入所述行人重识别模型中进行训练,得到训练好的所述行人重识别模型;

将待识别图片和待识别视频输入训练好的所述行人重识别模型,输出识别结果。

本公开的实施例中,所述构建混合注意力网络模型,并对构建的所述混合注意力网络模型进行调整的步骤中包括:

选用残差网络作为基本网络结构,在所述残差网络的最后三个瓶颈块添加混合注意力模块,得到调整后的所述混合注意力网络模型。

本公开的实施例中,所述构建混合注意力网络模型,并对构建的所述混合注意力网络模型进行调整的步骤之后还包括:

对调整后的所述混合注意力网络模型进行添加辅助信息编码,得到所述行人重识别模型。

本公开的实施例中,所述辅助信息编码通过所述图片数据集中的域信息、视觉信息构建而成。

本公开的实施例中,所述将预处理后的所述图片数据集中的行人图片输入到所述行人重识别模型中进行训练,得到训练好的所述行人重识别模型的步骤中包括:

使用难样本下的三元组损失函数调整所述行人重识别模型的参数;其中,所述三元组包括正样本、负样本和原样本。

本公开的实施例中,所述损失函数如下:

A表示锚点的特征向量,P表示正样本的特征向量,N表示负样本的特征向量,d为欧氏距离,所以d(A,P)表示正样本和锚点之间的欧氏距离,d(A,N)表示负样本和锚点之间的欧氏距离,max指的是两距离之间的一个最大间隔,min指的是两距离之间的一个最小间隔,括号右下角+表示,当表达式的值大于等于零的时候,损失值为当前表达式的值,当表达式的值小于零的时候,损失值为零。

本公开的实施例中,所述将预处理后的所述图片数据集中的行人图片输入到具有编码的所述混合注意力网络模型中进行训练,得到训练好的行人重识别模型的步骤中包括:

根据损失函数的值及损失函数曲线判断具有编码的所述混合注意力网络模型模型是否收敛。

本公开的实施例中,所述将预处理后的所述图片数据集中的行人图片输入到具有编码的所述混合注意力网络模型中进行训练,得到训练好的行人重识别模型的步骤中包括:

当损失函数在预设次数训练中取值变化不大时,则判断具有编码的所述混合注意力网络模型收敛,并停止训练,得到训练好的所述行人重识别模型。

本公开的实施例中,所述得到训练好的所述行人重识别模型的步骤之后还包括:

当编码的所述混合注意力网络模型模型收敛时,根据第一匹配率和平均精度均值判断收敛后的混合注意力模型性能。

本公开的实施例中,所述将待识别图片和待识别视频输入训练好的所述行人重识别模型,输出识别结果的步骤中包括:

当将所述待识别视频输入训练好的行人重识别模型时,提取视频每一帧的图像,通过计算每一帧图像的余弦相似度判断行人与数据库中的行人相似度并排序,输出识别结果。

本公开的实施例提供的技术方案可以包括以下有益效果:

本公开的一种实施例中,通过上述方法,通过多尺度数据增强算法随图片数据集进行预处理,得到预处理后的图片数据集;同时构建混合注意力网络模型,并对其进行调整,得到行人重识别模型,利用预处理后的图片数据集对行人重识别模型进行训练,得到训练好的行人重识别模型,便于后续将识别图片和待识别视频输入训练好的行人重识别模型,从而提高行人重识别的效率与准确率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种基于混合注意力行人重识别方法的步骤流程图;

图2示意性示出本公开示例性实施例中行人重识别流程图;

图3示意性示出本公开示例性实施例中混合注意力模块结构图;

图4示意性示出本公开示例性实施例中混合注意力网络模型结构图;

图5示意性示出本公开示例性实施例中混合注意力网络模型训练流程图;

图6示意性示出本公开示例性实施例中对于视频数据的行人重识别流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

本示例实施方式中首先提供了一种基于混合注意力行人重识别方法。参考图1中所示,该方法可以包括:

步骤S101:通过多尺度数据增强算法对图片数据集进行预处理,得到预处理后的所述图片数据集;其中,所述图片数据集为获取到的用于行人重识别的数据集。

步骤S102:构建混合注意力网络模型,并对构建的所述混合注意力网络模型进行调整,得到行人重识别模型。

步骤S103:将预处理后的所述图片数据集中的行人图片输入所述行人重识别模型中进行训练,得到训练好的所述行人重识别模型。

步骤S104:将待识别图片和待识别视频输入训练好的所述行人重识别模型,输出识别结果。

通过上述方法,通过多尺度数据增强算法随图片数据集进行预处理,得到预处理后的图片数据集;同时构建混合注意力网络模型,并对其进行调整,得到行人重识别模型,利用预处理后的图片数据集对行人重识别模型进行训练,得到训练好的行人重识别模型,便于后续将识别图片和待识别视频输入训练好的行人重识别模型,从而提高行人重识别的效率与准确率。

下面,将参考图1至图6对本示例实施方式中的上述方法的各个步骤进行更详细的说明。

在步骤S101中,通过多尺度数据增强算法对图片数据集进行预处理,得到预处理后的所述图片数据集;其中,所述图片数据集为获取到的用于行人重识别的数据集。具体的,获取用于行人重识别的图片数据集Market-1501、CUHK03-np、DukeMTMC-reID。根据每个数据集的命名规则将图片按照ID号分类,对图片进行旋转、翻转等扩充增强,使用MSR算法进行色彩增强,将增强后的图片分辨率统一调整至286×128。

Retinex算法的核心思想是尽可能减少入射分量对行人图像中行人特征的影响,并解析图像中包含的颜色属性,以此达到行人数据集图像增强的目的。多尺度Retinex(MSR)数据增强算法的计算过程如下:

其中,R(a,b)代表物体的反射性质,图像的内在属性,I(a,b)是原始图像数据,n表示MSR算法中多尺度的个数,经过多次验证,n为3时达到最佳效果,ω

式中,λ

需要说的是,Market-1501、CUHK03-np、DukeMTMC-reID是目前常用的行人重识别数据集。

在步骤S102中,构建混合注意力网络模型,并对构建的所述混合注意力网络模型进行调整,得到行人重识别模型。具体的,如图3所示,构建一个混合注意力网络模型,其主要组成为一个并行的自注意力机制与深度可分离卷积,并对构建好的混合注意力网络模型进行调整,得到调整后的混合注意力网络模型,即为行人重识别模型,以便后续使用。

需要说明的是,注意力机制是从大量信息中筛选少量重要信息,并聚焦到这些重要信息上,忽略大多不重要的信息。自注意力机制是注意力的变体,减少其对外部信息的依赖,使其更擅长捕捉数据或者特征内部的相关性来解决长距离依赖问题。自注意力机制在通道之间共享权重,好处是降低计算的参数与复杂度的复杂性,但缺点是对通道维度的信息建模能力差。

深度卷积是一个卷积核辅助一个通道,不同于普通卷积,深度卷积独立地在每个通道上进行计算。其计算过程完全在2D的特征图内进行,卷积核的数量与上一层相同,输出的特征图数量与输入层的通道数相同。深度卷积在空间位置共享连接权重,深度卷积得益于位置间的权重共享,既降低了参数复杂度又增加网络能力。

还需要说明的是,基于自注意力与深度卷积应该是互补的理念,是能在学习过程中为彼此提供额外信息的,因此,提出并行设计,同时建模空间信息与维度信息来增强模型提取鲁棒性特征的能力。

在步骤S103中,将预处理后的所述图片数据集中的行人图片输入所述行人重识别模型中进行训练,得到训练好的所述行人重识别模型。具体的,利用经过预处理后的图片数据集行人图片,对行人重识别模型进行训练,得到训练好的行人重识别模型。以便后续利用训练好的行人重识别模型进行识别待识别图片。

在步骤S104中,将待识别图片和待识别视频输入训练好的所述行人重识别模型,输出识别结果。具体的,训练好的行人重识别模型后,将待识别图片和待识别视频输入到训练好的行人重识别模型后,得到识别结构,从而提高行人重识别的效率与准确率。

可选的,在一些实施例中,所述构建混合注意力网络模型,并对构建的所述混合注意力网络模型进行调整的步骤中包括:

选用残差网络作为基本网络结构,在所述残差网络的最后三个瓶颈块添加混合注意力模块,得到调整后的混合注意力网络模型。具体的,调整混合注意力网络模型,选用残差网络(ResNet50)作为基本网络结构,进一步的,用的ResNet50网络为来自ImageNet上预训练的残差网络,进一步调整的网络结构包括:将混合注意力模块插入在ResNet的第5层网络的瓶颈块中,输入为来自ResNet50的前4层网络输出,经过混合注意力处理后的输出为拼接来自深度卷积与自注意力的N维特征,N为超参数。

在一个实施例中,更改来自ImageNet上预训练的残差网络ResNet50,将混合注意力层插入到其第五层网络中。将自注意力机制的输出与深度卷积的输出拼接为N维的特征,经过1×1卷积升维后,通过一层线性层、全局平均归一化层、激活函数ReLU层得到最终的图像特征,网络结构如图3所示。

图3每一层完成的功能如下:输入为行人图片,第一卷积层到第五卷积层每一层都是对输入图片的2倍下采样,输入图片特征为(64*128*3),第四层输出图片特征为(4*8*1024),第五层输出图片特征为(2*4*2048);特征拼接:将第四层输出图片特征与第五层输出图片特征进行拼接形成3072维特征。

可选的,在一些实施例中,所述构建混合注意力网络模型,并对构建的所述混合注意力网络模型进行调整的步骤之后还包括:

对调整后的所述混合注意力网络模型进行添加辅助信息编码,得到所述行人重识别模型。具体的,所涉及的辅助信息编码包括相机编码与视角编码,通过嵌入这些辅助信息编码对模型进行优化,以学习到不变的非视觉特征。

在一个实施例中,所述辅助信息编码通过所述图片数据集中的域信息、视觉信息构建而成。其中,域信息,比如包括不同的摄像头标签,视角信息,比如包括摄像机不同的视角标签。

可选的,在一些实施例中,所述将预处理后的所述图片数据集中的行人图片输入到所述行人重识别模型中进行训练,得到训练好的所述行人重识别模型的步骤中包括:

使用难样本下的三元组损失函数调整所述行人重识别模型的参数;其中,所述三元组包括正样本、负样本和原样本。

可选的,在一些实施例中,所述损失函数如下:

A表示锚点的特征向量,P表示正样本的特征向量,N表示负样本的特征向量,d为欧氏距离,所以d(A,P)表示正样本和锚点之间的欧氏距离,d(A,N)表示负样本和锚点之间的欧氏距离,max指的是两距离之间的一个最大间隔,min指的是两距离之间的一个最小间隔,括号右下角+表示,当表达式的值大于等于零的时候,损失值为当前表达式的值,当表达式的值小于零的时候,损失值为零。

具体的,难样本挖掘三元组损失指的是:对每一个批次挑选出来多个行人,每个行人随机挑出多个张图片,对于每一张图片,都会挑选出目标样本的特征向量A、与目标样本最不相似的正样本的特征向量P、与目标样本最相似的负样本的特征向量N组成三元组。其中,目标样本也称原样本或锚点。

可选的,在一些实施例中,所述将预处理后的所述图片数据集中的行人图片输入到所述行人重识别模型中进行训练,得到训练好的行人重识别模型的步骤中包括:

根据损失函数的值及损失函数曲线判断具有编码的所述混合注意力网络模型是否收敛。具体的,将增强后的行人图片输入到新构建的行人重识别模型中进行训练,最小化三元组损失函数对模型行人重识别模型参数进行优化,设置每次训练随机丢失隐含层的节点数,设置全部训练集中样本训练的次数,设置学习率,选择优化器,根据损失曲线判断损失是否收敛,当损失函数在一定次数(如5次、10次等)训练中取值变化不大时,即可判断具有编码的混合注意力网络模型收敛,停止训练,从而得到训练好的行人重识别模型,训练流程如图5所示。

可选的,在一些实施例中,所述将预处理后的所述图片数据集中的行人图片输入到所述行人重识别模型中进行训练,得到训练好的行人重识别模型的步骤中包括:

在一个实施例中,当损失函数在预设次数训练中取值变化不大时,则判断所述混合注意力网络模型收敛,并停止训练,得到训练好的所述行人重识别模型。

具体的,如果损失函数在预设次数训练中的取值接近稳定时,即变化不大时,则意味着混合注意力网络模型此时处于收敛,进一步的,当混合注意力网络模型此时处于收敛时,则停止对混合注意力网络模型进行训练,即已经得到了训练好的行人重识别模型。

可选的,在一些实施例中,所述得到训练好的所述行人重识别模型的步骤之后还包括:

当编码的所述混合注意力网络模型收敛时,根据第一匹配率和平均精度均值判断收敛后的混合注意力模型性能。具体的,当混合注意力模型收敛时,则可以根据第一匹配率和平均精度均值判断收敛后的混合注意力模型性能,也即可以根据第一匹配率和平均精度均值判断训练好的行人重识别模型性能。具体可参考现有技术进行计算第一匹配率和平均精度均值,本实施例对此不再赘述。

可选的,在一些实施例中,所述将待识别图片和待识别视频输入训练好的所述行人重识别模型,输出识别结果的步骤中包括:

当将所述待识别视频输入训练好的行人重识别模型时,提取视频每一帧的图像,通过计算每一帧图像的余弦相似度判断行人与数据库中的行人相似度并排序,输出识别结果。

具体的,视频序列包括待查询的行人候选图,在提取行人时会将行人出现的时间与位置一同记录到数据库中。其中,余弦相似度可参考现有技术进行计算,本实施例对此不再赘述。

需要说明的是,判断标准使用余弦相似度,计算视频提取的候选图和行人图片中每个行人的余弦距离,对图片中行人按照距离排序,距离表征了二者之间相似程度,相似程度越高的,则二者为同一人的概率越高。最后依次输出行人出现在视频中的时间信息以及具体位置,完成行人重识别。

还需要说明的是,对视频信息的行人重识别系统构建如附图6所示,可以总结为以下几个步骤:

(1)数据采集,获取来源于监控摄像机的原始视频。

(2)行人框生成,从采集到的数据中通过人工标注或辅助算法(如行人检测、目标跟踪)将行人从图中裁剪出来,要求行人在裁剪后的图片中占据绝大部分空间。

(3)训练数据标注,在图片的命名中加入相机编号、视角标签、行人标签、当前视频帧的时间等其他信息。

(4)模型训练,将标注好的数据送入设计好的深度学习模型,使模型从数据中学习如何识别不同行人的隐藏表达模式。

(5)行人检索,将训练好模型应用到测试场景中,检验其实际效果。

下面通过实验对本公开做进一步说明。

根据上述描述的行人重识别方法的步骤,验证了在Market-1501、CUHK03-np、DukeMTMC-reID三个图片数据集上的识别性能。性能测试结果表明,本发明的方法在三种图片数据集下的Rank-1分别为93.9%、80.0%、87.7%,mAP分别为91.6%、79.3%、75.6%。Rank-1为识别结果中第1张图的结果正确率,也称第一匹配率,mAP为平均精度均值,是将多分类任务中的平均精度求和再取平均。本发明的识别精度和第一匹配率均较为优秀。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

技术分类

06120115686040