掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及计算机视觉技术领域,特别是一种基于改进HAT注意力机制的YOLOv7车辆识别方法。

背景技术

近年来,车辆识别技术在人工智能领域的学术界和工业界引起了广泛的研究关注,其在智慧城市,自动驾驶,以及智能交通等领域均产生了积极的影响。现有技术中,对多类型车辆违章停车进行采集和数据处理,还无法实现对多类型机动车不同停车位、停车点的准确识别和快速响应,不适合在不同街道、公路、高速等环境进行连续监测。

发明内容

有鉴于此,本发明的目的在于提供一种基于改进HAT注意力机制的YOLOv7车辆识别方法,能够准确有效地进行多类型车辆的违章检测识别。

为实现上述目的,本发明采用如下技术方案:一种基于改进HAT注意力机制的YOLOv7车辆识别方法,包括以下步骤:

步骤S1:通过线上的监控数据集和线下的城镇监控摄像头的方式获取车辆数据集,将得到的数据集使用AlignMix方法进行数据增强处理;

步骤S2:将得到的数据集分别作为训练集和验证集,利用Labelimg标注应用实现对数据的标注处理,实现数据的可利用性;

步骤S3:使用改进的HAT注意力机制的YOLOv7目标检测算法,对数据集进行多次训练建模;

步骤S4:按照指定训练参数进行迭代训练,根据RSLoss损失函数计算损失函数值并验证准确率不断保存最优模型,利用最终模型得到多类型车辆识别方法。

在一较佳的实施例中:步骤S1具体包括以下步骤:

步骤S11:通过线上监控数据集和线下城镇监控摄像头的方式获取车辆数据集;

步骤S12:采用AlignMix方法对获得的数据集进行数据增强处理;将两张或多张的车辆图片剪切和粘贴到一张图像中;两个图像的对齐方法,主要是在图像的表征向量上使用optimal transport实现,得到两个图像的对齐矩阵,再结合对齐矩阵进行插值,同时保持一组特征的位置,这样得到两张或多张新的车辆图片,使得数据集的数据更具有普遍性。

在一较佳的实施例中:步骤S2具体包括以下步骤:

步骤S21:将得到的数据集分别作为训练集和验证集,使用Labelimg标注应用实现对数据的标注处理,并将结果以YOLO的形式输出到数据集对应的文件夹中,这样就完成数据方面的准备。

在一较佳的实施例中:步骤S3具体包括以下步骤:

步骤S31:YOLOv7目标检测算法在利用输入信息时只能使用有限的空间范围,因此我采用Hybrid Attention Transformer注意力机制,结合通道注意力和基于窗口的自注意力机制,充分利用它们在利用全局统计信息和强大的局部拟合能力方面的互补优势,旨在通过结合深度学习技术和注意力机制来改进图像超分辨率任务SR;具体实现由两个方面组成;

步骤S32:首先我们要解决剩余混合注意力组RHAG;每个RHAG包含M个混合注意力块HAB和一个3×3卷积层;具体来说,对于第RHAG_i个RHAG,表示为

F

F

其中F

在一系列HAB的映射之后,插入一个OCAB来扩大基于窗口的self-attention并更好地聚合跨窗口信息;在RHAG结束时,保留之后的卷积层还添加了残差连接以稳定训练过程;

步骤S33:其次,我们要解决混合注意块HAB模块;CAB通道注意块与SW-MSA模块并行插入到标准Swin Transformer块中的第一个LayerNorm层之后的问题;在连续HAB中,每隔一段时间就会采用基于移位窗口的自我注意(SM_MSA);将一个小的常数α乘以CAB的输出;对于给定的输入特征IN_X,HAB的整个过程计算为

X

X

OUT_Y=MLP(LN(X

其中X

步骤S34:最后是通道注意力块(CAB)模块,它由两个标准卷积层组成,它们之间有一个GELU激活函数和一个通道注意(CA)模块;通过两个卷积层之间的常数β来压缩通道数;对于具有IN_C个通道的输入特征,第一个卷积层后输出特征的通道数被压缩到C

X

其中X

将上述模块组合加入到YOLOv7里,得到被改进HAT注意力机制优化过后的YOLOv7目标检测算法。

在一较佳的实施例中:步骤S4具体包括以下步骤:

步骤S41:我们采用Rank&Sort Loss损失函数简化原来模型训练的复杂性,并能使得模型达到更好的效果;

首先我们进行损失函数的定义,Rank-based损失函数表示为:

其中ρ是正样本的集合,Z是一个问题特定的归一化常数,l(sample_i)是在正样本上计算的误差项,sample_i表示第sample_i个样本;

步骤S42:接着我们进行损失函数的计算,先是给定一组logits层的数据logits_S,计算S

X

基于上面得到的X

其中P(sample_j|sample_i)表示概率质量函数在在sample_j和sample_i个样本上的值,N表示负样本的集合;

最后我们进行δ的归一化求和得到最后的损失函数值δ:

其中L

步骤S43:经过多次迭代优化训练,得到最终的权重文件;该权重文件识别Car,Bus,Truck类型的车辆,并且精确度较高。

与现有技术相比,本发明具有以下有益效果:

1、本发明构建的一种基于改进HAT注意力机制的YOLOv7车辆识别方法能够准确有效地对车辆进行高效的识别和检测,从而实现较高的识别准确率。

2、本发明仅使用类别标注,无需诸如标注框在内的一系列额外人工标注。

3、本发明在YOLOv7中添加HAB注意力机制模块,提升YOLOv7网络对图像中多类型车辆的注意程度,在检测中对此区域进行加强处理,排除干扰信息,提高检测效率;

4、本发明针对不同场景下道路中的多类型车辆均由良好的检测识别能力,并验证了结果的准确性。

附图说明

图1为本发明优选实施例的原理示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示,本实施例提供了一种基于改进HAT注意力机制的YOLOv7车辆识别方法,具体包括以下步骤:

步骤S1:通过线上的监控数据集和线下的城镇监控摄像头的方式获取车辆数据集,将得到的数据集使用AlignMix方法进行数据增强处理;

步骤S2:将得到的数据集分别作为训练集和验证集,利用Labelimg标注应用实现对数据的标注处理,实现数据的可利用性;

步骤S3:使用改进的HAT注意力机制的YOLOv7目标检测算法,对数据集进行多次训练建模;

步骤S4:按照指定训练参数进行迭代训练,根据RSLoss损失函数计算损失函数值并验证准确率不断保存最优模型,利用最终模型得到多类型车辆识别方法。

在本实施例中,包括步骤S1具体包括以下步骤:

步骤S11:通过线上监控数据集和线下城镇监控摄像头的方式获取车辆数据集;

步骤S12:采用AlignMix方法对获得的数据集进行数据增强处理。将两张或多张的车辆图片剪切和粘贴到一张图像中。两个图像的对齐方法,主要是在图像的表征向量上使用optimal transport(最优运输)实现,得到两个图像的对齐矩阵,再结合对齐矩阵进行插值,同时保持一组特征的位置,这样可以得到两张或多张新的车辆图片,使得数据集的数据更具有普遍性;在本实施例中,步骤S2具体包括以下步骤:

步骤S21:将得到的数据集分别作为训练集和验证集,使用Labelimg标注应用实现对数据的标注处理,并将结果以YOLO的形式输出到数据集对应的文件夹中,这样就完成了数据方面的准备;

在本实施例中,步骤S3具体包括以下步骤:

步骤S31:YOLOv7目标检测算法在利用输入信息时只能使用有限的空间范围,因此我采用Hybrid Attention Transformer(HAT)注意力机制,结合了通道注意力和基于窗口的自注意力机制,充分利用它们在利用全局统计信息和强大的局部拟合能力方面的互补优势,旨在通过结合深度学习技术和注意力机制来改进图像超分辨率任务(SR)。具体实现由两个方面组成。

步骤S32:首先我们要解决剩余混合注意力组(RHAG)。每个RHAG包含M个混合注意力块(HAB)和一个3×3卷积层。具体来说,对于第RHAG_i个RHAG,可以表示为

F

F

其中F

在一系列HAB的映射之后,插入一个OCAB来扩大基于窗口的self-attention并更好地聚合跨窗口信息。在RHAG结束时,保留之后的卷积层还添加了残差连接以稳定训练过程。

步骤S33:其次,我们要解决混合注意块(HAB)模块。CAB(通道注意块)与SW-MSA(基于移位窗口的自我注意)模块并行插入到标准Swin Transformer块中的第一个LayerNorm(LN)层之后的问题。在连续HAB中,每隔一段时间就会采用基于移位窗口的自我注意(SM_MSA)。为了避免CAB和MSA在优化和视觉表示上可能发生的冲突,将一个小的常数α乘以CAB的输出。对于给定的输入特征IN_X,HAB的整个过程计算为

X

X

OUT_Y=MLP(LN(X

其中X

步骤S34:最后是通道注意力块(CAB)模块,它由两个标准卷积层组成,它们之间有一个GELU激活函数和一个通道注意(CA)模块。通过两个卷积层之间的常数β来压缩通道数。对于具有IN_C个通道的输入特征,第一个卷积层后输出特征的通道数被压缩到C

X

其中X

将上述模块组合加入到YOLOv7里,我们就得到了被改进HAT注意力机制优化过后的YOLOv7目标检测算法。在本实施例中,步骤S4具体包括以下步骤:

步骤S41:我们采用Rank&Sort Loss(RSLoss)损失函数简化原来模型训练的复杂性,并能使得模型达到更好的效果。

首先我们进行损失函数的定义,Rank-based损失函数可以表示为:

其中ρ是正样本的集合,Z是一个问题特定的归一化常数,l(sample_i)是在正样本上计算的误差项,sample_i表示第sample_i个样本。

步骤S42:接着我们进行损失函数的计算,先是给定一组logits层的数据logits_S,计算S

X

基于上面得到的X

其中P(sample_j|sample_i)表示概率质量函数在在sample_j和sample_i个样本上的值,N表示负样本的集合。

最后我们进行δ的归一化求和得到最后的损失函数值δ:

其中L

步骤S43:经过多次迭代优化训练,得到最终的权重文件。该权重文件可识别Car,Bus,Truck等类型的车辆,并且精确度较高。

特别的,本实施例提出了改进的YOLOv7目标检测模型,使用AlignMix方法,在YOLOv7模型中添加一个Anchor检测头,用于检测相匹配的小目标,并在Head层添加小目标检测层,能够提高对小目标物体的检测识别准确率;本实施例在YOLOv7中添加注意力机制HAT模块,提升YOLOv7网络对图像中车辆的注意程度,在检测中对此区域进行加强处理,排除干扰信息,提高检测效率;本实施例针对不同场景下道路中的多类型车辆均由良好的检测识别能力,并验证了结果的准确性。

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

相关技术
  • 基于改进注意力机制的并行时空特征选择的手势识别方法
  • 基于小波分析和改进CBAM注意力机制的手势识别方法
技术分类

06120116509978