一种面向夜间场景的车辆边界定位方法

文献发布时间：2024-04-18 19:58:26

技术领域

本发明属于计算机视觉技术领域，具体是涉及一种面向夜间场景的车辆边界定位方法。

背景技术

在人工智能技术日益发展与推广的今天，计算机视觉技术在人工智能领域也渐成热点研究领域；其中，图像处理技术在智能交通领域得到了广泛而深入的应用，例如无人驾驶汽车、无人物流车，道路交通监控等，这使得基于深度学习方法的车辆检测系统越来越受到重视。在计算机视觉领域，车辆边界框位置确定是一个重要的问题，目的在于对影像上的车辆进行精确定位，确定尺寸；然而目前夜间图像识别系统还存在识别效果不佳的问题，其主要原因是道路上对向车辆的车灯或者路灯等光源对该系统的影响。夜间光照分布不均匀，没有路灯或者距离较远的车辆会比较暗，而距离较近的车辆则可能因为对向车辆车灯或者路灯显得过亮，这些明暗的变化使得汽车的夜间识别系统容易出现误差，识别准确率低，车辆的边界框产生模糊性，容易使得车辆边界与夜间环境背景融为一体无法很好地界定其边界，导致车辆边界框的定位精度下降等等。除此之外，车辆搭载移动端硬件算力普遍偏低，对网络模型要求较为轻量的模型。这些都严重影响了车辆边界检测算法检测精度和实时性。因此，如何在夜间场景下实现精确的车辆边界框的定位，并且使得网络模型尽量小巧，是当前计算机视觉研究的迫切需求。

专利申请CN115171079A公开了一种基于夜间场景的车辆检测方法，利用动态滤波网络来生成特定于样本的卷积核，针对不同夜间图像样本，使用不同增强方法来约束每个增强子网络；但其所实现的模型没有进行轻量化的措施，模型自身的体积也将更庞大，要求算力相对较强，在实际部署到车辆上时，由于车载设备的算力不高，可能导致检测速度下降，甚至检测失败，从而无法部署到与其类似的低算力终端上；其也没有针对夜间环境下边界的模糊性进行优化，在实际场景中，当遭遇大货车这样的大型车辆时，不能对车辆边界进行高效准确的定位，由此可能由于对车辆边界判断不准，导致一系列交通事故发生。

发明内容

为解决上述技术问题，本发明提供了一种面向夜间场景的车辆边界定位方法，增强夜间车辆边界定位效果同时轻量化网络模型。

本发明所述的一种面向夜间场景的车辆边界定位方法，包括以下步骤：

S1、采集夜间道路场景的图像数据；

S2、将采集到的图像数据划分成训练集、验证集、和测试集，对图像数据进行预处理；

S3、使用检测模型对预处理后的图像数据进行边框标注，得到标签图像数据集；并利用标签图像数据集及训练集对检测模型进行训练，获得最终的教师模型；

S4、构建学生模型，并利用定位蒸馏方法对教师模型所学边界定位知识进行蒸馏，最终得到轻量级网络模型；

S5、将测试集数据输入到轻量级网络模型中，输出车辆的位置坐标信息，设置阈值过滤置定位框，使用非极大值抑制删除重复的定位框，最终获得夜间场景的车辆位置。

在实施过程中，选取的模型是可以替换的，教师模型可以是任意较大的参数较多的检测模型。

进一步的，S2具体为：

利用车载摄像头或者道路监控摄像头采集图像数据，相机拍摄的图像原始为RAW格式，此格式记录了相机传感器的原始信息，包含相机的快门速度光圈值等；利用深度学习网络，将此原始格式作为输入，相当于引入了这些信息，可以更输出效果更好的光照增强后的常规RGB格式图片。

进一步的，S3具体为：

使用检测模型对图像数据进行标注，得到标注结果，并对标注结果进行修正；得到的标签为定位框的坐标信息，即矩形框四个角的坐标点，使用工具可以将其可视化；错误的定位框肉眼可以看到边界框并未框住目标或者位置偏差较大，通过人工将其删除；

将修正后的标注数据作为训练数据继续训练检测模型，直至检测模型收敛。

进一步的，构建学生模型具体为：

初始阶段通过卷积操作后进行Batch Normalization归一化，紧接着经过ReLU激活函数，再经过最大池化层，减小特征图的尺寸；

随后所述模型分为三个阶段：第一阶段包括依次连接的一个下采样模块和4个基础模块；第二阶段依次连接的一个下采样模块和8个基础模块，进一步提取和处理特征；第三阶段包含一个下采样模块和4个基础模块，用于深化特征的表达能力；在各个阶段中，所述基础模块由卷积、归一化、激活函数和CBAM注意力模块组成；基础模块之间的连接通过通道重排机制实现；

然后，模型再次经过卷积和Batch Normalization归一化，接着进行全局平均池化，将特征图转化为固定大小；

最后，通过全连接层将特征映射到最终的输出类别，得到预测结果。

进一步的，S4具体为：将标注结果与训练集、验证集的图像数据同时输入教师模型及学生模型，分别得到车辆定位框信息；

将教师模型输出的车辆定位框信息与学生模型输出的车辆定位框信息的差异作为损失函数的第一部分LOSS1；将学生模型输出的结果与真实标签的差异作为损失函数的第二部分LOSS2；将学生模型输出的定位框的置信度与教师模型输出的定位框的置信度的差异作为损失函数的第三部分LOSS3；所述LOSS1、LOSS2、LOSS3均使用平滑L1损失函数；将LOSS1、LOSS2、LOSS3加权求和作为学生模型的最终损失函数对学生模型进行训练，直至收敛，得到最终的轻量级网络模型。其中，LOSS1、LOSS2使学生模型学习更准确的界定边界的能力，LOSS3使得学生模型也能学习到教师模型对边界框置信度的判断能力。

本发明所述的有益效果为：本发明所述的方法针对夜间场景下车辆边界框模糊的问题，采用教师-学生模型对夜间采集的车辆数据进行处理；首先使用检测模型进行标注，待标注结果出来后进行人工审核和修正，将修正后的标注数据作为训练数据去训练上述的检测模型，使用训练后的检测模型再去进行标注，重复上述的过程，实现迭代的进行标注与训练，最终模型能性能和标注的质量会接近一个稳定的状态即为模型收敛；此策略最终可以同时达到数据标注与模型训练的目的，训练出的模型就可以作为教师模型；构建的学生模型的结构紧凑而高效，通过通道重排和分组卷积等技术，大幅减少了计算和内存开销，适用于资源有限的设备；同时采用了CBAM注意力模块则进一步增强了模型的特征表示能力，提升了性能和准确度。基于低算力平台对算法部署要求较高，本发明引入定位蒸馏技术，有效解决其模糊边界定位难的问题，防止因为车辆与背景相融，边界判断不准确导致车辆擦碰甚至相撞；提高了检测模型的定位精度，能够对智慧交通场景中车辆违规情况进行较为准确的判断；布设于车载360度全景影像系统中可以通过对周边车辆的实时检测来实现较为准确的定位，以避免交通事故的发生，或为自动驾驶提供较好的实施条件。

附图说明

图1是本发明所述方法的流程图；

图2是学生模型训练结构框架示意图；

图3是学生模型结构示意图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

如图1和2所示，本发明所述的一种面向夜间场景的车辆边界定位方法，包括以下步骤：

S1：在城市道路的7个路口上收集数据集，每个路口设有两个相机，相机被设定为当识别到车辆的接近时，会估算车辆的距离，在车辆距离相机分别为3米、6米和10米时对车辆进行拍摄，以此记录下每天夜间8点至凌晨2点这个时间段内所通过的车辆的图片信息，经过一个星期的收集与筛选，总共收集了10万张的黑暗环境车辆图像数据。

S2、将采集到的图像数据划分成训练集、验证集、和测试集，对图像数据进行预处理；

S4、构建学生模型，如图3所示，此模型是一个接受RGB图像作为输入的高效神经网络模型。其初始阶段通过卷积操作后进行Batch Normalization归一化，紧接着经过ReLU激活函数，再经过最大池化层，有效地减小特征图的尺寸。随后，模型分为三个阶段。第一阶段包括一个下采样模块(DownsampleUnit)和4个基础模块(BasicUnit)，它们有序地相互连接。第二阶段由一个下采样模块和8个基础模块构成，它们依次连接以进一步提取和处理特征。第三阶段包含一个下采样模块和4个基础模块，用于深化特征的表达能力。在各个阶段中，基础模块(BasicUnit)是模型的核心，由卷积、归一化、激活函数和CBAM注意力模块等组成。基础模块之间的连接通过通道重排机制实现，有效促进了特征的交换和信息流动，提升了特征表示的能力。

在三个阶段之后，模型再次经过卷积和Batch Normalization归一化，接着进行全局平均池化，将特征图转化为固定大小，为全连接层做准备。最后，通过全连接层将特征映射到最终的输出类别，得到预测结果。

如图2所示，利用定位蒸馏方法对教师模型所学边界定位知识进行蒸馏，将标注结果与训练集、验证集的图像数据同时输入教师模型及学生模型，分别得到车辆定位框信息，最终得到轻量级网络模型。

具体的，S2：对于采集到的图像信息，先按照8:1:1的比例将图像数据划分为训练集、验证集和测试集，接着采用传统的图像处理方法，使用高斯滤波对收集到的图像信息进行预处理，使得人眼更加容易分辨车辆边界，便于后续标注工作，接着使用Yolov5模型预训练的车辆识别模型权重对全部数据进行第一轮检测，得到图像对应的检测结果标签文件，然后使用图片标注工具，将步骤S2中经过高斯滤波处理过的数据集以及得到的标签文件导入工具中，通过删除检测错误的定位框，增加未检测出的定位框，还有精细地调整车辆定位框的边界，使其准确界定车辆的边界，以此手动完成图像的第二轮标注。

步骤S3：选取YoloV5模型作为教师模型，将标注生成的标签与未经过处理的原图片中的训练集与验证集输入到模型中对其进行训练，将车辆位置的模型检测结果与实际标注结果的平滑L1损失函数作为模型损失函数，使用预训练模型权重文件Yolov5m.pt作为初始权重来降低训练所用时间和数据量，在英伟达3090型号的GPU服务器上训练300轮，选出其准确率最高的的模型权重文件，将其作为最终教师模型。

步骤S4：选取SAD(ShufferAttentionDet)网络模型作为学生模型，同时将标注生成的标签与未经过处理的原图片中的训练集与验证集输入到教师模型与学生模型中，将教师模型输出的车辆位置信息与学生模型输出的车辆位置信息的平滑L1损失函数以及两个模型分别输出的置信度的平滑L1损失函数加权求和作为训练的损失函数，反向传播时仅对学生网络进行更新，以此训练200轮，从中筛选出准确率最高模型权重作为最终学生模型。

步骤S5：将测试集的数据输入到得到的学生模型中，输出车辆的位置坐标信息，再设置阈值为0.5，过滤置信度低于0.5的定位框，并用非极大值抑制删除网络中输出的冗余重复的定位框，最终获得夜间场景的车辆位置。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

完整全部详细技术资料下载