掌桥专利:专业的专利平台
掌桥专利
首页

基于改进的网络模型的视频中吸烟检测方法及系统

文献发布时间:2024-04-18 19:58:21


基于改进的网络模型的视频中吸烟检测方法及系统

技术领域

本发明属于视频检测技术领域,具体地涉及一种基于改进的网络模型的视频中吸烟检测方法及系统。

背景技术

现有的视频中吸烟行为检测的解决方案大致分为两种:

第一种是物理检测,使用传统的烟雾报警装置来检测香烟。该方案检测精度受限于检测环境。并且检测范围有限,通常需要多个设备同时工作,后期维护困难,必要时需要换新,成本较高。

第二种是基于深度学习和计算机视觉的解决方案。已有的视觉吸烟检测模型主要使用主流的二阶段网络Faster-RCNN,一阶段网络SSD。虽然该方法已经超过肉眼的检测水平,但由于模型本身的限制无法同时满足工业自动化部署的检测精度和检测速度。也有部分工作基于Yolo-v4或者YOLOv5实现目标检测,但由于YOLOv5的快速检测特性,目标的定位准确性可能会受到一定的影响。在复杂场景或目标重叠较多的情况下,YOLOv5可能会出现目标定位不准确的情况。

此外由于香烟目标较小,以及吸烟的姿态多变,这些因素极大的影响了上述吸烟监测模型的检测精度和鲁棒性。

公告号CN 113807276 A公开了基于优化的YOLOv4模型的吸烟行为识别方法,包括获取人员吸烟和人员未吸烟的图像,并对图像进行预处理得到训练集;对训练集中的每个图像进行标注,标签类别包括smoking和person;优化YOLOv4模型框架,在模型的骨干网络中加入小目标增强注意力机制,提升了检测算法对不同尺寸目标的检测能力,改进模型颈部网络的PANet结构,增加小目标特征为目标的特征网络的贡献,将优化的模型作为吸烟行为检测模型。该方法对小目标的检测能力有一定的提升,但是还有待提高的空间,并且模型的检测效率也有待提升的空间。

发明内容

针对上述存在的技术问题,本发明的目的是提供一种基于改进的网络模型的视频中吸烟检测方法及系统,同时考虑视频帧级别和时间序列级别的信息,提高吸烟检测的准确性和鲁棒性,能够在实时视频流中快速准确地检测出吸烟行为。

本发明的技术方案是:

一种基于改进的网络模型的视频中吸烟检测方法,包括以下步骤:

S01:将视频划分为连续的帧,并将帧作为输入进行数据增强预处理;

S02:使用预训练的YOLO-NAS网络对视频帧进行目标检测,提取各帧中的吸烟目标的位置信息和特征表示,将各个帧的特征表示进行串联和/或平均操作,生成视频级别的特征表示;

S03:使用自注意力机制模块对视频级别的特征进行序列建模,通过注意力机制捕捉不同位置和子空间的特征信息;

S04:通过预训练的YOLO-NAS网络的头部网络预测锚点并预测目标类别。

优选的技术方案中,所述步骤S01中预处理包括:

S11:随机裁剪一部分图像区域,并将其与另一图像进行混合,生成一个新的合成图像;

S12:将该合成图像缩放为骨干网络输入大小,保留RGB三个通道以获得足够的特征信息,并作为骨干网络输入。

优选的技术方案中,所述步骤S02中串联操作用于将各个帧的特征按照顺序连接,形成一个更长的特征向量,平均操作用于计算各个帧的特征的平均值,生成一个平均特征向量。

优选的技术方案中,所述步骤S03中序列建模的方法包括:

S41:使用查询矩阵Q、键矩阵K和值矩阵V对视频级别特征计算注意力分数;

S42:通过对注意力分数进行缩放和归一化操作,将注意力分数转化为注意力权重;

S43:将注意力权重乘以值矩阵V,得到融合后的特征表示。

优选的技术方案中,所述步骤S43之后还包括:

使用多个自注意力机制进行特征融合,将多个自注意力机制的输出拼接在一起,得到融合特征,计算如下:

MSA(Q,K,V)=Concat(head

head

MSA表示多头自注意力机制,Attention表示注意力机制,W表示权重矩阵,i表示第i个头,n为多头head数量,Concat表示特征融合,W

优选的技术方案中,在自注意力机制之后添加多层感知机和残差连接,所述多层感知机用于非线性变换和特征映射,所述残差连接用于保留原始特征的信息;在自注意力机制和多层感知机之间添加层归一化操作。

优选的技术方案中,所述步骤S03之后还包括:

通过特征金字塔网络从底层到顶层逐渐生成不同尺度的特征图,并通过横向连接将这些特征图进行融合;

通过路径聚合网络进一步进行特征融合和路径聚合,通过路径聚合网络使用额外的横向连接和上采样操作,将底层特征与顶层特征进行融合,并通过上采样将特征图放大到相同的尺度,以实现在不同尺度上进行目标检测。

优选的技术方案中,所述步骤S04具体包括:

通过预定义的置信度阈值过滤掉生成的边界框的一部分,其余部分通过非极大值抑制进行操作,最终得到目标框,该网络的损失函数为:

其中,IoU是交并比,b,b

本发明还公开了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的基于改进的网络模型的视频中吸烟检测方法。

本发明又公开了一种基于改进的网络模型的视频中吸烟检测系统,包括:

视频预处理模块,将视频划分为连续的帧,并将帧作为输入进行数据增强预处理;

特征提取模块,使用预训练的YOLO-NAS网络对视频帧进行目标检测,提取各帧中的吸烟目标的位置信息和特征表示,将各个帧的特征表示进行串联和/或平均操作,生成视频级别的特征表示;

序列建模模块,使用自注意力机制模块对视频级别的特征进行序列建模,通过注意力机制捕捉不同位置和子空间的特征信息;

预测模块,通过预训练的YOLO-NAS网络的头部网络预测锚点并预测目标类别。

与现有技术相比,本发明的有益效果是:

1、将YOLO-NAS和self-attention相结合,充分利用时序信息,既可以实现准确的目标检测,又可以对吸烟行为进行时序建模和分析,从而提高检测的精度和准确性。

2、引入自注意力机制能够有效地捕捉吸烟行为在时间序列上的依赖关系。通过对吸烟行为的时序数据进行建模,能够更好地理解吸烟行为的发展和演变,提高检测的准确性和鲁棒性。

3、实时性和效率:具有较快的处理速度和较高的检测效率,可以在实时视频流中进行吸烟检测,满足监控系统和公共场所等需要实时监测的场景需求。

附图说明

下面结合附图及实施例对本发明作进一步描述:

图1为本实施例基于改进的网络模型的视频中吸烟检测方法的流程图;

图2为本实施例YOLO-NAS模型结构图;

图3为本实施例基于改进的网络模型的视频中吸烟检测系统的原理框图;

图4为本实施例数据增强演示结果;

图5为本实施例自注意力机制结构图;

图6为本实施例序列建模流程图;

图7为本实施例DIoU演示图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

发明原理:

本发明首先利用YOLO-NAS网络对视频帧进行目标检测,识别出视频中的人类行为和吸烟相关的物体;然后,通过引入self-attention模型,系统能够对吸烟行为进行时序建模和分析,通过自注意力机制捕捉吸烟行为在时间序列上的依赖关系,可以更好地理解和预测吸烟行为的发展和演变。通过将YOLO-NAS和self-attention相结合,模型由输入端、Yolo-NAS、自注意力机制组成。本发明提出的方法能够同时考虑视频帧级别和时间序列级别的信息,提高吸烟检测的准确性和鲁棒性。它可以在监控系统、公共场所等需要实时检测吸烟行为的场景中发挥重要作用,帮助实现吸烟行为的自动监测和管理。

实施例

如图1所示,一种基于改进的网络模型的视频中吸烟检测方法,包括以下步骤:

S01:将视频划分为连续的帧,并将帧作为输入进行数据增强预处理;

S02:使用预训练的YOLO-NAS网络对视频帧进行目标检测,提取各帧中的吸烟目标的位置信息和特征表示,将各个帧的特征表示进行串联和/或平均操作,生成视频级别的特征表示;

S03:使用自注意力机制模块对视频级别的特征进行序列建模,通过注意力机制捕捉不同位置和子空间的特征信息;

S04:通过预训练的YOLO-NAS网络的头部网络预测锚点并预测目标类别。

YOLO-NAS是一种基于神经架构搜索的YOLO方法,具有自动架构搜索、高准确性、高鲁棒性以及时间和资源节省等特点,YOLO-NAS采用了量化感知模块与Selective量化以达成最优性能,即基于延迟-精度均衡考虑在特定层进行了"Skipping量化"。当转换为INT8量化模型后,YOLO-NAS具有更少的精度损失(L-M-S的损失分别为0.45,0.65,0.51mAP)。如图2所示,输入端对图像进行MixCrop数据增强,随后送入包含骨干网络、特征融合及检测头的Yolo-NAS模块。

一较佳的实施例中,步骤S01中预处理包括:

S11:随机裁剪一部分图像区域,并将其与另一图像进行混合,生成一个新的合成图像;

S12:将该合成图像缩放为骨干网络输入大小,保留RGB三个通道以获得足够的特征信息,并作为骨干网络输入。

一较佳的实施例中,步骤S02中串联操作用于将各个帧的特征按照顺序连接,形成一个更长的特征向量,平均操作用于计算各个帧的特征的平均值,生成一个平均特征向量。

一较佳的实施例中,步骤S03中序列建模的方法包括:

S41:使用查询矩阵Q、键矩阵K和值矩阵V对视频级别特征计算注意力分数;

S42:通过对注意力分数进行缩放和归一化操作,将注意力分数转化为注意力权重;

S43:将注意力权重乘以值矩阵V,得到融合后的特征表示。

一较佳的实施例中,步骤S43之后还包括:

使用多个自注意力机制进行特征融合,将多个自注意力机制的输出拼接在一起,得到融合特征,计算如下:

MSA(Q,K,V)=Concat(head

head

MSA表示多头自注意力机制,Attention表示注意力机制,W表示权重矩阵,i表示第i个头,n为多头head数量,Concat表示特征融合,W

一较佳的实施例中,在自注意力机制之后添加多层感知机和残差连接,所述多层感知机用于非线性变换和特征映射,所述残差连接用于保留原始特征的信息;在自注意力机制和多层感知机之间添加层归一化操作。

一较佳的实施例中,步骤S03之后还包括:

通过特征金字塔网络从底层到顶层逐渐生成不同尺度的特征图,并通过横向连接将这些特征图进行融合;

通过路径聚合网络进一步进行特征融合和路径聚合,通过路径聚合网络使用额外的横向连接和上采样操作,将底层特征与顶层特征进行融合,并通过上采样将特征图放大到相同的尺度,以实现在不同尺度上进行目标检测。

一较佳的实施例中,步骤S04具体包括:

通过预定义的置信度阈值过滤掉生成的边界框的一部分,其余部分通过非极大值抑制进行操作,最终得到目标框,该网络的损失函数为:

其中,IoU是交并比,b,b

另一实施例中,一种计算机存储介质,其上存储有计算机程序,计算机程序被执行时实现上述的基于改进的网络模型的视频中吸烟检测方法。

另一实施例中,如图3所示,一种基于改进的网络模型的视频中吸烟检测系统,包括:

视频预处理模块10,将视频划分为连续的帧,并将帧作为输入进行数据增强预处理;

特征提取模块20,使用预训练的YOLO-NAS网络对视频帧进行目标检测,提取各帧中的吸烟目标的位置信息和特征表示,将各个帧的特征表示进行串联和/或平均操作,生成视频级别的特征表示;

序列建模模块30,使用自注意力机制模块对视频级别的特征进行序列建模,通过注意力机制捕捉不同位置和子空间的特征信息;

预测模块40,通过预训练的YOLO-NAS网络的头部网络预测锚点并预测目标类别。

下面以一较佳实施例为例详细说明基于改进的网络模型的视频中吸烟检测系统的工作流程,包括以下步骤:

步骤1:将视频划分为连续的帧,并将帧作为输入进行MixCrop数据增强预处理。通过随机裁剪一部分图像区域,并将其与另一张图像进行混合,生成一个新的合成图像,如图4所示。并将该图片缩放为网络输入大小,保留RGB三个通道以获得足够的特征信息(640*640*3)。然后输入到骨干网络中。

第一排左图和右图表示通过将四个不同的图像随机组合成一个大图像,并在此过程中进行相应的边界框调整,从而创建新的训练样本未经过数据增强的图片,特别是随机缩放增加了很多小目标。

第二排表示对经过了数据增强预处理的图片的香烟检索结果。

步骤2:特征提取阶段:使用YOLO-NAS网络对视频帧进行目标检测,提取各个帧中的吸烟目标的位置信息和特征表示。将各个帧的特征表示进行串联或平均操作,生成视频级别的特征表示。具体流程如下:

1)YOLO-NAS目标检测:使用经过预训练的YOLO-NAS网络对每个视频帧进行目标检测。YOLO-NAS是一种基于深度学习的目标检测算法,能够准确地检测图像中的各个目标。

2)目标位置和特征提取:对于每个视频帧,从YOLO-NAS网络中获取吸烟目标的位置信息和特征表示。位置信息通常是表示目标边界框的坐标,而特征表示是指吸烟目标的高级特征向量。

3)帧级别特征处理:将各个帧的特征表示进行串联或平均操作,生成视频级别的特征表示。串联操作将各个帧的特征按照顺序连接在一起,形成一个更长的特征向量。平均操作则计算各个帧特征的平均值,生成一个平均特征向量。

4)视频级别特征表示:得到视频级别的特征表示后,可以将其作为后续步骤中的输入,用于吸烟行为分类或其他任务。视频级别的特征表示可以综合考虑各个帧的信息,捕捉视频中吸烟目标的整体特征。

通过以上步骤,利用YOLO-NAS网络对视频进行目标检测,并提取吸烟目标的位置信息和特征表示。进一步对各个帧的特征进行处理,生成视频级别的特征表示,为后续的吸烟行为分类或其他任务提供输入数据。这个过程可以帮助我们从视频中获取吸烟相关的特征信息,从而进行更深入的分析和应用。

步骤3:使用self-attention结构对视频级别的特征进行序列建模。

将视频级别的特征输入自注意力机制对特征进行建模,如图5所示,能使模型在不同位置上关注来自不同子空间的信息,有利于网络捕捉到更加丰富的特征信息,使用self-attention结构对视频级别的特征进行序列建模的步骤如下:

1)准备视频级别的特征表示:根据前面的步骤,我们已经得到了视频级别的特征表示,可以将其作为自注意力机制(self-attention)模块的输入。

2)自注意力机制的计算:通过将视频级别特征输入到自注意力机制中,对特征进行建模。自注意力机制可以在不同位置上关注不同子空间的信息,有助于捕捉到更丰富的特征信息。具体而言,使用查询(query)矩阵Q、键(key)矩阵K和值(value)矩阵V来计算注意力分数。注意力分数计算公式如式(1)所示。

d

3)注意力权重的计算:通过对注意力分数进行缩放和归一化操作,将注意力分数转化为注意力权重。注意力权重表示了每个特征在序列中的重要程度。

4)特征融合:将注意力权重乘以值(value)矩阵V,得到融合后的特征表示。

5)多头注意力机制:为了增强特征提取能力,可以使用多个自注意力机制进行特征融合。具体而言,可以将多个自注意力机制的输出拼接在一起,得到更丰富的特征表示。具体如式2和式3,W表示权重矩阵,n为多头数量使用默认值6。

MSA(Q,K,V)=Concat(head

head

MSA表示多头自注意力机制,Attention表示注意力机制,W表示权重矩阵,i表示第i个头,n为多头head数量,Concat表示特征融合,W

6)多层感知机和残差连接:为了进一步提升模型的表达能力,可以在自注意力机制之后添加多层感知机和残差连接,如图6所示。多层感知机用于非线性变换和特征映射,残差连接可以保留原始特征的信息,有助于减轻梯度消失问题。

7)层归一化:为了提高模型的训练稳定性和收敛性,可以在自注意力机制和多层感知机之间添加层归一化操作。

通过以上步骤,我们可以利用self-attention结构对视频级别的特征进行序列建模,通过注意力机制捕捉到不同位置和子空间的重要特征信息。这有助于提高模型对视频中吸烟目标的关注和建模能力,进一步提升吸烟行为分类的性能。

步骤4:步骤3中的输出向量将通过特征金字塔网络(FPN)从底层到顶层逐渐生成不同尺度的特征图,并通过横向连接将这些特征进行融合。这样可以获得具有丰富语义信息和不同分辨率的特征金字塔。接下来,路径聚合网络(PAN)在FPN的基础上进一步进行特征融合和路径聚合。PAN使用额外的横向连接和上采样操作,将底层特征与顶层特征进行融合,并通过上采样将特征图放大到相同的尺度,以实现在不同尺度上进行目标检测(分别为80*80,40*40,20*20)。

步骤5:计算损失函数,得到最终的目标框。先提取出来的特征被头部模块(检测头)用来预测锚点并预测目标类别。通过预定义的置信度阈值过滤掉生成的边界框的一部分,其余部分通过非极大值抑制(NMS)进行操作,最终得到目标框。该网络的损失函数是:

其中,IoU是交并比,反应预测检测框与真实检测框的检测效果。b,b

该方法已在Nvidia Jeston Nano等低算力边缘计算设备上进行测试,为其在今后工业化使用上奠定了基础。该方法提出的基于视频的处理方案能有效降低硬件部署成本,也可以很好的和其他基于视频的异常检测方案共享硬件。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

相关技术
  • 一种工业场景监控视频中吸烟行为检测方法及系统
  • 基于对抗网络模型的视频异常事件检测方法及系统
技术分类

06120116482525