掌桥专利:专业的专利平台
掌桥专利
首页

一种基于窗口自注意力机制的变电站安全隐患检测方法

文献发布时间:2024-01-17 01:28:27


一种基于窗口自注意力机制的变电站安全隐患检测方法

技术领域

本发明属于计算机视觉目标检测技术领域,具体涉及一种基于窗口自注意力机制的变电站安全隐患检测方法。

背景技术

随着我国人口的不断增长、经济的快速发展、基础设施的日益完善,对供电总量的需求也在急速增加,输电网的总量逐渐扩大。由于电力行业作业过程中的特殊性与危险性,为了保证供电的稳定与效率,传统的人工巡检方式已经不能满足庞大的电网需求,从而逐步转向机器代替人力的巡检方式。

目前变电站安全隐患检测为机器巡检的一种实现,通过变电站的监测摄像头拍摄重点监测区域,回传有无故障或者违规行为,若有则发出警报,以此达到机器代替人力检测变电站的目的。如公开号为CN114299437A的专利公开了一种基于视觉感知技术的变电站违规攀爬行为检测预警方法,该方法使用基于YOLO(You Only Look Once)深度卷积神经网络和HSV色彩空间变化的静态目标检测算法实现变电站禁止攀爬标志检测。然而该方法使用的YOLO算法采用Darknet53网络为主干,属于传统的CNN网络架构,在学习能力上次于YOLOv4所使用的CSPDarknet53,重复计算梯度信息导致计算量大,训练与推理速度慢。其次该方法所采用的HSV色彩空间变换算法可能会使违规攀爬行为识别的一些重要信息难以识别,比如有无佩戴安全带(安全带的颜色通常比较鲜艳)等。

再如公开号为CN115294476A的专利提供了一种面向无人机电力巡检的边缘计算智能检测方法及设备,该方法在YOLOv4-tiny的基础上增加了CA注意力机制,能够优化网络学习有效特征的能力。然而该模型属于规模较小的模型,模型的学习能力不足,应用于变电站安全隐患识别,在处理更复杂的环境,类别更多的违规项时效果并不理想。

综上所述,在现有的变电站巡检方法中,通常采用的仍是提出年份较早的目标检测模型,如YOLOv4等,且没有采用合适的技术手段如注意力机制、数据增强等对模型进行改进,以更好的应用于复杂多变的变电站场景,因此在环境变化、目标较小时检测效果不佳。

发明内容

为解决现有技术中存在的上述问题,本发明提供了一种基于窗口自注意力机制的变电站安全隐患检测方法,通过将目标检测算法PP-YOLOE的主干替换等改进措施,提高了对变电站安全隐患检测的总体精度与小目标识别精度,同时优化了收敛速度,提高了检测的效率。

本发明的目的可以通过以下技术方案实现:

一种基于窗口自注意力机制的变电站安全隐患检测方法,包括以下步骤:

S01、获取变电站安全隐患数据集;

S02、数据增强算子进行预处理;

S03、SwinTransformer主干网络提取特征;

S04、坐标注意力机制为特征图赋权值;

S05、特征金字塔融合不同尺度特征图信息;

S06、PPYOLOEHead进行预测并回归损失值迭代模型;

S07、将训练好的模型部署到边缘ARM机器;

S08、摄像头拍摄实际变电站工作场景回传边缘计算机;

S09、模型预测并输出监测结果。

进一步地,所述步骤S02中,数据增强算子进行预处理具体为:在输入端对数据进行PP-YOLOE原始结构中的RandomCrop、RandomFlip和ContrastEnhancement数据增强;其中:

RandomCrop为随机剪裁函数,通过对原始图片进行大小、位置随机的裁剪产生新的图片用于训练;

RandomFlip为随机翻转函数,通过对原图进行水平或垂直翻转扩充训练集;

ContrastEnhancement为对比度增强技术,通过对图片在RGB空间下通过ImageEnhance类对图片的对比度参数contrast进行设置从而提高对比度。

进一步地,所述步骤S03中,SwinTransformer主干网络提取特征的过程具体为:

S31、将图片输入到块拆分模块中进行分块,然后在通道方向展平;

S32、通过线性嵌入层对每个像素的通道数据做线性变换;

S33、将经过尺度变换后的图像向量通过SwinTransformer模块进行特征提取;

S34、经过SwinTransformer模块输出的特征图会再次经过三个相同的SwinTransformer模块得到最终的输出,并且在三个SwinTransformer模块前均设置有块融合层进行下采样。

进一步地,所述步骤S33中,通过SwinTransformer模块进行特征提取的过程具体为:

输入z

z

进一步地,所述步骤S04中,坐标注意力机制为特征图赋权值过程具体为:

取三个有效的输出的特征图作为三个坐标注意力机制模块的输入,包括坐标信息嵌入和坐标注意力生成两个步骤:

所述坐标信息嵌入通过以下公式分解全局池化:

其中z

所述坐标注意力生成首先对坐标信息嵌入中产生的两个方向的聚合特征进行连接操作,然后使用卷积变换函数对其进行变换操作,最终坐标注意力模块的输出为:

其中y

进一步地,所述步骤S05中,特征金字塔融合不同尺度特征图信息具体为:

经过多次上下采样与特征图拼接操作,完成特征图金字塔网络与金字塔注意力网络的结合,自顶向下与自底向上融合深层与浅层网络的语义特征与位置特征。

进一步地,所述步骤S06中,PPYOLOEHead进行预测并回归损失值迭代模型的过程具体为:

PPYOLOEHead采用Efficient Task-aligned Head提高网络的精度以及收敛速度;所述Efficient Task-aligned Head包括回归分支和分类-定位分支,所述回归分支经过ESEblock后的输出再经过卷积与积分操作得到用于回归任务的特征图;

所述分类-定位分支经过一个ESEblock后,将得到的特征图与原始的输入进行相加操作,得到用于分类与定位的特征图。

进一步地,所述步骤S07中,模型的部署具体为:

在ARM机器上配置cuda环境;搭建docker镜像,并在镜像中配置本方式所需实验环境;采用Python的Flask Web架构运行训练导出后的模型,搭建预测服务。

进一步地,所述步骤S08中,实际变电站工作场景的回传采用url的方式。

进一步地,所述步骤S09中,根据模型预测并输出监测结果具体为:先通过计算图片像素区域的像素均值和标准差的均值筛除异常图片,然后将待检测的图片输入训练完成的模型中输出检测结果。

本发明的有益效果为:

(1)本方法是基于SwinTransformer改进,优化了baseline算法PP-YOLOE的精度与效果。在数据输入阶段添加了ContrastEnhancement数据增强算子对数据集进行了质量的优化,更有利于模型的训练;使用SwinTransformer替换原本的PP-YOLOE主干网络,基于自注意力机制的主干网络可以更好地提取特征;在特征金字塔前添加坐标注意力机制,计算特征图的加权特征;在PPYOLOEHead预测头部分使用EIoU损失函数,更科学地度量IoU重叠,加快模型收敛,总体提高了模型的鲁棒性与精度。

(2)采用了更合理的数据增强算子,在不破坏原本图像关键特征的情况下增加数据的丰富性,场景的多样性,使模型可以应对更复杂的识别场景,增强了其鲁棒性。采用SwinTransformer网络替换原始PP-YOLOE的CSPResNet主干网络,主要由自注意力机制组成的SwinTransformer架构相比于主要由卷积模块组成的CSPResNet可以更好地提取图片的特征,提高网络的精度。

(3)采用坐标注意力机制,即插即用的注意力机制在不改变特征图的尺度情况下为特征图赋予注意力权值,可以使网络更有针对性地学习重要特征。将EIoU损失函数替换原本PP-YOLOE使用的损失函数,引入Focal Loss解决难易样本不平衡的问题,加快了网络的收敛。

附图说明

为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。

图1为本发明中SwinTransformer的结构示意图;

图2为本发明中SwinTransformer模块的结构示意图;

图3为本发明总体网络的结构示意图;

图4为本发明算法的流程示意图;

图5为本发明中CSPLayer与ConvBNSiLU的结构示意图;

图6为本发明中Efficient Task-aligned Head的结构示意图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下。

请参阅图1-4,一种基于窗口自注意力机制的变电站安全隐患检测方法,包括以下步骤:

S01、获取变电站安全隐患数据集:采集相关变电站违规、环境隐患图片作为数据集。

需说明的是,具体采集方法为通过当前变电站部署的监控摄像头,对包含不同违章行为的施工现场(包括室内与室外)进行拍摄,再通过去除质量较低的样本对采集到的数据集进一步的精细化筛选,以提高数据集的质量。

S02、数据增强算子进行预处理:在输入端对数据进行PP-YOLOE原始结构中的RandomCrop、RandomFlip等数据增强,以及本方法增加的ContrastEnhancement数据增强技术。

需说明的是,RandomCrop为随机剪裁函数,通过对原始图片进行大小、位置随机的裁剪,产生新的图片用于训练。RandomFlip为随机翻转函数,可以对原图进行水平或垂直翻转扩充训练集,本实施例中选择的是水平翻转,由于垂直翻转造成信息表达差距较大,可能会对网络造成干扰。ContrastEnhancement为对比度增强技术,由于有一些训练样本是在光线较暗的室内拍摄,为了使图片表达更清晰、目标更明显,选择对图片在RGB空间下通过ImageEnhance类对图片的对比度参数contrast进行设置从而提高对比度。

将经过数据增强后的数据送入模型的主干网络。PP-YOLOE原生网络使用的是CSPResNet,为优化模型的性能,本实施例采用SwinTransformer作为模型的主干网络,Swintransformer模型是基于Transformer的深度学习模型,其中Swin transformer模型为层次结构,可以抽取不同层次的图像特征。

S03、SwinTransformer主干网络提取特征:图像输入后,首先将图片输入到块拆分(Patch Partition)模块中进行分块,每4x4相邻的像素分割为一个块,然后在通道方向展平。

可理解的是,假设输入的是RGB三通道图片,那么每个块就有4x4=16个像素,然后每个像素有R、G、B三个值,所以展平后是16x3=48,因此通过Patch Partition后图像尺寸由[H,W,3]变成了[H/4,W/4,48]。

然后通过线性嵌入层(Linear Embeding)对每个像素的通道数据做线性变换,由48变成自定义的深度大小C,即图像尺寸由[H/4,W/4,48]变成了[H/4,W/4,C]。

经过尺度变换后的图像向量z

具体的,输入z

其中E(x)为输入的均值;Var(x)为输入的方差;∈为加在方差上的数字,避免分母为0;γ、β为随着训练过程变换的学习因子。

从LN层输出后进入W-MSA模块,该模块将图像划分为固定数目的窗口,在每个窗口内进行多头自注意力的计算,这样相比于对整张图像进行自注意力计算可以大大减少计算量,加快模型训练。其中多头自注意力机制的计算公式为:

其中Q代表query矩阵,K代表key矩阵,K

从W-MSA输出的特征图与初始的输入z

然后

z

z

数据从第一个SwinTransformer模块输出后会经过三个组成相同的SwinTransformer模块。每个模块中首先要通过一个块融合(Patch Merging)层进行下采样。

其中,PatchMerging层的具体操作是将每个2x2的相邻像素划分为一个块,然后将每个块中相同位置(同一颜色)像素给拼在一起就得到了四个特征图。接着将这四个特征图在深度方向进行拼接,然后再通过一个LayerNorm层。最后通过一个全连接层在特征图的深度方向做线性变化,将特征图的深度由C变成C/2。通过PatchMerging层后,特征图的高和宽会减半,深度会翻倍。

经过三个相同的SwinTransformer模块先后得到尺寸为[H/8,W/8,2C]、[H/16,W/16,4C]和[H/32,W/32,8C]的特征图。

S04、坐标注意力机制为特征图赋权值:

取三个有效的输出,分别为[H/8,W/8,2C]、[H/16,W/16,4C]和[H/32,W/32,8C]的特征图作为三个坐标注意力机制(Coordinate Attention,CA)模块的输入。CA模块通过精确的位置信息对通道关系和长期依赖性进行编码,可以构造特征图的远程依赖关系,获得全局感受野,具体操作分为坐标信息嵌入和坐标注意力生成两个步骤。

需说明的是,全局池化方法通常用于通道注意编码空间信息的全局编码,但由于它将全局空间信息压缩到通道描述符中,导致难以保存位置信息。为了促使注意力模块能够捕捉具有精确位置信息的远程空间交互,坐标信息嵌入通过以下公式分解全局池化,转化为一对一维特征编码操作:

其中z

具体来说,给定输入X,首先使用尺寸为(H,1)或(1,W)的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码。因此,高度为h的第c通道的输出

其中W为特征图的宽,χ

同样,宽度为w的第c通道的输出

其中H为特征图的高,χ

上述两种变换分别沿两个空间方向聚合特征,得到一对方向感知的特征图。

坐标注意力生成对坐标信息嵌入中产生的两个方向的聚合特征首先进行连接操作,然后使用卷积变换函数对其进行变换操作:

f=δ(F

其中,z

计算权重数据:

g

g

其中,f

最后,坐标注意力模块的输出为:

其中y

S05、特征金字塔融合不同尺度特征图信息:经CA_1模块输出的特征图通过卷积模块获得特征图A,再经过上采样获得特征图B。经过CA_2模块输出的特征图与特征图A进行拼接并经过CSPLayer以及卷积层后获得特征图C。

请参阅图5,CSPLayer由ConvBNSiLU以及BottleNeck经过残差连接所组成。Bottleneck为一种残差模块,通过使用1×1卷积减少神经网络中的参数量,减少算力消耗。ConvBNSiLU由卷积、BatchNorm和激活函数SiLU组成。其中BatchNorm为归一化操作,公式如下:

其中μ

特征图C经过上采样后与CA_3的输出特征图进行拼接与CSPLayer后获得特征图D。特征图D经过下采样后与特征图C进行拼接与CSPLayer获得特征图E。特征图E经过下采样与特征图A进行拼接与CSPLayer后得到特征图F。

经过多次上下采样与特征图拼接操作,实际上是特征图金字塔网络(FeaturePyramid Networks,FPN)与金字塔注意力网络(Pyramid AttentionNetwork,PAN)的结合,自顶向下与自底向上融合深层与浅层网络的语义特征与位置特征,使网络在扩大感受野的同时学习到更详细的特征信息。经过如上操作得到的特征图D、E、F将作为网络Neck层的输出,预测层的输入分别进入PPYOLOEHead模块。

S06、PPYOLOEHead进行预测并回归损失值迭代模型:

PPYOLOEHead采用Efficient Task-aligned Head提高网络的精度以及收敛速度,预测头整体可以分为回归分支和分类-定位分支,如图6所示。

回归分支为图6所示上方的分支,输入首先经过全局平均池化(GAP),然后经过全连接(FC)以及Sigmoid激活函数,得到的输出与原始的输入相乘,上述步骤为一个ESEblock。经过ESEblock后的输出再经过卷积与积分操作得到用于回归任务的特征图。

分类-定位分支为图6所示下方的分支,首先经过一个ESEblock,将得到的特征图与原始的输入进行相加操作,得到用于分类与定位的特征图。

在分类任务中使用了变焦损失varifocal loss(VFL),公式如下:

其中p是预测框属于前景的概率,取值范围为0~1;q为预测边界框与真实边界框的交集与并集之比(Intersection over Union,IoU),负样本该值为0;α、γ分别为权重因子、调制因子,用于减少负样本的损失贡献。

由上式可见VFL提出了非对称的加权操作。正负样本有不平衡的问题,同样在正样本中也有不等权的问题。在为负样本的时候,不同的负样本的权重主要由当前预测分数(上式中p)决定,预测分数越大,权重越大,损失越大;而在为正样本的时候,使用目标分数(上式中q)对阳性样本的损失进行加权,使得具有高IoU的阳性样本对损失的贡献相对更大。即正样本和负样本权重计算方式不同,每个正负样本在计算损失时的权重都是不同的,达到了非对称的加权操作。

本发明改进PPYOLOEHead中使用的IoU损失计算函数GIoU,使用EIoU计算IoU损失,分别计算宽高的差异值取代了纵横比,同时引入Focal Loss解决难易样本不平衡的问题。EIoU的公式如下所示,

L

其中:IOU为预测框和真实框之间的交集面积和并集面积之比;ρ代表的是欧式距离;b,b

网络通过对用于回归和分类以及定位任务的特征图计算得到最终的检测结果,对检测结果与真实结果进行损失计算,利用损失在反向传播的过程更新网络的权重参数,完成对网络不断地训练与迭代。

S07、将训练好的模型部署到边缘ARM机器:将训练完成的模型部署到实际的变电站安全隐患检测系统的边缘ARM机器上。具体操作为:在ARM机器上配置cuda环境;搭建docker镜像,并在镜像中配置本方式所需实验环境;采用Python的Flask Web架构运行训练导出后的模型,搭建预测服务。

S08、摄像头拍摄实际变电站工作场景回传边缘计算机:工作现场摄像头轮训拍摄待检测画面,将图片以url(统一资源定位符Uniform Resource Locator,标识互联网中资源的地址)的方式回传到边缘计算机预测服务运行的端口。

S09、模型预测并输出监测结果:边缘计算机首先通过计算图片像素区域的像素均值和标准差的均值,筛除掉白屏、黑屏、花屏、过曝等异常图片。然后将待检测的正常图片输入训练完成的模型中,模型经过计算输出检测结果(图片中存在的违规行为/安全隐患类型),并进行报警。

本发明能够更好地提取图片中的重要特征,通过SwinTransformer主干网络实现,其核心模块基本窗口以及移位窗口多头自注意力机制相比于传统的监测算法所使用的CNN网络架构,能够更好地提取特征;其次通过在网络结构中增加坐标注意力模块,能够计算特征图的注意力权重,使网络更有针对性地学习特征。

同时本发明使用了ContrastEnhancement数据增强算子,能够提高图片的质量,优化模型的学习;在预测头的损失回归部分采用了EIoU损失函数,分别计算宽高的差异值取代了纵横比,同时引入Focal Loss解决难易样本不平衡的问题,提高精度的同时加快网络收敛。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

相关技术
  • 一种基于多尺度注意力机制的行人检测方法及装置
  • 一种基于滑动窗口自注意力机制的车道线检测方法及系统
  • 基于注意力机制与特征平衡性的变电站多目标检测方法
技术分类

06120116230835