掌桥专利:专业的专利平台
掌桥专利
首页

一种电网无人机巡检影像缺陷智能识别自学习训练方法、系统

文献发布时间:2023-06-19 11:29:13


一种电网无人机巡检影像缺陷智能识别自学习训练方法、系统

技术领域

本发明涉及图像识别技术领域,尤其涉及一种电网无人机巡检影像缺陷智能识别自学习训练方法、系统。

背景技术

当前,应用多旋翼无人机对杆塔进行精细化巡检和故障巡检之后,巡检产生的海量图像数据需要经过人工判读筛选出故障缺陷,一方面要求作业人员对输电线路情况熟悉,另一方面也大大增加了作业人员的工作量。因此,采用图像识别的方法对巡检图像数据进行部件检测识别对提高无人机巡检效率具有十分重要的意义。目前,基于大数据深度学习技术的卷积神经网络在目标识别和检测中表现优异,在很多目标识别场景之中成为首选算法。而深度学习算法需要使用海量的带标签巡检图像样本进行训练学习,目前电网无人机巡检缺陷样本数量难以满足要求。同时,与传统的深度学习目标识别相比,无人机巡检得到的图像具有背景复杂、图像分辨率超高、小部件与背景对比度低、不同地区不同季节背景差异较大、存在大量干扰等难题,识别精度无法保障。

发明内容

本发明的目的是提供一种电网无人机巡检影像缺陷智能识别自学习训练方法、系统,实现了标注样本更新和模型训练更新的闭环,能够达到目标检测模型自主迭代更新优化的目的,从而达到自动化程度极高的自学习训练效果。

本发明为实现上述发明目的采用如下技术方案:

本发明提供了一种电网无人机巡检影像缺陷智能识别自学习训练方法,包括:

收集无人机在巡检过程中拍摄的缺陷图像;

对缺陷图像进行筛选并标注,建立缺陷样本库;

提取缺陷样本库中的样本生成数据集,对数据集进行算法模型训练,生成识别模型;

对生成的识别模型进行评估,并根据评估结果对模型库进行更新;

接收上传的待检测巡检图像,从模型库中调用对应类别的识别模型进行缺陷检测,对检测结果进行审核,将存在错误的检测结果纠错后更新至缺陷样本库中;

当缺陷样本库更新数量达到阈值后,从缺陷样本库中提取样本构成新的数据集,进行新一轮的算法模型训练;

从模型库中调用更新的识别模型对上传的待检测巡检图像进行识别和标注,再次更新缺陷样本库。

进一步地,在收集无人机在巡检过程中拍摄的缺陷图像后,通过图像去重将重复或相似度极高的图像剔除。

进一步地,所述图像去重的具体过程如下:

将图片缩放至设定的尺寸,简化图像细节;

将图像转化为灰度图像;

依次对矩阵的每一行中的相邻两个元素进行相减,得到若干个差异值;

如果差异值为正数或0,记为1,否则记为0,得到的若干个0、1按顺序组合构成一串数字序列,为图像的哈希序列;

与哈希库中的哈希序列依次进行比较,计算汉明距离,判断两张图像的相似度;

如果相似度大于阈值,则表明两张图像高度相似,将该图像剔除,否则,保留该图像并将其哈希序列保存至哈希库中。

进一步地,采用如下公式对缺陷图像进行筛选:

D(f)=∑

其中:D(f)表示图像的清晰度,f(x,y)表示图像对应像素点(x,y)的灰度值,μ表示整张图像的平均灰度值;

如果巡检图像的清晰度值小于阈值,则认为该图像模糊,将其筛除。

进一步地,基于缺陷分类先验知识,使用标注工具LabelImage对缺陷图像进行标注。

进一步地,对缺陷图像进行筛选标注后,再进行数据预处理,所述数据预处理包括数据增强和缺陷模拟。

进一步地,对生成的识别模型进行评估的公式如下:

其中,F

本发明提供了一种电网无人机巡检影像缺陷智能识别自学习训练系统,包括:缺陷数据采集平台、数据管理平台、算法训练平台、模型管理平台、缺陷识别服务平台和检测图像上传平台;

所述离线采集缺陷平台用于收集无人机在巡检过程中拍摄的缺陷图像;

所述数据管理平台用于对缺陷图像进行筛选并标注,建立缺陷样本库;

所述算法训练平台提取缺陷样本库中的样本生成数据集,对数据集进行算法模型训练,生成识别模型;

所述模型管理平台用于对生成的识别模型进行评估,并根据评估结果对模型库进行更新;

所述缺陷识别服务平台用于接收上传的待检测巡检图像,从模型库中调用对应类别的识别模型进行缺陷检测,对检测结果进行审核,将存在错误的检测结果通过人工纠错后更新至缺陷样本库中;

当缺陷样本库更新数量达到阈值后,所述算法训练平台从缺陷样本库提取样本构成新的数据集,进行新一轮算法模型训练,所述缺陷识别服务平台从模型库调用更新的识别模型对所述检测图像上传平台上传的待检测巡检图像进行识别和标注,再次更新缺陷样本库。

本发明的有益效果如下:

当缺陷样本库更新数量达到阈值后,算法训练平台从缺陷样本库提取样本构成新的数据集,开始新一轮算法模型训练,不断提高识别模型的精度。模型精度提高后,模型库同样得到更新,缺陷识别服务平台从模型库调用更新的识别模型对检测图像上传平台上传的待检测巡检图像进行识别和标注,然后再次更新缺陷样本库,从而实现标注样本更新和模型训练更新的闭环,能够达到目标检测模型自主迭代更新优化的目的,从而达到自动化程度极高的自学习训练效果。

附图说明

图1为根据本发明实施例提供的自学习训练系统架构图;

图2为根据本发明实施例提供的自学习训练方法流程图;

图3为根据本发明实施例提供的自学习训练方法中图像去重操作流程图;

图4为根据本发明实施例提供的自学习训练方法中缺陷分类标签示例图;

图5为根据本发明实施例提供的自学习训练方法中数据集构建方法示意图;

图6为根据本发明实施例提供的自学习训练方法中Dense Block网络结构示意图;

图7为根据本发明实施例提供的自学习训练方法中连接层网络结构示意图;

图8为根据本发明实施例提供的自学习训练方法中骨干网络结构示意图;

图9为根据本发明实施例提供的自学习训练方法中改进后的网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参照图1至图9,本发明提供一种电网无人机巡检影像缺陷智能识别自学习训练方法及系统,包括缺陷数据采集平台、数据管理平台、算法训练平台、模型管理平台、缺陷识别服务平台和检测图像上传平台六个模块;

离线采集缺陷图像来自巡检人员在人工巡检过程中发现的缺陷,巡检人员使用无人机进行拍摄后统一上传至缺陷图像服务器。

数据管理平台对电网典型的缺陷进行筛选并标注,建立缺陷样本库,形成一套标准统一且符合电网规范的缺陷样本。此后,还要不断接收新的样本特征丰富识别系统,提高识别的精准度。标注人员从缺陷图像服务器下载无人机巡检图像后,首先对样本进行筛选。使用方差函数对图像进行模糊检测,评价图像的清晰度,该函数计算公式如下:

D(f)=∑

其中,D(f)表示图像的清晰度,f(x,y)表示图像对应像素点(x,y)的灰度值,μ表示整张图像的平均灰度值。如果巡检图像的清晰度值小于阈值,则认为该图像模糊,将其筛除。

缺陷图像服务器中可能存在重复或相似度极高的图像,通过图像去重可以在节省存储空间的同时提高样本的整体质量。由于人工筛选海量的样本数据十分耗时,本系统设计了采用感知哈希算法的自动图像去重步骤。感知哈希算法将图像映射成一串唯一的数字序列,即图像哈希序列。两张相同或相似的图像的哈希序列也是相同或相似的。两个哈希序列的相似度可以通过序列间的汉明距离来表示,因此可以通过比较两个哈希序列之间的汉明距离来判断图像的相似程度。汉明距离的计算公式如下:

其中,D(x,y)表示两个相同长度的数字序列x和y之间的汉明距离,⊕表示异或运算。汉明距离越大,则表示两张图像的相似度越小。若D(x,y)=0,则表示两张图像完全相同。

图像去重的流程如下:

1.将图片缩放至32×32的尺寸,简化图像细节。

2.将图像转化为灰度图像。

3.依次对矩阵的每一行执行如下操作:相邻两个元素进行相减(右值减去左值),得到32个差异值,每张图像共计1024个差异值。

4.如果差异值为正数或0,记为1,否则记为0。得到的0、1按顺序组合构成一串数字序列,即图像的哈希序列。

与哈希库中的哈希序列依次进行比较,计算汉明距离,判断两张图像的相似度。如果相似度大于阈值,则表明两图像高度相似,将该图像剔除。否则,保留该图像并将其哈希序列保存至哈希库中。

筛选掉不合格和重复的图像后,基于缺陷分类先验知识,使用标注工具LabelImage对巡检图像中的缺陷进行标注。缺陷分类先验知识即电网缺陷分类标准。以输电线路缺陷为例,依据不同的作用以及物理位置,划分出导地线类、金具类、杆塔类、绝缘子类、基础类、接地装置类、通道环境和附属设施共八大类缺陷类型,再根据缺陷程度定义了“一般”、“严重”、“危急”三种缺陷等级以及“锈蚀”、“破损”、“脏污”等常见缺陷特征进行划分。保证划分出的类别尽可能地覆盖到大部分输电线路典型缺陷。为了区分缺陷特征,在进行样本标注时采用9位数字编码作为标签,总体包括部件(2位)、部件类型(2位)、部位(2位)、缺陷描述(2位)、缺陷等级(1位)5个部分,既实现了典型缺陷类型的全覆盖,又保证了后期的兼容性和扩展性。

为提高样本图片的质量,需要对标注好的样本图像进行数据预处理。预处理包括数据增强和缺陷模拟两个步骤。

数据增强使所设计的目标检测模型对不同环境下获得的图像具有更高的鲁棒性,使用光度畸变和几何畸变两种方法。光度畸变用于处理图像的光度失真问题,调整图像的亮度、对比度、色调、饱和度和噪声。几何畸变则对原始图像添加随机缩放、剪切、翻转和旋转,增加输入图像的可变性。

缺陷模拟方法则对样本图像添加光照阴影、添加光线偏照效果、添加背光效果,模拟早晨、中午、黄昏、傍晚的光照效果、模拟多云、阴雨的效果。通过模拟大量不同气候条件的同一缺陷的样本,提升深度学习训练模型的环境适应性。

将经过图像预处理的样本图像和每张图像对应的xml格式的标注文件存放至样本服务器,构成无人机巡检图像缺陷样本库。后续数据管理平台接收的新样本也将不断完善样本库。

缺陷样本在样本库中按八大类缺陷类型分别存储,即每大类的样本仅包含本类的缺陷类型。后续从缺陷样本库构建数据集并进行模型训练时,也仅提取某一大类的缺陷样本。即,每个算法模型仅用于识别某一大类的缺陷。

算法训练平台基于缺陷样本库和深度学习算法,对识别模型进行训练。首先从缺陷样本库提取样本构建数据集,数据集中可包含多个类别的缺陷,但每类缺陷的样本数量应尽量保持一致。数据集划分为训练数据集、验证数据集和测试数据集三个部分,训练集用于训练模型,验证集用于评估模型,便于调整模型参数,测试集则用于估计模型的泛化误差。

由于目前缺陷数据集样本量较少,因此使用k折交叉验证法对数据集进行划分。

1.将数据集平均划分为k个互斥的子集D

2.选取子集D

3.在余下的子集中再随机选取一个子集作为验证集,其余的子集均作为训练集;

4.在训练集上对模型进行训练,并在验证集上进行验证,选择验证效果最好的模型,在测试集上进行测试,获得模型的准确率;

5.选取子集D

6.重复上述步骤,直到所有子集有且仅有一次被选为测试集。

7.将k次测试的准确率的平均值作为该模型最终的测试结果。

算法训练平台支持多框架、多算法的模型训练,算法框架选用TensorFlow和PyTorch,算法选用YOLOv4算法和Faster-RCNN算法,并在训练过程中针对不同的缺陷类型选择优化方案。对于每种类型的缺陷,可以选择不同框架、算法和优化方案的组合进行训练,最终通过对比选择评估效果最好的模型作为识别模型,并进行后续的持续优化。

由于电网无人机巡检影像存在缺陷类型复杂、图像分辨率超高等难点,算法训练平台提供一系列有针对性的训练优化方案,对算法训练过程进行优化。训练优化方案针对巡检缺陷目标检测存在的小目标检测、计算量大、样本不均衡等难点,对数据集和网络结构等进行优化。

由于无人机巡检通常携带8K超高清镜头进行拍摄,所拍摄的缺陷图像分辨率可高达7680x4320。而深度学习算法通常使用416×416或608×608作为输入图像的大小,如果对巡检图像进行简单的下采样,则缺陷目标尤其是金具类的小目标在输入图像中几乎被压缩至不可见,因此小目标检测是巡检缺陷目标检测的难点之一。为解决这个问题,需要对巡检缺陷图像样本进行裁剪处理,使其满足算法输入。使用滑窗切割的方式对原始样本进行裁剪,设置滑动窗口的大小为608×608,且滑动步长的重叠区域比例为20%,将原始样本裁剪成多个分辨率为608×608的小样本,将裁剪后的小样本作为深度学习算法的输入。

随机裁剪同样可以缩小图像尺寸。为了避免随机裁剪的结果不包含目标物体,首先需要计算目标物体标注框的中心点,在原始样本中随机裁剪出一个608×608大小的区域,要求该区域必须覆盖中心点。对原始样本进行多次随机裁剪,保证裁剪结果的多样性。如果原始样本图像中包含多个目标物体,则每次围绕一个目标物体标注框的中心点,重复上述随机裁剪操作,直到完成对所有目标物体的随机裁剪。

为减少算法训练过程中的计算量,在加快处理速度的同时提升深度学习网络的学习能力,需要对网络进行轻量化设计。选择将Faster-RCNN算法的BackBone骨干网络由原本的ResNet53网络替换成DenseNet网络,将梯度变化的全过程都集成到特征图中,并结合CSPNet的思想,将浅层特征映射为两部分,实现网络轻量化并保持检测的准确性。

骨干网络由多个不同规模的Dense Block组成,Dense Block的结构如图所示,来自上一层的输入被分为两个部分,一部分不进行任何操作,一部分则经过多个重复的卷积操作,将一个1×1的卷积层和一个3×3的卷积层作为一个固定的卷积组合,且每个卷积层前都有批标准化处理(Batch Normalization,BN)层和激活层。此处的激活层使用Mish激活函数代替原始的ReLU函数,使得梯度下降更加平滑,达到更好的下降效果。该组合能够减少输入的特征图数量,在融合各个通道特征的同时减少计算量。每个卷积组合的输入都是前面所有组合输出的连接,同样该组合学习到的特征也会传送到之后的所有卷积组合作为输入,从而实现特征的重复利用。最后将两部分连接起来作为下一个模块的输入。

骨干网络的结构如图所示,使用了4个不同规模的Dense Block。两个Dense Block之间通过过渡层(Transition Layer)进行连接。过渡层的结构如图所示,由一个1×1的卷积层和一个平均池化层(Average Pooling)组成,目的是压缩参数。

整体网络结构如图所示,缺陷样本图像作为输入,经过骨干网络提取出特征图,用于后续的网络模块共享。区域生成网络(RegionProposal Network,RPN)采用Anchor机制从特征图上直接提取候选区域及其特征。在Faster-RCNN算法中使用了ROI Pooling层,作用是根据RPN网络生成的预选框位置在特征图中将相应区域池化为固定尺寸的特征图,用于后续的分类操作。由于ROI Pooling层中使用了两次量化操作,可能导致预选框位置出现偏差。使用ROI Align层替代原始的ROI Pooling层,使用双线性插值法取代了量化操作,获得坐标为浮点数的像素点上的图像数值,解决两次量化产生的误差,使得整个特征聚集过程连续,提升检测模型的准确性。

通过对Faster-RCNN算法网络结构中的两个重要模块进行改进,能够保持检测准确性的同时,大幅度减少网络参数,提升处理速度。

样本不均衡是指样本分布出现“长尾效应”,即少部分类占大多数样本,而大多数类只有小部分样本,在数量分布图上呈现出长尾现象。“长尾效应”导致样本数量少的缺陷类别参与训练的机会就远远小于样本数量多的缺陷类别,使得最终训练所得的模型偏向于检测样本数量多的缺陷类别,造成不同类别的检测效果差异明显。为解决样本不均衡问题,对于样本数量较少的缺陷种类,使用过采样的方式修改样本分布。过采样方法具体表现为,随机在原始图像上裁剪出608×608的小分片补充原数据集。

针对样本数量较少的缺陷类型,使用生成对抗网络(generative adversarialnetwork,GAN)进行缺陷图像的模拟生成,得到与原数据集分布相同的样本,达到扩充样本的目的。由于目前GAN生成网络难以生成分辨率较高的样本图像,因此仅将该方法用于目标较小的金具类缺陷的样本生成。

步骤如下:

1.从金具类数据集中提取缺陷目标,即标注框内的物体,作为GAN样本生成数据集。

2.将GAN样本生成数据集分别划分为训练集和测试集。

3.使用GAN生成网络模型对数据集进行反复训练和测试,直到生成质量较高的模拟缺陷样本。

4.将模拟生成的金具类缺陷样本作为新的样本进行算法训练。

在进行算法模型训练时,结合本次训练任务所使用的数据集分布情况、缺陷类型特征,选择合适的训练优化方案,也可以组合使用。

训练完成的算法模型将由模型管理平台进行评估。电力缺陷识别应用中定义了漏检率、误检率和发现率作为电力缺陷的评估指标。

发现率表示测试集中所有缺陷样本中,预测输出的确实是缺陷的所占比重,计算公式为:

漏检率表示测试集上所有确实存在的缺陷中,除去预测正确的缺陷,剩下未被检测出的缺陷所占比重,计算公式为:

漏检率=1-发现率

误检率表示测试集上所有预测的输出缺陷中,预测错误的所占比重,计算公式为:

其中,

TP表示被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数。

FP表示被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数。

FN表示被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数。

TN表示被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。

除此之外,每秒帧率(Frame Per Second,FPS)可以表示每秒内能够检测的图像数量,可用于评估算法模型的检测速度。

为了实现对模型识别能力的综合评估,将发现率、误报率和检测速度进行综合评估。首先将三种评价指标进行归一化处理,消除量纲影响。以发现率x为例,统计该模型在模型库中所有历史版本的发现率,结合该版本的发现率计算平均值

使用如上方法对误报率y和检测速度z同样进行归一化处理,得到y′和z′。

对目前常用的深度学习模型精确度评估指标F1 score进行改进,加入检测速度作为评估指标之一。计算公式如下:

其中,F

评估完成后,在日志文件中查询该模型最近一次的评估结果,如果新的评估结果优于最近一次该模型的评估结果,则进行模型发布,即将该最新版本的模型上传至模型库服务器,并删除历史版本,同时将更新记录保存在日志文件中,更新记录包括新模型的版本、更新时间和该模型的评估结果。否则,算法训练平台再次根据数据集训练该模型,反复迭代直到训练出的模型评估结果优于当前模型,再进行模型发布,更新模型库。如果日志文件中不存在该模型最近一次的评估结果,表明该模型是第一次训练,则将该模型上传到模型库中,作为初始版本。

缺陷识别服务平台接收用户从检测图像上传平台上传的待检测巡检图像后,从模型管理平台的模型库中调用对应类别的识别模型进行缺陷检测。检测完成后由人工对检测结果进行审核并导出检测结果,检测结果存在两种情况,一是所有的缺陷目标均被正确检测到,且不存在对非缺陷物体进行误检的情况,即发现率=1,漏检率=0,误检率=0,称其为正确识别结果,否则称其为错误识别结果。由于正确识别结果意味着当前模型已经完全学习到该检测图像的信息,如果将其作为新的缺陷样本再进行训练,则会出现重复学习的情况。

为提高模型训练效率,将正确识别结果和错误识别结果进行差异化处理。对于错误识别结果,通过人工干预,标注出全部缺陷目标,并删除错误的检测框,生成正确的xml标注文件。将检测图像和对应的标注文件作为新的样本,返回至数据管理平台,同样进行样本筛选和数据增强处理后,更新至样本库中,达到扩充训练样本的目的。对于正确识别结果,则导出检测结果即可。

为避免模型训练资源浪费,对自学习机制设置阈值。算法训练平台检测样本库接收的新样本数量是否达到指定阈值,如果达到,则从样本库提取样本构成新的数据集,开始新一轮算法模型训练,不断提高识别模型的精度。模型精度提高后,模型库同样得到更新,缺陷识别服务平台从模型库调用更新的识别模型对检测图像上传平台上传的待检测巡检图像进行识别和标注,然后再次更新样本库,从而实现标注样本更新和模型训练更新的闭环,达到自动化程度极高的自学习训练系统。系统流程图如图2所示。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

相关技术
  • 一种电网无人机巡检影像缺陷智能识别自学习训练方法、系统
  • 一种电网无人机巡检影像缺陷智能识别自学习训练方法、系统
技术分类

06120112940214