掌桥专利:专业的专利平台
掌桥专利
首页

基于拟态视觉的光伏电池缺陷检测仿生模型

文献发布时间:2024-04-18 19:58:21


基于拟态视觉的光伏电池缺陷检测仿生模型

技术领域

本发明涉及光伏电池技术领域,即基于拟态视觉的光伏电池缺陷检测仿生模型。

背景技术

在现有技术中,光伏电池的生产、运输和运行过程中很容易发生质量问题。在生产阶段,光伏组件可能因焊接不当或电线缺陷等制造故障而损坏。这些外部应力会导致模块产生裂纹等缺陷,从而影响功率输出,电池开裂是光伏组件中最常见的功率损耗原因之一。因此,光伏组件在整个制造过程中必须被密切监控,亟待提出一种智能的光伏电池缺陷检测方法,提高光伏电池质量的稳定性,进而满足清洁能源发展的需要。

光伏电池缺陷图像纹理复杂,色彩单一,缺陷边界模糊,且缺陷特征不明显,传统目标检测模型很容易漏检、误检,从而造成较大的损失。

近年来,基于电致发光(EL)图像的方法因其优越的性能,已成为光伏电池缺陷检测的主要方法。EL成像是一种成熟的无损和非接触性缺陷检测技术,具有显著的高分辨率,可以检测微裂纹等难以用肉眼识别的缺陷。然而,对EL图像的视觉评估不仅耗时和昂贵,而且还需要熟练的专家。人工检测的方式浪费了大量的人力资源,检测结构也会受到人为因素的影响。此外,目视检查只在小范围内切实可行,对于大规模检测,自动检测方法是至关重要的。

在光伏系统中,以计算机视觉和人工智能算法为实现方法的缺陷检测技术日益受到广泛关注。尤其是以深度学习为首的一系列目标检测模型,由于其无需人工设计特征提取的优势以及灵活多变的结构带来了无限的可能性,可以很好的应对光伏电池缺陷检测目标较小、特征不明显、色彩单一、背景噪声干扰较大等难点,符合其工业应用的需求。但是,由于光伏电池表面有许多难以辨认的杂质和皱纹,即所谓的伪缺陷,在杂乱的工业表面图像上扩散,它们与真实的缺陷具有相似的外观特征,使得常规的模型难以区分它们。

近年来,基于卷积神经网络的方法,在缺陷检测任务中受到了越来越多的关注,一般来说,大多数基于卷积(CNN)的模型都试图通过交错多个二维卷积类结构来获得高级语义知识来更好地区分显著对象。然而,这些方法的有效性受到了限制,因为CNN中的经验接受域小于理论上的。因此,许多技术关注于使用大型内核、无卷积、注意机制等人来对CNN建模更多的全局上下文依赖关系。尽管是有利的,但二维卷积的内在局部性仍然限制了收集整个图像中所有像素的全局上下文的访问。典型的基于CNN的方法比传统方法取得了更好的效果,但在一些背景极其复杂的图像中仍然会产生误判。因此,性能需要进一步提高。

最近,随着自然语言处理(NLP)的显著进展,视觉转换器(ViT)首次证明,在大规模训练数据上进行预训练时,仅仅依赖自我注意机制可以超越现有的图像分类任务。基于自注意在明确建模长期上下文交互和学习抽象语义信息方面的优越能力。然而,这些无卷积变压器将图像视为一系列视觉补丁(令牌),在建模局部结构,如边和角时,缺乏图像的感应偏置。因此,需要大规模的数据集和更长的训练时间来隐式地学习这种归纳偏差,这与有限样本的工业成像应用相反。

已有的研究大多集中在下对单一目标进行分类或检测,缺陷图像的分类相比检测缺乏了缺陷的位置、大小等至关重要的信息。并且,在实际应用中往往需要检测多类常见的缺陷,多类缺陷的检测极大的考验了模型性能。接着,缺陷的尺度的变化也较大,很多类别的缺陷如断指,裂痕等目标较小,完全基于卷积的模型在多个小目标检测上通常表现不理想,模型整体缺乏泛化性、鲁棒性。

生物启发对于深度学习而言具备着深远且巨大的影响,无论是基于生物神经的神经网络,还是基于神经突触的脉冲神经网络,都毫无疑问的证明了生物启发能够给人工智能带来崭新的活力与研究方向。

发明内容

本发明的目的是针对上述不足而提供一种基于拟态视觉的光伏电池缺陷检测仿生模型。本模型从模仿生物学的角度出发,具备着更强的生物可解释性,基于生物启发提出拟态视觉仿生光伏电池缺陷检模型。本发明的模型具备生物特性,并拥有人类周边视觉感受野和更强的特征融合能力,具备一定的性能优势。

本发明的技术解决方案是:基于拟态视觉的光伏电池缺陷检测仿生模型,其特征在于包含三个部分:

(1)骨干网络:骨干网络用于提取图像中的有效信息,将原始数据映射至所需的空间中,骨干网络所提取的特征会传递到颈部网络中。

(2)颈部网络:颈部网络用于融合不同尺度、层级的特征,并丰富特征的表达能力,颈部网络融合的特征会传递到检测头部。

(3)检测头:检测头主要负责对特征进行预测,生成边界框和并预测类别。

模型的处理流程是:

首先将待检测光伏电池的待检测图片输入骨干网络中,提取图像中的缺陷特征。

随后,骨干网络所提取的不同尺度特征将送入模型的颈部网络。颈部网络在自下而上的路径中,通过位置信息传递模块将底层特征中精确的位置信号传递给顶层,在自上而下的路径中,通过语义信息传递模块将顶层丰富的语义信息传递给底层。

最后,将融合后的特征进行自适应的加权融合,并将其输入分离式检测头中,检测头通过上述信息进行计算,得出缺陷的位置、类别信息。

上述方案中,还包括:

骨干网络由仿生特征提取模块和拟态视觉注意力机制模块堆叠而成,分为四个阶段;仿生特征提取模块仿生特征提取模块主要由空间聚合特征提取模块SA-Block以及自校准卷积模块SC-Conv组成;拟态视觉注意力机制模块内部包含两个子模块:深度挖掘注意力模块与拟态视觉模块;在每个阶段内,图像首先会被输出进仿生特征提取模块中,模块内会通过卷积对图片进行降采样,尺度比例系数分别为[1/4,1/8,1/16,1/32],并将三通道RGB图像的通道数扩充至[64,128,256,512]以增大信息容量;接着,使用模仿生物视觉的空间聚合特征提取模块SA-Block提取特征;最后,采用自校准卷积模块SC-Conv聚合跨通道的目标特征信息;在最后两个阶段里,添加拟态视觉注意力模块,用于捕捉丰富的动态上下文,并模仿人类独有的周边视觉机制。

语义信息传递模块添加在特征金字塔自上而下通道中的每两层之间,用于融合不同尺度、层级的特征层,并传递有效的目标的语义信息;具体的做法如下:

其中第i层的特征层表示为

通过外积以及归一化操作得到通道注意力

最后,通过将Y

空间信息传递模块添加在自下而上路径中相邻特征层之间,用于将精确的位置信号传递到顶层,具体的做法如下:

首先对相邻特征层A

对M′采用归一化操作得到空间注意力图,对A

然后,将空间注意力应用在A′

检测头Head部分引入了分离式检测头,参考人类大脑的分区机制,欲以通过不同的分支去使检测头部关注不同的内容;三个检测头分别处理颈部输出的不同尺度特征,输出最终结果;具体的做法如下:对于颈部所输出的特征,在三个分支中采用两次卷积映射,其中最终的卷积核为1的卷积用于压缩通道数,起到代替全连接层的作用,分别将通道压缩为[num,1,4],其中通道数为n的分支输出类别,n为类别个数。输出通道为1的分支输出IoU阈值,输出通道数为4的分支输出目标检测框的位置与大小[x,y,h,w]。表示为:

本发明的优点是:

1.基于人类感受野及视觉机制的骨干网络对于特征具备更强的抽象能力,优于大部分主流的骨干网络,能够在色彩单一、纹理复杂的光伏电池电致发光图像上高效的提取有效的特征。

2.所提出的颈部网络,与传统的颈部网络不同,与生物类似,所传递信息的方式更具备逻辑性,根据所融合、传递的特征作用不同,采取截然不同的融合方式,能够有效的增强光伏电池电致发光图像中缺陷特性的表达能力。

3.基于人脑分区机制提出分离式检测头,与颈部类似,对于检测头步,本发明选择对多尺度特性进行尺度监控、尺度融合并进行分离式检测。尺度监控负责自适应的调节三个尺度的特征对于检测当前输入的图片的有效性。尺度融合负责融合三个尺度的特征,保证信息的完整性。分离式检测头根据不同信息流对特征的关注点不同解耦分类与定位任务。

下面将结合附图对本发明的实施方式作进一步详细描述。

附图说明

图1是部分EL成像光伏电池缺陷数据集图。

图2是不同类别光伏电池缺陷数据分布。

图3是数据分布图。

图4是拟态视觉仿生模型图。

图5是空间聚合特征提取模块图。

图6是自校准卷积模块图。

图7是拟态视觉注意力机制模块图。

图8是分离式特征金字塔图。

图9是语义信息传递模块(SIF)图。

图10是空间信息传递模块(PIF)图。

图11是自适应融合的分离式检测头图。

图12是自适应尺度监控模块图。

图13是分离式检测头图。

图14是实验结果。

图15是实验过程中损失及各评测指标变化的曲线图。

图16是拟态视觉模块的可视化图。

图17是颈部网络的特征图。

具体实施方式

电致发光成像原理

光伏电池上的裂痕、指状、黑核等故障肉眼无法看出,但可通过EL成像检测到。在电致发光(EL)成像中,光伏电池在正向偏置条件下由于电子与空穴的复合而发出辐射,发射的辐射在近红外范围内,公

式1给出了非简并电子和空穴浓度下每能量的电子空穴的复合速率。

上述公式中,g

PVEL-AD数据集

如图1所示,本发明采用了PVEL-AD光伏电池缺陷EL成像数据集,PVEL-AD数据集具有各种内部缺陷和不均匀背景的近红外图像,包括12种不同类型的异常缺陷,如裂纹(线、星形)、手指中断、黑核、错位、粗线、划痕、碎片、坏角、打印错误、水平位错、垂直位错和短路缺陷。图1中,star crack(星型裂纹),line crack(线型裂纹),black core(黑核),fingerinterruption(断指),horizontall dislocation(水平错位),vertical dislocateion(垂直错位),short circuit(短路),fragment(碎片),thick line(粗线),scratch(划痕)comer(裂块),defect-free(无缺陷的)。不同种类的数据分布所如图2所示。

其中部分类别的缺陷罕有发生,故数量极少,如果使用所有分类,就会导致数据集分布极不平衡且不具备实际意义。所以本发明剔除了其中部分罕有的缺陷类别,保留手指中断共1901张,裂纹1279张,粗线共1031张,错位共1279张,黑核共777张,共5类常见的缺陷。

数据增强

神经网络模型的效果与数据集的数量和质量是强相关的。在网络的训练中,模型训练的权重偏向于像类别数量更多的目标,数据如果不经过处理容易发生过拟合或者欠拟合,模型很难收敛,上述数据中的类别并不平衡,数量也满足不了模型训练的需求,所以本发明利用现有技术对数据进行增强。

首先,对图片使用翻折、旋转、裁剪,保持了原图的直线性以及相对位置,同时改变图像中的大小、方向、位置。通过仿射变换将图片样本数量扩张为原来的3倍,并且丰富了样本的空间变化。

其次,对数据进行马赛克数据增强,从总数据集中去除一个batch的数据,每次从中随机取出4张图片,进行随机位置的裁剪拼接,合成新图片,重复batch size次,最后得到batch size个经过了马赛克数据增强后的一个batch的新数据,再传递给神经网络进行训练。增加了数据的多样性和目标个数,变相地提高了batch size,在进行批量标准化操作时的时候可以更好的统计均值和方差,优化了如断指等缺陷的(一个图片上多个小目标)数据质量。

然后,利用高斯模糊对显示树突状和深裂缝的图像进行增强,以获得具有不同信息的相同标签的新图像。减少了深色图像的细节,提供了不同的有效信息。接着对裂纹的图像使用对比度增强操作,以使模型更能耐受光照条件。值得注意的是,每个类的图像数量保持相等,以帮助训练的稳定性,增强后的数据分布如图3所示。图3中:Bionics Attention(拟态注意力机制)、SC-Conv(自校准卷积)、SA-Block(仿生特征提取模块)、CBL(代表卷积、标准化、激活函数)、Focus(切片)、SIF(语义特征聚合模块)、PIF(空间特征聚合模块)、Carafe(轻量级上采样算子)、Adaptive Scale adjustment(自适应尺度监控)、C3(卷积瓶颈模块)、Decoupled Head(分离式检测头)、DWConv(深度可分离卷积)、Concat(张量拼接)、BottleNeck(瓶颈层)、BN(批量标准化)、Leaky ReLU(激活函数)、SiLU(激活函数)。

基于拟态视觉的光伏电池缺陷检测仿生模型

基于拟态视觉的光伏电池缺陷检测仿生模型的结构如图4所示,其中主要包含三个部分:

(1)骨干网络(backbone):骨干网络用于提取图像中的有效信息,将原始数据映射至所需的空间中,骨干网络所提取的特征会传递到颈部网络中,骨干网络由四种模块组成,分别为用于缩小图像尺寸并扩充通道数的卷积下采样模块,自校准卷积模块,拟态视觉注意力机制模块和仿生特征提取模块组成。

(2)颈部网络(Neck):颈部网络用于融合不同尺度、层级的特征,并丰富特征的表达能力,颈部网络融合的特征会传递到检测头部。颈部网络由轻量级上采样算子、语义特征传递模块、空间特征传递模块、C3模块组成。

(3)检测头(Head):检测头主要负责对特征进行预测,生成边界框和并预测类别。检测头由自适应尺度监控模块、自适应尺度调节模块、分离式检测头组成。

模型的处理流程是;

首先将待检测光伏电池的待检测图片输入骨干网络中,提取图像中的缺陷特征。

随后,骨干网络所提取的不同尺度特征将送入模型的颈部网络。颈部网络在自下而上的路径中,通过位置信息传递模块将底层特征中精确的位置信号传递给顶层,在自上而下的路径中,通过语义信息传递模块将顶层丰富的语义信息传递给底层。

最后,将融合后的特征进行自适应的加权融合,并将其输入分离式检测头中,检测头通过上述信息进行计算,得出缺陷的位置、类别信息。

A、基于生物启发的仿生骨干网络

仿生骨干网络由仿生特征提取模块和拟态视觉注意力机制模块堆叠而成,分为四个阶段。在每个阶段内,图像首先会被输出进仿生特征提取模块中,模块内会通过卷积对图片进行降采样,尺度比例系数分别为[1/4,1/8,1/16,1/32],并将三通道RGB图像的通道数扩充至[64,128,256,512]以增大信息容量。接着,使用模仿生物视觉的空间聚合特征提取模块(SA-Block)提取特征。最后,采用自校准卷积模块(SC-Conv)聚合跨通道的目标特征信息。在最后两个阶段里,添加拟态视觉注意力模块,用于捕捉丰富的动态上下文,并模仿人类独有的周边视觉机制。

a.仿生特征提取模块

仿生特征提取模块主要由空间聚合特征提取模块(SA-Block)以及自校准卷积模块(SC-Conv)组成。

(1)空间聚合特征提取模块(SA-Block)

空间聚合特征提取模块被放置在骨干网络每个阶段中,用于提取缺陷的特征。特征整合理论表明,人类视觉通过提取基本的上下文特征并将个体特征与注意力相关联来感知目标。传统卷积神经网络倾向于进行低阶或高阶的信息交互,遗落了最丰富的中阶交互,这与人类的视觉模式是冲突的。因此,合理捕捉局部上下文中的多阶显示交互对有效特征的提取尤为重要。为此,本发明在骨干网络中使用了一个空间聚合特征提取模块(SA-Block),以捕获多阶的上下文信息,如图5所示,图5中:Norm(标准化)、GAP(全剧平均池化)、Subtract(张量对位相减)、GELU(激活函数)、SILU(激活函数)、Split(张量分割)、Concatanate(张量拼接)、Conv(卷积)、DWConv(深度可分离卷积)、Dialation(膨胀率)。该块由2个级联组件组成:

z=x+Moga(FD(Norm(x)))

其中,FD()为低阶信息抑制模块,Moga()为门控上下文信息聚合模块,以提取具有静态和自适应区域感知的多阶特征。FD()表示为:

Z=GeLU(Y+γ

其中

然后,在Moga()的上下文分支中对多阶特征进行建模,采用不同膨胀率并的深度可分离卷积捕获低、中、高阶交互,给定输入特征x∈R

其中

最后,通过具有门控效应的SiLU激活函数聚合分支的特征得到空间聚合特征提取模块的输出Z∈R

Z=SiLU(f

SiLU=x·σ(x)

其中σ()代表sigmoid激活函数,⊙代表哈达玛积。

(2)自校准卷积模块(SC-Conv)

自校准卷积模块(SC-Conv)放置在空间聚合特征提取模块之后,它通过内部通信扩张每个卷积层的视野,丰富了输出特性,自适应地围绕每个空间位置建立了远程空间和通道间的依赖关系,能够显式的合并更丰富的特征信息,具体结构如图6所示,图6中:Up(上采样)、Down(下采样)、Sigmoid(激活函数),

首先,给定输出x∈R

然后分别将x

具体的做法如下:给定输入x

b.拟态视觉注意力机制模块

传统的注意力机制通过全连接层作用于特征获得自注意力计算,未考虑像素的周边上下文信息,使查询与键之间的运算是孤立的。其次,全局注意力机制与人类的视觉系统并不相符,全局信息中部分噪声与冗余特征容易干扰模型的最终检测结果,最后,通过全连接所实现的注意力机制相比于全卷积模块,其丢失了卷积局部连接和平移等变性等优秀属性。

所以,本发明从仿生学的角度出发,基于注意力机制的思想与人类的周边视觉系统提出一种通过全卷积实现的拟态视觉注意力机制模块,改进了注意力机制中query,key,value的交互方式,提高了性能与生物可解释性。

拟态视觉注意力机制模块内部包含两个子模块:深度挖掘注意力模块与周边视觉模块(见图7),图7:input(输入)、Output(输出)、RBPjeck(代表通过两次卷积核大小为1的反卷积对特征进行通道混合操作)、RBPjeck&softmax(代表通过两次卷积核大小为1的反卷积对特征进行通道混合操作后,再通过softmax对张量进行归一化)、Matmul(矩阵乘法)、Sum&mean&sofmax(代表求和、平均化、归一化操作)、Peripheral Initialization(周边视觉的初始化)、Peripheral projection(周边投影)、In&GeLU(实例化以及激活函数操作)。深度挖掘注意力模块通过全卷积的多重交互的自注意力机制深度挖掘特征的语义信息。周边视觉模块负责通过位置编码迫使深度挖掘注意力模块学习人类的周边视觉机制,输出一个位置编码w

(1)深度挖掘注意力子模块

在深度挖掘注意力子模块中,主要进行query、value、key的计算,给定一个输入x∈R

query=g

其中g

首先拼接输入x与key,通过反瓶颈结构进行两次幽灵卷积对原本特征与key进行充分的通道交互:

其中σ是Softmax激活函数,用于补偿非线性表达能力,g

接着计算value矩阵,将key与value拼接,并使用反瓶颈层交互并聚合聚合二者信息得到输出

key与value拼接后,还会对其进行通道维度求和以及全局平均池化操作,得到空间权重矩阵w

通过卷积映射与多重矩阵乘法对qkv与输入x进行了更加灵活与深层的交互,在不引入过多计算量与参数的同时充分聚合了上下文信息,补偿了传统注意力机制中丢失的部分纹理信息。

最后对w

(2)周边视觉子模块

深度挖掘注意力模块的交互方式属于全局注意力机制,感受野冗余,导致模型对部分细节的感知与聚焦能力较弱,无法控制query与key的交互关系,为了使query与key进行更深且有效的交互,本发明为模块引入周边视觉机制,通过欧氏距离限制query与key的交互强度,让网络根据给定的训练数据学习将视野划分为不同的外围区域,迫使模型学习这种人类独有的视觉模式。

人类视野根据与注视中心的欧式距离分为几个区域:中央、相对中央、中部和外围区域,其中每个区域捕获不同的视觉信息;离凝视越近,处理的特征越复杂,离凝视越远,感知的视觉特征就越简单。

为了模仿上述机制,选择将query的位置作为注视中心,query局部的区域分为:中心、准中心区域、和外围、远外围共四个子区域区域。query不再与全局中所有key进行交互,而是与四种区域内的key进行局部交互,并通过欧氏距离的不同限制其交互强度,具体做法引入周边视觉投影:

其中

上述计算之后,需要通过一层实例归一化层以稳定训练的过程:

其中

为了促进网络的训练,需要在训练阶段的开始注入周边视觉这个属性,所以需要初始化δ

其中c

最终,在得到周边视觉子模块以及深度挖掘注意力子模块的输出通过矩阵乘法进行混合,以得拟态视觉注意力机制,具体被定义为:

通过矩阵乘法与哈法玛积对两个子模块的输出进行混合。

分离式特征融合金字塔

光伏电池的缺陷特征中,裂痕等特征尺度变化较大,且不同层级之间的特征表达包含不同意义。特征金字塔用于丰富上述特征的表示能力,本发明的分离式空间语义融合金字塔参考人类大脑皮层的信息传递方式,根据信息流的不同需求设计了两种特征的传递与融合模块:语义信息传递模块、位置信息传递模块。分离式特征融合金字塔的结构如图8所示(为了方便表达,图中省略了用于对齐尺度与通道数的卷积块和上采样算子以及C3模块),能够融合骨干网络后三个阶段不同尺度、通道数的特征,它在自上而下的路径中使用语义信息传递模块(SIF)来传递语义信息,在自下而上的路径中使用具有瓶颈结构的位置信息传递模块(PIF)将精确的位置信号传递到顶层。图8中:SIF(Semantic informationfusion)代表语义信息融合、Local Information fusion(PIF)空间信息融合。

(1)语义信息传递模块(SIF)

语义信息传递模块被添加在特征金字塔自上而下通道中的每两层之间,用于融合不同尺度、层级的特征层,并传递有效的目标的语义信息。结构如图9,图9中:CARAFE(轻量级上采样算子)、Global avg.pool(全局平均池化)、Matmul(矩阵乘法)、Add(矩阵对位相加)、Concat(矩阵拼接)。

具体的做法如下:

其中第i层的特征层表示为

通过外积以及归一化操作得到通道注意力

最后,通过将Y

(2)空间信息传递模块(PIF)

空间信息传递模块添加在自下而上路径中相邻特征层之间,用于将精确的位置信号传递到顶层(如图10),具体的做法如下:

首先对相邻特征层A

对M′采用归一化操作得到空间注意力图,对A

然后,将空间注意力应用在A′

自适应融合的分离式检测头

光伏电池缺陷目标尺度变化极大,其中黑核等缺陷通常占据整个图片,而断指、裂痕等缺陷尺度又很小,这导致不同尺度的特征对检测结果的影响差异较大。所以,本发明设计了能够进行自适应融合的分离式检测头(如图11),皆在使模型能够适应尺度、检测难度差异较大的任务。首先,利用金字塔池化分别聚合三个不同尺度的特征层的全局信息,用于学习和监控不同尺度特征层级的重要性,对其进行自适应的加权调节。随后,对齐并融合三个尺度的特征,加强特征的表达能力。最后,将特征输入解耦检测头,特征会在不同的分支内预测缺陷的类别信息与位置信息。

(1)自适应尺度监控

对于光伏电池缺陷检测,由于尺度的差异性,不同尺度的特征理应具备不同的重要性,所以本发明为模型引入了自适应尺度调节因子,利用全局平均池化分别聚合不同尺度特征的全局信息,自适应的门控调节不同尺度的特征信息流(如图12),图12中:GAP(全局平均池化),

尺度调节因子η具体可以表示为:

其中g

(2)自适应尺度融合

自适应融合模块能够自适应地学习每个尺度特征图的融合空间权重,分为两步:恒等缩放和自适应融合。其具体作用于Neck输出的三个不同尺度特征,也就是原本应该输入进三个检测头部的特征,对其进行恒等缩放、自适应融合,具体的做法如下:

a.恒等缩放:Neck输出的不同尺度的特征,需要进行对齐,将不同尺度的特征表示为x

对于缩放比例为2的降采样,使用步长为2,卷积核大小为3的卷积层来缩小分辨率:

对于缩放比例为4的降采样,在卷积层之前添加一个池化核大小为2的最大池化层。

b.自适应融合:

其中

最终,将经过自适应融合的特征输入头部进行预测。

(3)分离式检测头

由于分类和定位的关注点不同,分类更加关注所提取的特征与已有类别哪一类最为相近,也就是目标的纹理内容、语义信息,定位更关注目标检测框的位置坐标从而进行边界框参数修正,也就是目标的边缘信息,所以本发明为模型引入了分离式检测头(如图13,Class(类别)、IoU(置信度)、Boxes(检测框)),参考人类大脑的分区机制,欲以通过不同的分支去使检测头部关注不同的内容。三个检测头分别处理颈部输出的不同尺度特征(如图4、13),输出最终结果。具体的做法如下:

对于颈部所输出的特征,在三个分支中采用两次卷积映射,其中最终的卷积核为1的卷积用于压缩通道数,起到代替全连接层的作用,分别将通道压缩为[num,1,4],其中通道数为n的分支输出类别,n为类别个数。输出通道为1的分支输出IoU阈值,输出通道数为4的分支输出目标检测框的位置与大小[x,y,h,w]。表示为:

实验

(1)实验设置

为了充分挖掘模型的性能,本发明使用了迁移学习策略,首先在COCO2017这个大型数据集上对模型进行了预训练,并制作了预训练模型。随后,从光伏电池缺陷数据集中挑选80%作为训练集,20%作为测试集,采用分层抽样对原始数据进行随机划分,同时保留训练和测试集中不同类别内样本的样本分布,并加载预训练模型,在此基础上进行了模型的训练。

实验设置的的初始学习率为0.01,使用SGD优化器,批量处理大小为32,共训练300轮,引入L2正则化以缓解过拟合

实验在一台GPU为AMD 5600X、GPU为两张RTX8000、内存32G的Windows10电脑上运行,使用Pycharm平台。

(2)评测指标

本发明使用两种常用的指标来评估模型的性能,分别是平均精度AP和召回率R。评估值越高说明性能越高,反之亦然。

其中,目标检测模型的检测结果有四种类型:真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。用精度率来评价检测模型的准确性。召回率用于评价检测模型识别所有阳性样本的能力。mAP是所有类别的平均精度率。mAP值越大,模型的综合性能越好,其中n为类别数,n为类别总数。采用平均精度(AP)来评价某一类型目标的检测模型的精度率,其中p为精度率,r为召回率。

(3)模型性能验证

为了证实本发明的想法,使用测试集验证模型的性能,并对结果进行了分析和评估。如图14,黑核与断层的缺陷特征非常明显、简单,基本获得了100%的检测成功率,对这两类缺陷模型不存在错检、漏检。对于断指、裂痕等较小尺度的缺陷,模型有效检测出了绝大部分缺陷目标,并保证了相对较高的精度,说明本发明的改进有效提升了模型对于尺度小且特性并不明显的目标的检测能力,基本能够满足其工业应用的需求。

模型在训练过程中的训练损失曲线如图15所示,从实验的结果可以看出,改进后的模型损失稳定的下降,在早期的20轮,损失迅速下降,精度迅速提升,在训练20轮后,损失的下降速度逐渐减慢,但仍在显著降低。而当训练40轮后,模型的损失下降变得非常慢,并会在一定幅度内轻微震荡,但总体仍然是下降的趋势,这种趋势持续到训练200轮后才基本稳定。最后,250轮后损失的下降逐渐稳定,损失曲线几乎平坦,表明损失达到了最小值,模型基本收敛并表现良好。

模型的测试集损失曲线的趋势也基本与训练损失像符,但是也略有一定不同,通过图15能够看出,模型的测试损失,尤其是类别损失在早期发生过波动极为明显的震荡,经过分析得出,这是因为检测类别中黑核与断层的缺陷特征过于明显,纹理结构过于简单,影响了测试集的损失变化。在波动消失的几轮,测试集的损失变化趋势基本与训练集的相对应,在前20轮训练中迅速下降,在训练40轮后下降速度减缓,但存在一定波动。训练100轮后,训练的损失基本趋近于稳定,仅在极小范围内震荡,基本趋于稳定,代表模型此时其实已经达到性能上限。

模型的精度变化曲线如图15所示,与训练与测试损失并不相同的是,模型的精度震荡幅度较大。在早期的20轮内,模型的精度剧烈波动,AP曲线在早期出现了有趣的现象,在早期训练的时候,P极具提升,甚至达到了80%左右,但此时召回率和mAP较低,这是由于黑核与断层的检测过于简单,但其余缺陷类型检测难度又过大,这直接导致了模型在早期阶段出现了及其不平衡的能力,也就是说,此时的模型能够检测出绝大多数黑核与断层并保证了相对高的精度,但又基本检测不到其余缺陷,这就是造成模型精度曲线在早期急剧波动的根本原因。训练过程中的第20轮到100轮,模型的精度和召回率上升速度逐渐变慢,且波动逐渐变小,但仍然明显震荡。训练100轮后,模型的精度和召回率基本不再提高,但仍不稳定,直到训练200轮后,模型的精度与召回率逐渐趋于稳定,曲线基本平缓,代表此时模型已经收敛。

(4)模型的消融实验

本小节定量分析了每个改进点的有效性,通过消融实验分析不同改进对模型性能的贡献。为了控制变量,本发明将消融实验分为三部分:骨干(backbone)、颈部(neck)、头部(head)。并逐步分析各部分的改进对模型整体的性能提升。

a.骨干网络消融实验

表1骨干网络的消融对比实验结果

由表1能够看出,本发明所提出的骨干网络在该任务上的性能优于目前的主流模型。且骨干网络的每个改进点都能为模型带来有效的性能提升。

本发明可视化了周边视觉交互强度矩阵的三维图像,其中结果越倾向于如图16中的三维图像,则代表模块的交互方式越倾向于人类。其中x,y轴的平面为一个k×k的矩阵,k=h

b.颈部网络消融实验

表2颈部网络的消融对比实验

空间信息传递模块与语义传递模块传递的信息如图17所示,可以明显看出,语义信息,即为左侧特征图,包含目标更多的纹理与细节信息,也就是说,能够通过这些特征识别出目标的类别信息。同理,右侧特征图即为位置信息,可以看出,位置信息包含的目标中心点位置及目标大小,基本以及失去了纹理与语义细节,无法通过该部分特征计算目标的类别信息。

综上所述,语义传递模块与空间传递模块成功分离了颈部网络所融合的信息流,根据不同信息流的需求选择了不同的信息传递方式,如表2所示,该结构有效提升了模型的性能。

c.检测头及各部分的消融实验

表3模型各部分的消融实验

如表3所示,分离式检测头有效解耦了分类与定位任务,并自适应的融合、监控了多尺度特征,有效提升了小目标的检测能力。

(5)模型对比实验

表4模型与主流模型的对比试验

为了评估本发明提出的模型优势,本发明将其与目前主流的6种目标检测模型:DETR、Deformable-DETR、YOLOv3、YOLOv4、YOLOv5、PicoDet比较检测性能。在同一数据集下训练7个模型,并在同一测试集上进行评估性能。

在同等条件下,每个检测模型都有不同程度的漏检,本发明的模型所遗漏的目标数量最小,面对小目标时检测效果较好。数据证明,本发明模型的评测指标AP和Recall都优于其他几个检测模型,说明模型具有更好的性能。对于工业瑕疵检测,召回率指标更为重要,与:DETR、Deformable-DETR、YOLOv3、YOLOv4、YOLOv5、PicoDet相比,本发明的模型在召回率上取得了较大的优势,证明模型对目标的漏检出率低。这是因为不同的检测模型使用了不同的特征提取网络和融合方法,因此,不同的网络学习到的关键目标的信息也是不同的。本发明的模型具备生物特性,并拥有人类周边视觉感受野和更强的特征融合能力,这也是具备性能优势的主要原因。同时,各模型输入到训练网络的图像大小有所不同,并且本发明中检测示例和模型训练的环境配置较高,指标仅供参考。

本发明的关键点如下;

1)基于生物启发,从人类视觉感受野、周边视觉模式和人眼聚焦方式三个角度提取具备生物特性的高阶信息。本发明通过高效空间聚合块模仿生物感受野,学习语义特征和多秩序互动,并利用自校准卷积指导显示空间的特征应该映射至哪个区域,类似于人眼的聚焦。接着,提出拟态视觉注意力机制充分聚合动态及静态的上下文信息,在不同的视觉区域内控制信息的交互,模仿人类的周边视觉模式。

2)基于人脑传递信息的方式,设计分离式空间语义融合,根据不同信息流的需求采用两种轻量化的模块以传递位置、语义信息,增强多尺度特征的表达能力,丰富不同层级特征之中蕴含的信息,提升小目标的检测效果。

3)自适应融合多尺度特征,并通过提取全局信息给多个特征层级的特征进行加权。同时,基于人脑皮层分区处理信息的启发,考虑分类于定位任务的关注点不同,解耦定位于分类任务,采用不同的分支进行回归计算,提高了最终的检测精度与召回率。

上面描述,只是本发明的具体实施方式,各种举例说明不对本发明的实质内容构成限制。

相关技术
  • 一种基于计算机视觉的光伏电池板热斑效应检测系统及其计算方法
  • 基于机器视觉的光伏电池缺陷在线检测方法及系统
  • 一种光伏面板缺陷检测模型确定和光伏面板缺陷检测方法
技术分类

06120116481890