掌桥专利:专业的专利平台
掌桥专利
首页

基于余弦偏置自注意力的陶瓷膜板表面缺陷快速定位方法

文献发布时间:2024-04-18 20:01:30


基于余弦偏置自注意力的陶瓷膜板表面缺陷快速定位方法

技术领域

本发明涉及陶瓷膜表面缺陷定位领域,具体涉及一种基于余弦偏置自注意力的陶瓷膜板表面缺陷快速定位方法。

技术背景

陶瓷膜板是由氧化钛、氧化硅等无机材料经过高温烧制而成的一种固体膜,因其具有通水量大、化学稳定性好、耐酸碱性能和机械强度高等优点被广泛用于工业用水处理、市政污水净化等领域。在陶瓷膜板制造及运输的过程中可能会出现划痕、凹坑等缺陷,所以需要对陶瓷膜板进行检测并剔除不合格的残次品。最初的陶瓷膜表面缺陷检测的方法往往采用人工检测,费时费力效率低;目前自动化陶瓷膜表面缺陷定位常用方法分为两类:

第一类是传统图像定位算法。代表性算法如:2022年,济南大学周静在《基于最小生成树和图像矩的陶瓷过滤器表面缺陷检测》中采用了正方形滑动窗口遍历图像的方法分析图像特征,并利用最小生成树描述空间特征实现对陶瓷过滤器表面缺陷的定位,最后依靠最小外接矩形对缺陷区域进行标定分类。以上算法存在的问题是:在对图像特征进行分析的过程中,需要通过滑动窗口对图像遍历提取,使得每个窗口之间可能出现重叠导致计算冗余,影响后续缺陷定位效果偏差较大且花费时间较长。

第二类是基于深度学习的定位方法。一般来说,基于深度学习的定位方法分为四个步骤:数据采集、特征提取预处理、粗定位、精定位。代表性算法如:2021年,AlexeyDosovitskiy在《an image is worth 16x16 words:transformers for imagerecognition at scale》一文中针对其中步骤二进行了改进,即引入了基于多头自注意力机制的Transformer结构对图像进行目标检测:在编码模块中,将图像分割成多个图块,再利用多头自注意力机制提取每个图块的特征信息;在解码模块中,将每个图块的特征信息接入分类网络实现目标定位和分类。该方法引入了多头自注意力机制,提高了图像特征信息的提取效果,使得后续目标定位更加准确,但由于未实现图块间特征信息交互,需要大量参数进行学习优化,其检测效率偏低。

鉴于陶瓷膜板表面缺陷定位文献偏少,我们对陶瓷膜板检测的类似相关专利进行了检索。2022年,广东工业大学高向东等人提出了一种瓷砖表面缺陷检测及定位方法(公开号:CN111627008A)。该方法针对其中步骤二进行了改进,即通过基于卷积网络的Resnet50结构对瓷砖表面进行特征提取,然后采用多重多元高斯聚类法构建瓷砖缺陷特征的聚类族并确立损失函数,最后利用KNN算法(K-Nearest Neighbor,K最邻近算法)实现瓷砖表面的缺陷定位。该方法在特征提取过程中引入卷积层间短路连接模块,提高了特征提取效果,使得缺陷定位更加精准,但由于其在训练过程中存在大量卷积计算冗余,使得定位时间偏长。

相比传统图像定位算法,基于深度学习的定位方法在定位精度上有了较为明显的提升,但是仍存在计算量过大、检测效率偏低的问题,主要体现在定位方法中的特征提取预处理步骤耗费时间过大。针对上述问题,优化陶瓷膜板表面缺陷定位的特征提取预处理步骤,是本发明提高缺陷定位效率的主要思路。特征提取预处理操作一般分为三个子步骤:对特征图添加注意力机制得到关注后的特征图、对关注后的特征图进行交互及非线性激活得到全局的特征矩阵、对全局的特征矩阵进行归一化得到所需缺陷特征图。2021年,Ze Liu在《Swin Transformer:Hierarchical Vision Transformer using Shifted Windows》一文中对子步骤一进行了优化,方法如下:将相对位置偏置嵌入到自注意力机制,引入了位置编码矩阵,通过该矩阵定位所需特征位置,提升了窗口对图像特征提取的精准度。但其在图像局部区域提取特征时,会反复关注几个像素对而出现冗余计算的问题,降低了特征提取的速度。

发明内容

为了克服现有技术和方法的不足,本发明基于深度学习,设计了一种基于余弦偏置自注意力的陶瓷膜板表面缺陷快速定位方法,本发明的陶瓷膜板表面缺陷位置快速定位方法:在自注意力机制中引入了余弦偏置学习,使得自注意力机制中的关注值可以自适性的进行周期性偏差调整,避免了部分图块在提取特征时,会因重复关注几个像素对而出现冗余计算的问题,从而提高了缺陷定位的效率。采用多窗口移位法增加空间通道数量,实现单窗口与其他窗口的多通道通信,提高了不同窗口之间特征信息交互的效率。

本发明采用了如下技术方案:一种基于余弦偏置自注意力的陶瓷膜板表面缺陷快速定位方法,该方法在自注意力机制中引入了余弦偏置学习,具体步骤如下:

步骤1、数据采集及划分:使用工业相机采集陶瓷膜板表面图像数据并将数据集划分为训练集、验证集和测试集;

步骤2、提取特征并处理,进而构建陶瓷膜板表面图像特征图;

步骤3、粗定位:基于锚框置性度对关注域候选网络生成的缺陷区域进行选取并实现粗略定位;;

步骤4、精定位:基于网络模型训练的缺陷区域筛选调整及准确定位。

与现有技术相比,本发明有益效果是:

(1)在自注意力机制中引入了余弦偏置学习,使得自注意力机制中的关注值可以自适性的进行周期性偏差调整,避免了部分图块在提取特征时,会重复关注几个像素对而出现冗余计算的问题。经理论校核,本方法比之前的方法减少了(HW)

(2)在进行多分辨率的特征提取过程中,采用多窗口移位的方式增加了空间通道数,使得单个窗口上的特征信息可以通过更多的通道与其他窗口上的特征信息进行通信,提高了不同窗口之间特征信息交互的效率,陶瓷膜板表面缺陷的定位速率得到提高。

(3)设计了一种对数间隔的连续位置偏差方法,在相对坐标基础上添加一个小型元网络,从而对任意相对坐标生成偏置参数,使得陶瓷膜板表面图像特征信息的相对位置可以在不同窗口之间平滑地传递,避免特征信息在传递过程的丢失。基于上述优化方案,陶瓷膜板表面缺陷定位精度得到保证。

附图说明

图1为本发明的总体流程示意图;

图2为本发明的余弦偏置特征提取器结构图;

图3为本发明的融入余弦偏置学习的自注意力机制结构图;

具体实施方式

下面结合附图1-3和具体实施方式对本发明作进一步说明,本发明提供了一种基于余弦偏置自注意力的陶瓷膜板表面缺陷快速定位方法,在自注意力机制中引入了余弦偏置学习,使得自注意力机制中的关注值可以自适性的进行周期性偏差调整,避免了部分图块在提取特征时,会因重复关注几个像素对而出现冗余计算的问题。

如图1所示为本发明的总体流程图,包括以下步骤:

步骤1、数据采集及划分;

使用工业相机采集陶瓷膜板表面图像数据集;按照8:1:1的比例将数据集划分为训练集、验证集和测试集。

步骤2、提取特征并处理:基于余弦偏置自注意力机制骨干网络的图像特征图构建,具体实施方式如图1所示,包括以下三个部分:

2.1、将陶瓷膜板表面的图像分割成图块并在获得的分割图块上应用线性嵌入层;

对步骤1所获取的训练集中的陶瓷膜板表面图像进行分块处理,利用图像分割模块将输入的RGB图像分割成不重叠的图块。按照长度为2、宽度为2的标准进行分割,得到特征维数为2×2×3=12的陶瓷膜板表面图像分割图块。为方便后续处理,在所获取的分割图块上应用线性嵌入层,将其投影到任意维度,将该维度标记为C,一般为3。

2.2、采用余弦偏置特征提取器提取分割图块的全局表面特征;

对步骤2.1中所获取的线性嵌入后的分割图块采用余弦偏置特征提取器进行第一次的特征提取操作,最终获得分割图块的全局表面特征。

其中,余弦偏置特征提取器的包括:依次连接的融入余弦偏置学习的自注意力机制子模块CB-SFA(cosine bias self-attention,余弦偏置自注意力机制)、第一归一化层LN(LayerNorm,归一化层)、GELU(Gaussian Error Linear Units,高斯误差线性单元)非线性层(图2中用

余弦偏置特征提取器的工作机制:首先,采用融入余弦偏置学习的自注意力机制,对含有线性嵌入层的分割图块进行关注特征提取,得到其局部特征图。然后,将获得的局部特征图进行归一化操作,并通过GELU非线性层对归一化后的局部特征图、初始全局特征图进行激活操作。其次,对激活后的归一化局部特征图、初始全局特征图进行全连接操作,得到融合后的整体特征图。然后,融合后的整体特征图进行归一化操作。最后,通过GELU非线性层对归一融合后的整体特征图、激活后的归一化局部特征图、初始全局特征图进行激活操作,输出分割图块的全局表面特征。

余弦偏置特征提取器效率提高机理:假设余弦偏置自注意力机制所在的每个窗口内包含L×L(即L

其中,SFA为自注意力机制计算函数,Q,V,I,J分别是分割图块中特征的查询矩阵、键矩阵、位置加权矩阵和值矩阵,

本发明提供的基于余弦偏置自注意力机制的陶瓷膜板表面缺陷位置快速定位方法能实现快速定位,理论分析如下:

1)现有技术方法:《Swin Transformer:Hierarchical Vision Transformerusing Shifted Windows》中的方法:

此前,在处理高度为H,宽度为W,通道数为C的图像时,采用的方法为相对位置偏差注意力学习,其公式为:

该方法引入了对位置编码的加权计算,根据矩阵乘法运算规则,生成矩阵Q时,共有HWC个像素,每个像素分别进行C次乘法,所以生成矩阵Q需要HWC

2)本发明的陶瓷膜板表面缺陷位置快速定位方法:

当自注意力机制采用余弦偏置对位置编码进行调整时,生成矩阵Q,V,T,J所需计算量为4HWC

3)本发明方法与方法1的比较

因此在采用余弦偏置对位置编码对自注意力机制进行调整后,其计算量减少了H

一般来说,C值通常取3,H和W取值均大于100,相比较HW乘积,4C+3、3C+1为小量,故此时的ρ值约为67%。如输入图像大小设置为192×192×3时,本发明计算方法所需的计算量为方法1的计算量的67.578%,因此本发明能大大提高效率。

2.3、融合分割图块的全局表面特征,构建图像特征图;

分阶段进行三次图块融合及余弦偏置特征提取的操作;在经过步骤2.2的操作,已实现对分割图块的特征提取。为此在本步骤中,具体地:

(1)对每个分割图块上已提取的陶瓷膜板全局表面图像特征,进行第一次图块融合,得到输出分辨率达到

(2)对分辨率为

(3)对分辨率为

其中,为了在最终分辨率的特征图上,使得陶瓷膜板表面图像特征信息的相对位置可以在不同窗口之间平滑地传递,避免特征信息在传递过程的丢失,在图块融合及余弦偏置特征提取过程中,采用了对数间隔连续位置偏置方法,该方法在相对坐标上额外使用一个小型偏置网络,对任意相对坐标生成偏置参数,因而可以自然地进行任意可变窗口尺寸的迁移。其表达式如下:

其中,N(Δx,Δy)表示陶瓷膜板表面图像特征的相对位置;

当多个分割图块上的特征信息在不同窗口间进行传递及融合时,若图块之间不具备同类特征信息,那么这些特征信息可能会出现损失。因此,引入对数间隔连续位置偏置方法,使得特征信息上像素的相对坐标生成偏置参数,避免因这些像素的丢失导致特征信息损失,确保缺陷定位的精度。

最后,通过移位窗口的方式调整空间通道数,用于提高不同窗口间的信息交互效率,在信息交互后,得到陶瓷膜板表面图像的整体特征图。移位窗口的计算公式表示为;

g

其中,g

步骤3、粗定位:基于锚框置性度对关注域候选网络生成的缺陷区域进行选取并实现粗略定位;

在关注域候选网络中,利用映射的方式从陶瓷膜板表面图像的特征图中获取目标缺陷候选区域并生成候选区域锚框,同时计算每个目标缺陷候选区域的锚框置性度,依据锚框置性度再通过池化生成陶瓷膜板表面缺陷候选区域特征图,实现缺陷粗略定位。

步骤4、精定位:基于网络模型训练的缺陷区域筛选调整及准确定位;

在对缺陷粗略定位的基础上,将生成的陶瓷膜板表面缺陷候选区域特征图进行回归的处理,最终,得到陶瓷膜板表面缺陷精准定位图像。其中,在回归分支中,由于陶瓷膜板缺陷定位的目标较小,采用WD(Wasserstein Distance,瓦瑟施泰因距离)损失函数,通过边框回归修正缺陷候选区域的精确位置。

本发明在子步骤1中,采用嵌入余弦偏置学习的自注意力机制,自适应调整周期性偏差,聚焦关注像素区域,避免冗余计算;在子步骤2中,采用多窗口移位法增加空间通道数量,实现单窗口与其他窗口的多通道通信,提高了不同窗口之间特征信息交互的效率。基于以上两个方案,从而形成了基于余弦偏置自注意力机制的陶瓷膜板表面缺陷位置快速定位方法,提高了缺陷定位效率。

技术分类

06120116556485