掌桥专利:专业的专利平台
掌桥专利
首页

一种多模态数据预训练及识别方法、装置、设备及介质

文献发布时间:2023-06-19 19:30:30


一种多模态数据预训练及识别方法、装置、设备及介质

技术领域

本发明涉及图像识别领域,尤其涉及一种多模态数据预训练及识别方法、装置、设备及介质。

背景技术

随着精密制造业的快速发展,每年因高精密仪器表面缺陷所造成的损失也高达千亿元级别,工业产品高精度缺陷检测需求日益强烈。特别是工业生产环境存在噪声、遮挡、振动、暗光等高度复杂的条件,使得缺陷检测必须具备智能化、高精度、长时间、高效率的要求。

虽然现阶段深度学习算法应用使得缺陷准确率得到一定提升,但是现有的高精度缺陷检测过程中缺陷样本小且不均衡,同时易受遮挡、氧化、振动等环境影响,存在产品缺陷检测准确率低和模型的鲁棒性弱的问题。

发明内容

为解决上述技术问题,本发明提供一种多模态数据预训练及识别方法、装置、设备及介质,提高产品缺陷检测准确率和模型的鲁棒性。

本发明实施例提供一种多模态数据预训练及识别方法,所述方法包括:

对采集获得的缺陷基础数据进行多源异构数据融合,构建缺陷场景规则数据库;

从所述缺陷场景规则数据库中提取缺陷类型信息、特征信息和场景信息,进行数据关联,提取出所述缺陷场景规则数据库的场景因子;

构建携带缺陷场景信息的自编码网络结构模型,将所述场景因子融入所述自编码网络结构模型中,并输入由各类缺陷的样本数据进行编码得到的特征向量,进行数据与规则的匹配训练,生成模态识别模型;

根据所述模态识别模型对待检测样本进行缺陷识别。

进一步地,所述对采集获得的缺陷基础数据进行多源异构数据融合,构建缺陷场景规则数据库,具体包括:

对由历史经验数据、常见规则数据和缺陷标准数据构成的缺陷基础数据进行多源异构数据融合,形成缺陷场景与缺陷类型、位置以及规模的相关联的缺陷场景规则数据库;

所述缺陷场景规则数据库包括:表面缺陷数据集、缺陷规则数据集、检测系统数据集和工艺场景数据集。

作为上述方案的改进,所述表面缺陷数据集D1=[表面缺陷ID,缺陷几何特征,空间分布数据,缺陷统计数据,缺陷频谱数据];

所述缺陷规则数据集D2=[缺陷规则ID,检测对象类型,缺陷分类统计数据,致损机理数据,缺陷成因规则,缺陷等级];

所述检测系统数据集D3=[检测系统ID,设备类型、生产线设计数据、技术选型];

所述工艺场景数据集D4=[工艺场景数据ID,检测对象类型、场景因素、生产工序];

所述缺陷几何特征包括:点线面缺陷、边界、骨骼、形状、位置、大小、拉伸和平移;

所述空间分布数据包括:熵、对比度、一致性和相关性;

所述缺陷统计数据包括灰度共生矩阵、自相关系数、数学形态学、直方图统计特征、分形体值和缺陷频谱子集;

所述直方图统计特征包括范围、均值、几何均值、调和平均值、标准偏差、方差和中值。

所述分形体值包括拉伸、平移的分形维数和孔隙度;

所述缺陷频谱子集包括纹理频谱、污点频谱和锯齿频谱;

所述缺陷分类统计数据具体为缺陷自动划分的故障模式;

所述缺陷等级包括所述检测对象类型;

所述检测对象类型包括半导体、电路板、晶圆、织物、金属表面和木头;

所述场景因素包括作业规模和设备选型;

所述生产工序包括制坯、修磨、轧制、剪切、捆扎和成品。

优选地,所述从所述缺陷场景规则数据库中提取缺陷类型信息、特征信息和场景信息,进行数据关联,提取出所述缺陷场景规则数据库的场景因子,具体包括:

从所述表面缺陷数据集中提取缺陷类型信息,从所述表面缺陷数据集与所述缺陷规则数据集中提取特征信息,从所述检测系统数据集和所述工艺场景数据集中提取场景信息;

对于缺陷Z,根据提取的缺陷类型信息、特征信息和场景信息构建的分层矩阵Z×T×R;

对于缺陷-特征关联信息,采用第一提取因子a

对特征-场景关联信息,采用第二提取因子b

根据提取得到的前项场景因子和后项场景因子确定所述场景因子;

其中,

优选地,所述构建携带缺陷场景信息的自编码网络结构模型,将所述场景因子融入所述自编码网络结构模型中,并输入由各类缺陷的样本数据进行编码得到的特征向量,进行数据与规则的匹配训练,生成模态识别模型,具体包括:

将所述场景因子中的前项场景因子应用到所述自编码网络结构模型的编码器,进行有效特征提取;

将所述场景因子中的后项场景因子应用到所述自编码网络结构模型的解码器,进行规则生成;

输入由各类缺陷的样本数据编码的特征向量W,借鉴残差网络的思想,在基本操作块的结构中,在叠加时引入场景因子,使得场景因子在所述自编码网络结构模型的堆叠中隐含在层次结构里,解码输出得到场景规则输出[类型、特征、场景];

对所述场景规则输出通过半监督的堆叠自编码器,在解码阶段添加分类器实现分类功能,经过数据与规则的匹配训练,优化所述自编码网络结构模型分类器,生成所述模态识别模型。

作为一种优选方案,所述自编码网络结构模型的目标函数具体为:

所述自编码网络结构模型的损失函数具体为:

其中,V(G,D)是定义的整个目标函数,N为原所属标签的数量,

优选地,所述场景规则输出还通过堆叠自编码器的隐层训练,不断生成和更新缺陷场景规则,并补充至所述缺陷场景规则数据库中。

本发明实施例还提供一种多模态数据预训练及识别装置,所述装置包括:

数据库构建模块,用于对采集获得的缺陷基础数据进行多源异构数据融合,构建缺陷场景规则数据库;

场景因子提取模块,用于从所述缺陷场景规则数据库中提取缺陷类型信息、特征信息和场景信息,进行数据关联,提取出所述缺陷场景规则数据库的场景因子;

模型生成模块,用于构建携带缺陷场景信息的自编码网络结构模型,将所述场景因子融入所述自编码网络结构模型中,并输入由各类缺陷的样本数据进行编码得到的特征向量,进行数据与规则的匹配训练,生成模态识别模型;

缺陷识别模块,用于根据所述模态识别模型对待检测样本进行缺陷识别。

优选地,数据库构建模块具体用于:

对由历史经验数据、常见规则数据和缺陷标准数据构成的缺陷基础数据进行多源异构数据融合,形成缺陷场景与缺陷类型、位置以及规模的相关联的缺陷场景规则数据库;

所述缺陷场景规则数据库包括:表面缺陷数据集、缺陷规则数据集、检测系统数据集和工艺场景数据集。

进一步地,所述表面缺陷数据集D1=[表面缺陷ID,缺陷几何特征,空间分布数据,缺陷统计数据,缺陷频谱数据];

所述缺陷规则数据集D2=[缺陷规则ID,检测对象类型,缺陷分类统计数据,致损机理数据,缺陷成因规则,缺陷等级];

所述检测系统数据集D3=[检测系统ID,设备类型、生产线设计数据、技术选型];

所述工艺场景数据集D4=[工艺场景数据ID,检测对象类型、场景因素、生产工序];

所述缺陷几何特征包括:点线面缺陷、边界、骨骼、形状、位置、大小、拉伸和平移;

所述空间分布数据包括:熵、对比度、一致性和相关性;

所述缺陷统计数据包括灰度共生矩阵、自相关系数、数学形态学、直方图统计特征、分形体值和缺陷频谱子集;

所述直方图统计特征包括范围、均值、几何均值、调和平均值、标准偏差、;中值

所述分形体值包括拉伸、平移的分形维数和孔隙度;

所述缺陷频谱子集包括纹理频谱、污点频谱和锯齿频谱;

所述缺陷分类统计数据具体为缺陷自动划分的故障模式;

所述缺陷等级包括所述检测对象类型;

所述检测对象类型包括半导体、电路板、晶圆、织物、金属表面和木头;

所述场景因素包括作业规模和设备选型;

所述生产工序包括制坯、修磨、轧制、剪切、捆扎和成品。

优选地,所述场景因子提取模块具体用于:

从所述表面缺陷数据集中提取缺陷类型信息,从所述表面缺陷数据集与所述缺陷规则数据集中提取特征信息,从所述检测系统数据集和所述工艺场景数据集中提取场景信息;

对于缺陷Z,根据提取的缺陷类型信息、特征信息和场景信息构建的分层矩阵Z×T×R;

对于缺陷-特征关联信息,采用第一提取因子a

对特征-场景关联信息,采用第二提取因子b

根据提取得到的前项场景因子和后项场景因子确定所述场景因子;

其中,

优选地,所述模型生成模块具体用于:

将所述场景因子中的前项场景因子应用到所述自编码网络结构模型的编码器,进行有效特征提取;

将所述场景因子中的后项场景因子应用到所述自编码网络结构模型的解码器,进行规则生成;

输入由各类缺陷的样本数据编码的特征向量W,借鉴残差网络的思想,在基本操作块的结构中,在叠加时引入场景因子,使得场景因子在所述自编码网络结构模型的堆叠中隐含在层次结构里,解码输出得到场景规则输出[类型、特征、场景];

对所述场景规则输出通过半监督的堆叠自编码器,在解码阶段添加分类器实现分类功能,经过数据与规则的匹配训练,优化所述自编码网络结构模型分类器,生成所述模态识别模型。

优选地,所述自编码网络结构模型的目标函数具体为:

所述自编码网络结构模型的损失函数具体为:

其中,V(G,D)是定义的整个目标函数,N为原所属标签的数量,

进一步地,所述场景规则输出还通过堆叠自编码器的隐层训练,不断生成和更新缺陷场景规则,并补充至所述缺陷场景规则数据库中。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例中任意一项所述的多模态数据预训练及识别方法。

本发明还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例中任意一项所述的多模态数据预训练及识别方法。

本发明提供一种多模态数据预训练及识别方法、装置、设备及介质,通过对采集获得的缺陷基础数据进行多源异构数据融合,构建缺陷场景规则数据库;从所述缺陷场景规则数据库中提取缺陷类型信息、特征信息和场景信息,进行数据关联,提取出所述缺陷场景规则数据库的场景因子;构建携带缺陷场景信息的自编码网络结构模型,将所述场景因子融入所述自编码网络结构模型中,并输入由各类缺陷的样本数据进行编码得到的特征向量,进行数据与规则的匹配训练,生成模态识别模型;根据所述模态识别模型对待检测样本进行缺陷识别。能够提高产品缺陷检测准确率和模型的鲁棒性。

附图说明

图1是本发明实施例提供的一种多模态数据预训练及识别方法的流程示意图;

图2是本发明另一实施例提供的一种多模态数据预训练及识别方法的流程示意图;

图3是本发明实施例提供的一种多模态数据预训练及识别装置的结构示意图;

图4是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种多模态数据预训练及识别方法,参见图1,是本发明实施例提供的一种多模态数据预训练及识别方法的流程示意图,所述方法步骤S1~S4:

S1,对采集获得的缺陷基础数据进行多源异构数据融合,构建缺陷场景规则数据库;

S2,从所述缺陷场景规则数据库中提取缺陷类型信息、特征信息和场景信息,进行数据关联,提取出所述缺陷场景规则数据库的场景因子;

S3,构建携带缺陷场景信息的自编码网络结构模型,将所述场景因子融入所述自编码网络结构模型中,并输入由各类缺陷的样本数据进行编码得到的特征向量,进行数据与规则的匹配训练,生成模态识别模型;

S4,根据所述模态识别模型对待检测样本进行缺陷识别。

在本实施例具体实施时,采集缺陷基础数据,所述缺陷基础数据具体为待检测样本历史缺陷数据,面向缺陷检测的多源异构数据进行融合,通过多源异构数据融合,构建基础的包含静态缺陷表征、动态缺陷演化、缺陷分级分类、缺陷-场景规则等信息的缺陷场景规则数据库;

依据缺陷场景规则数据库提炼场景因子,这些场景因子共同构建成包含缺陷类型信息、特征信息、场景信息的三维向量矩阵,运用该矩阵约束强制自编码器去考虑输入数据的哪些部分需要被优化复制,哪些部分需要被舍弃,因此自编码器往往能学习到数据的有效特征,舍弃无关特征,从而生成更多的缺陷场景规则,进行数据关联,提取出所述缺陷场景规则数据库的场景因子;

研究基于半监督自编码网络的场景规则知识库构建,设计携带缺陷场景信息的堆叠自编码网络结构,引入场景因子,使得场景因子在自编码网络的堆叠中隐含在层次结构里,并输入由各类缺陷的样本数据进行编码得到的特征向量,进行数据与规则的匹配训练,生成模态识别模型;

根据生成的模态识别模型能够对样本的缺陷进行识别。

本发明在缺陷采样率低和样本不均衡的条件下,结合生产工艺场景,将材料特性、制造工艺数据与高分辨率缺陷图像亚像素特征融合,通过基于材料工艺数据的样本生成、高分辨率缺陷图像亚像素特征编码、深度学习分类方法构建场景规则知识库,而自编码网络可以很好地处理小样本缺陷数据中的各种映射关系,并进行特征编码和知识建模,能够解决缺陷检测过程中面对遮挡、氧化、振动等复杂背景下缺陷识别及分类难且鲁棒性弱、待检图像容量大且深度学习方法使用从而导致的计算效率低下、缺陷成因溯源困难等核心问题。

在本发明提供的又一实施例中,所述步骤S1具体包括:

对由历史经验数据、常见规则数据和缺陷标准数据构成的缺陷基础数据进行多源异构数据融合,形成缺陷场景与缺陷类型、位置以及规模的相关联的缺陷场景规则数据库;

所述缺陷场景规则数据库包括:表面缺陷数据集、缺陷规则数据集、检测系统数据集和工艺场景数据集。

在本实施例具体实施时,缺陷基础数据的来源包括历史经验数据、常见规则数据和缺陷标准数据,历史经验数据具体为专家对缺陷判断的历史数据;

常见工业产品缺陷主要有:线、划痕、油污、点、阴影、纹理、锯齿等缺陷,而在缺陷检测时在图像中则体现为另一种形态,结合常见的缺陷图像数据表征情况,场景分析必须结合业务活动的特点,所检测的工业产品在业务中所属环节,这些对缺陷检测形成的场景判断都有重要的影响。最终通过各数据集关联,形成缺陷场景与缺陷类型、位置以及规模的相关联的缺陷场景规则数据库;

其中,缺陷场景规则数据库包括表面缺陷数据集、缺陷规则数据集、检测系统数据集和工艺场景数据集。

通过针对微米级视觉图像缺陷检测过程中面对遮挡、氧化、振动等复杂背景的分类与关联,实现准确地缺陷识别。

在本发明提供的又一实施例中,所述表面缺陷数据集D1=[表面缺陷ID,缺陷几何特征,空间分布数据,缺陷统计数据,缺陷频谱数据];

所述缺陷规则数据集D2=[缺陷规则ID,检测对象类型,缺陷分类统计数据,致损机理数据,缺陷成因规则,缺陷等级];

所述检测系统数据集D3=[检测系统ID,设备类型、生产线设计数据、技术选型];

所述工艺场景数据集D4=[工艺场景数据ID,检测对象类型、场景因素、生产工序];

所述缺陷几何特征包括:点线面缺陷、边界、骨骼、形状、位置、大小、拉伸和平移;

所述空间分布数据包括:熵、对比度、一致性和相关性;

所述缺陷统计数据包括灰度共生矩阵、自相关系数、数学形态学、直方图统计特征、分形体值和缺陷频谱子集;

所述直方图统计特征包括范围、均值、几何均值、调和平均值、标准偏差、方差和中值

所述分形体值包括拉伸、平移的分形维数和孔隙度;

所述缺陷频谱子集包括纹理频谱、污点频谱和锯齿频谱;

所述缺陷分类统计数据具体为缺陷自动划分的故障模式;

所述缺陷等级包括所述检测对象类型;

所述检测对象类型包括半导体、电路板、晶圆、织物、金属表面和木头;

所述场景因素包括作业规模和设备选型;

所述生产工序包括制坯、修磨、轧制、剪切、捆扎和成品。

在本实施例具体实施时,表面缺陷数据集具体包括缺陷几何特征(点线面缺陷、边界、骨骼、形状、位置、大小、拉伸、平移)、空间分布数据(熵、对比度、一致性和相关性)、缺陷统计数据(灰度共生矩阵、自相关系数、数学形态学、直方图统计特征(范围、均值、几何均值、调和平均值、标准偏差、方差和中值)和分形体值(拉伸、平移的分形维数和孔隙度))、缺陷频谱数据(纹理频谱、污点频谱和锯齿频谱)。

其中,熵用于反映该图像反映像素的随机性,越大越粗糙;对比度是指缺陷场景图像的亮暗的平均差异;一致性是指这批图像中度量角度的一致程度;相关性是指所获取图像与所检测场景的相关程度。整体而言,这些具体的数据集,其实都是对图像数据的检测数据集合,从不同的角度分类形成不同的子集,以方便进行图像的处理和识别。

缺陷规则数据集包括缺陷分类统计数据(缺陷自动划分到对应的故障模式)、致损机理数据、缺陷成因规则和缺陷等级(检测对象类型(半导体、电路板、晶圆、织物、金属表面、木头等))。检测系统数据集包括设备类型、生产线设计数据和技术选型;

工艺场景数据包括检测对象类型(检测对象类型(半导体、电路板、晶圆、织物、金属表面、木头等)、场景因素(作业规模、设备选型)、生产工序(制坯、修磨、轧制、剪切、捆扎、成品等)。

将表面缺陷数据集、缺陷规则数据集、检测系统数据集和工艺场景数据集分别用数据集的形式表示为:

表面缺陷数据集D1=[表面缺陷ID,缺陷几何特征,空间分布数据,缺陷统计数据,缺陷频谱数据];

缺陷几何特征子集=[表面缺陷ID,缺陷几何特征ID,点线面缺陷、边界、骨骼、形状、位置、大小、拉伸、平移];

空间分布子集=[表面缺陷ID,空间分布ID,熵、对比度、一致性、相关性];

缺陷统计子集=[表面缺陷ID,缺陷统计ID,灰度共生矩阵、自相关系数、数学形态学、直方图统计特征、分形体值];

缺陷统计子集是指缺陷数据从统计学的角度进行计算而得出的数据值。它虽然不是直接描述出缺陷的特征,但掌握这些特征分布的统计数据,有利于分析缺陷类型与共性特征的关系。这在D2数据集中是有交集的,也就是这些统计数据会最终与缺陷规则关联起来,更容易形成缺陷场景规则。

直方图统计特征子集=[表面缺陷ID,缺陷统计ID,直方图统计ID,范围、均值、几何均值、调和平均值、标准偏差、方差和中值];

分形体值子集=[表面缺陷ID,缺陷统计ID,分形体值ID,拉伸、平移的分形维数和孔隙度征];

分形体值能体现缺陷的拉伸和变形程度,产品在制作过程中,经常会因为工艺水平应用不当,造成配件的整体拉伸,从而产业间隙缺陷等。

缺陷频谱子集=[表面缺陷ID,缺陷频谱ID,纹理频谱、污点频谱、锯齿频谱];

缺陷频谱确实是指缺陷图像所展现的频谱特征,但纹理、污点、锯齿所形成的频谱特点是不一样的,该数据集是在图像缺陷过程中收集好纹理、污点、锯齿这些缺陷图像的频谱特征。

所述缺陷规则数据集D2=[缺陷规则ID,检测对象类型,缺陷分类统计数据,致损机理数据,缺陷成因规则,缺陷等级];

设备类型是指缺测设备,而检测对象类型,是指被检测对象,比如,PCB板检测、钢材检测、芯片检测、手机配件检测等。不同的检测对象具有不同的检测场景。

所述检测系统数据集D3=[检测系统ID,设备类型、生产线设计数据、技术选型];

所述工艺场景数据集D4=[工艺场景数据ID,检测对象类型、场景因素、生产工序]。

在本发明提供的又一实施例中,所述步骤S2具体包括:

从所述表面缺陷数据集中提取缺陷类型信息,从所述表面缺陷数据集与所述缺陷规则数据集中提取特征信息,从所述检测系统数据集和所述工艺场景数据集中提取场景信息;

对于缺陷Z,根据提取的缺陷类型信息、特征信息和场景信息构建的分层矩阵Z×T×R;

对于缺陷-特征关联信息,采用第一提取因子a

对特征-场景关联信息,采用第二提取因子b

根据提取得到的前项场景因子和后项场景因子确定所述场景因子;

其中,

在本实施例具体实施时,依据基础知识库提炼场景因子,这些场景因子共同构建成包含类型、特征、场景的三维向量矩阵,运用该矩阵约束强制自编码器去考虑输入数据的哪些部分需要被优化复制,哪些部分需要被舍弃,因此自编码器往往能学习到数据的有效特征,舍弃无关特征,从而生成更多的缺陷场景规则。

对缺陷场景规则数据库进行数据清洗、数据关联和转换后,最终形成包含类型信息、特征信息、场景信息的三维向量矩阵。

从表面缺陷数据集D1中提取缺陷类型信息;从表面缺陷数据集D1与所述缺陷规则数据集D2中提取特征信息;从所述检测系统数据集D3和所述工艺场景数据集D4中提取场景信息;

对于缺陷Z,可表示为

其中,n为缺陷类别数量,j为特征向量维度,j是指向量维度,样本或特征的向量维度;比如,对于缺陷Z,表面缺陷数据集D1与所述缺陷规则数据集D2代表了特征信息,而假设此时表面缺陷数据集D1与所述缺陷规则数据集D2字段加起来是11时,那么j就是代表了1~11;

Z

对于缺陷-特征关联信息,将从Z×T中进行映射信息提取,从缺陷至特征采用的第一提取因子

其中,

根据提取的前项缺陷场景因子

对于特征-场景关联信息,将从T×R中进行映射信息提取,从缺陷至特征采用的第二提取因子

其中,

根据提取的前项缺陷场景因子

场景因子=[前项场景因子,后项场景因子]。

前项场景因子表示:缺陷特征关联时的信息,用于编码器之前可引导有效特征提取,降低样本噪声;

后项场景因子表示:特征与场景关联时的信息,用于解码器之后,规则生成之前,可指导规则生成,过滤无效规则。

在本发明提供的又一实施例中,所述步骤S3具体包括将所述场景因子中的前项场景因子应用到所述自编码网络结构模型的编码器,进行有效特征提取;

将所述场景因子中的后项场景因子应用到所述自编码网络结构模型的解码器,进行规则生成;

输入由各类缺陷的样本数据编码的特征向量W,借鉴残差网络的思想,在基本操作块的结构中,在叠加时引入场景因子,使得场景因子在所述自编码网络结构模型的堆叠中隐含在层次结构里,解码输出得到场景规则输出[类型、特征、场景];

对所述场景规则输出通过半监督的堆叠自编码器,在解码阶段添加分类器实现分类功能,经过数据与规则的匹配训练,优化所述自编码网络结构模型分类器,生成所述模态识别模型。

在本实施例具体实施时,参见图2,是本发明又一实施例提供的一种多模态数据预训练及识别方法的流程示意图;

在图2中,研究基于半监督自编码网络的场景规则知识库构建,设计携带缺陷场景信息的堆叠自编码网络结构;

将所述场景因子中的包含缺陷和特征的前项场景因子应用到所述自编码网络结构模型的编码器,进行有效特征提取;将所述场景因子中包含特征和场景的后项场景因子应用到所述自编码网络结构模型的解码器,进行规则生成,使得场景因子在自编码网络的堆叠中隐含在层次结构里,在堆叠自编码网络后增加编码结构以及各分类特征信息,使得所构建模型具有模态识别和场景预判的功能;

首先在堆叠自编码网络中,编码器与解码器呈对称式结构模型,在编码网络中设计了网络的基本操作块结构。借鉴残差网络的思想,在基本操作块的结构中,在叠加时引入场景因子,使得场景因子在自编码网络的堆叠中隐含在层次结构里;

将输入样本数据X1~Xi进行数据预处理后的得到样本数据W1~Wi组成的特征向量W输入自编码网络结构模型,借鉴残差网络的思想,在基本操作块的结构中,在叠加时引入场景因子,使得场景因子在所述自编码网络结构模型的堆叠中隐含在层次结构里,解码输出得到场景规则输出[类型、特征、场景];

对所述场景规则输出通过半监督的堆叠自编码器,在解码阶段添加分类器实现分类功能,经过数据与规则的匹配训练,优化所述自编码网络结构模型分类器,生成所述模态识别模型。

基于半监督自编码网络的模态识别与场景预判方法,是指通过多源异构数据融合,构建基础的包含静态缺陷表征、动态缺陷演化、缺陷分级分类、缺陷-场景规则等信息的缺陷场景知识库。然后基于自编码网络,引入场景因子融入堆叠自编码网络,通过对某类数据样本的学习,将其编码得到特征向量,学习某类图像空间到潜在空间的映射,生成各类型、位置与程度的特征模型,进行数据与规则的匹配训练;通过缺陷场景知识库的构建和应用,使得缺陷检测模型具备了场景预判的功能,能根据缺陷信息推进其产生的成因,助力于工业缺陷产品的生产线设计和工艺的优化。

在本发明提供的又一实施例中,所述自编码网络结构模型的目标函数具体为:

所述自编码网络结构模型的损失函数具体为:

其中,V(G,D)是定义的整个目标函数,N为原所属标签的数量,

在本实施例具体实施时,本专利设计的携带缺陷场景信息的自编码网络结构模型应用于分类识别时所设计的目标函数为:

其中,V(G,D)是定义的整个目标函数,目标函数是以最大贡献角度进行计算的,是对生成对抗网络公式的改进D(X)为条件概率计算函数,该函数分为三个部分,第一部分:体现编码阶段的目标函数计算,此时追求该阶段计算与整体函数计算均尽可能大,以获取最具代表性的特征信息;第二部分为解码阶段,需使阶段输出计算值尽可能小,但整个式子计算尽可能大,以使得解码差异较小;第三部分为目标分类识别时,G(z)为所应用的分类类别数据中,在所属类别模型G(z)条件下,去较验输出信息y的概率,它可代表分类的准确程度;

损失函数为:

所述自编码网络结构模型的损失函数具体为:

其中,a、b、w、h、c为缺陷检测时每一个网格的组成变量,N为原所属标签的数量,a、b是网格左下角的点,w、h是网格的宽和高,c是网格置信度,

在本发明提供的又一实施例中,所述场景规则输出还通过堆叠自编码器的隐层训练,不断生成和更新缺陷场景规则,并补充至所述缺陷场景规则数据库中。

在本实施例具体实施时,解码器后输出结果除了能够通过半监督的堆叠自编码器,在解码阶段添加分类器实现分类功能外,还能够通过堆叠自编码器的隐层训练,不断生成和更新缺陷-场景规则知识,并补充至所述缺陷场景规则数据库中。进一步完善缺陷与场景映射规则的知识库。

在本实施例具体实施时,参见图2,根据解码器后输出生成的规则,补充场景规则知识库,即通过上一次后项因子[Yi-1]提取场景因子,对自编码网络结构模型更新场景分层矩阵,根据提取的场景因子的向量矩阵[Yi],同样补充到输入特征向量中;

在堆叠中均是以场景因子结构的形式进行堆叠的。该堆叠子结构中,前项场景因子融入第一层训练,后项场景因子融入第二层训练;其用法都是一样的,一个是阀值使用,一个是权重放大;阀值使用是指影响其激活函数,在原有的全连接基础上,通过前项/后项场景因子的矩阵进去校验,阀值过小的缺陷特征可以直接舍弃,从而防止过多的特征/场景信息,最终在应用时可以预防过拟合的产生;另一方面,进一步放大有效特征,可防止深度学习容易产生的梯度消失现象,防止有效特征丢失。通过这两方面,使得堆叠自编码网络的训练所形成的规则更加适用于缺陷场景。

在本发明提供的又一实施例中,参见图3,是本发明实施例提供的一种多模态数据预训练及识别装置的结构示意图,所述装置包括:

数据库构建模块,用于对采集获得的缺陷基础数据进行多源异构数据融合,构建缺陷场景规则数据库;

场景因子提取模块,用于从所述缺陷场景规则数据库中提取缺陷类型信息、特征信息和场景信息,进行数据关联,提取出所述缺陷场景规则数据库的场景因子;

模型生成模块,用于构建携带缺陷场景信息的自编码网络结构模型,将所述场景因子融入所述自编码网络结构模型中,并输入由各类缺陷的样本数据进行编码得到的特征向量,进行数据与规则的匹配训练,生成模态识别模型;

缺陷识别模块,用于根据所述模态识别模型对待检测样本进行缺陷识别。

需要说明的是,本发明实施例提供的所述多模态数据预训练及识别装置能够执行上述实施例中任意实施例所述的多模态数据预训练及识别方法,对多模态数据预训练及识别装置的具体功能在此不作赘述。

参见图4,是本发明实施例提供的一种终端设备的结构示意图。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如多模态数据预训练及识别程序。所述处理器执行所述计算机程序时实现上述各个多模态数据预训练及识别方法实施例中的步骤,例如图1所示的步骤S1~S5。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能。

示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。例如,所述计算机程序可以被分割成各个模块,各模块具体功能再次不作赘述。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中,所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

相关技术
  • 一种激光点云数据的识别方法、装置、设备和介质
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 一种语音识别方法、装置、设备及介质
  • 一种氨氮的识别方法、装置、存储介质及设备
  • 一种总磷的识别方法、装置、存储介质及设备
  • 一种多模态预训练方法、装置、设备及介质
  • 一种模型训练及异常数据识别方法、装置、设备及介质
技术分类

06120115929634